清晰指向，说出坐标，Shikra开启多模态大模子参考对于话新维度

休闲 2024-10-28 17:15:57 3

在人类的清晰同样艰深交流中，每一每一会关注场景中差距的指向坐标地域或者物体，人们可能经由语言并指向这些地域来妨碍高效的说出信息交流。这种交互方式被称为参考对于话（Referential Dialogue）。开启考对

假如 MLLM 长于这项本领，多模度它将带来良多使人欢喜的模参运用。好比，于话将其运用到 Apple Vision Pro 等混合事实 (XR) 眼镜中，清晰用户可能运用视线凝望调拨任何内容与 AI 对于话。指向坐标同时 AI 也可能经由高亮等方式来指向某些地域，说出实现与用户的开启考对高效交流。

本文提出的多模度 Shikra 模子，就给予了 MLLM 这样的模参参考对于话能耐，既可能清晰位置输入，于话也可能发生位置输入。清晰

论文地址：http://arxiv.org/abs/2306.15195
代码地址：https://github.com/shikras/shikra

中间走光

Shikra 可能清晰用户输入的 point/bounding box，并反对于 point/bounding box 的输入，可能以及人类无缝地妨碍参考对于话。

Shikra 妄想重大直接，接管非拼接式妄想，不需要格外的位置编码器、前 / 后目的检测器或者外部插件模块，致使不需要格外的辞汇表。

如上图所示，Shikra 可能精确清晰用户输入的定位地域，并能在输入中援用与输入时差距的地域妨碍交流，像人类同样经由对于话以及定位妨碍高效交流。

如上图所示，Shikra 不光具备 LLM 所有的根基知识，还可能基于位信托息做出推理。

如上图所示，Shikra 可能对于图片中正在爆发的使命发生详细的形貌，并为参考的物体天生精确的定位。

尽管 Shikra 不在 OCR 数据集上特意磨炼，但也具备根基的 OCR 能耐。

更多例子

其余传统使命

措施

模子架构接管 CLIP ViT-L/14 作为视觉主干，Vicuna-7/13B 作为基语言模子，运用一层线性映射衔接 CLIP 以及 Vicuna 的特色空间。

Shikra 直接运用做作语言中的数字来展现物体位置，运用 [xmin, ymin, xmax, ymax] 展现领土框，运用 [xcenter, ycenter] 展现地域中间点，地域的 xy 坐标凭证图像巨细妨碍归一化。每一个数字默认保存 3 位小数。这些坐标可能出如今模子的输入以及输入序列中的任何位置。记实坐标的方括号也做作地出如今句子中。

试验服从

Shikra 在传统 REC 、VQA 、Caption 使命上都能取患上优异展现。同时在 PointQA-Twice 、Point-V7W 等需要清晰位置输入的 VQA 使命上取患了 SOTA 服从。

本文运用 POPE benchmark 评估了 Shikra 发生幻觉的水平。Shikra 患上到了以及 InstrcutBLIP 至关的服从，并远超近期其余 MLLM。

脑子链（CoT），旨在经由在最终谜底前削减推理历程以辅助 LLM 回回重大的 QA 下场。这一技术已经被普遍运用到做作语言处置的种种使掷中。可是若何在多模态场景下运用 CoT 则尚待钻研。特意由于当初的 MLLM 还存在严正的幻视下场，CoT 每一每一会发生幻觉，影响最终谜底的精确性。经由在分解数据集 CLEVR 上的试验，钻研发现，运用带有位信托息的 CoT 时，可能实用削减模子幻觉后退模子功能。

论断

本文介绍了一种名为 Shikra 的重大且不同的模子，以做作语言的方式清晰并输入空间坐标，为 MLLM 削减了相似于人类的参考对于话能耐，且无需引入格外的辞汇表、位置编码器或者外部插件。

本文地址：https://pfjybcil.strain.blog/html/176e499510.html

版权声明

本文仅代表作者观点，不代表本站立场。
本文系作者授权发表，未经许可，不得转载。

全站热门

叶罗丽：齐娜与世言铠共鸣，魔术师星尘想干什么？孟婆身为弱女子，六界之内为何无人敢动？看看她的丈夫和爹是谁

惨遭4连败，热火成东部鱼腩！希罗无力救主，巴特勒要好自为之少女说篮球2023-11-02 11:23江西少女说篮球2023-11-02 11:23江西

多大仇！马赛球迷袭击里昂大巴，意大利传奇头部出血，比赛改期

亚残运会盲人足球角逐中国队力克日本队迎来两连胜

原创穆帅麻烦大了！一场1-1后2巨星一伤一停，后3轮要踢那不勒斯尤文

NBA | 利拉德雄鹿首秀仍是超巨模样接管比赛“解放”字母哥回顾：谁也想不到，内娱最后的尊严，居然是61岁的吴镇宇给的

1日NBA 森林狼-掘金：森林狼三巨头惨遭吐槽，掘...

单节17分，豪取39分！雄鹿5换1生意赚大了！没哈登，76人现底细

清晰指向，说出坐标，Shikra开启多模态大模子参考对于话新维度

本文地址：https://pfjybcil.strain.blog/html/176e499510.html

版权声明

热门文章

热门标签

全站热门

热门文章

清晰指向，说出坐标，Shikra开启多模态大模子参考对于话新维度

本文地址：https://pfjybcil.strain.blog/html/176e499510.html

版权声明

相关文章

热门文章

热门标签

全站热门

热门文章