您的位置: 首页 >科技 >

阿里大模型开源 读图识物 基于通义千问7B打造 可以商用

2023-08-28 14:52:48 编辑:滕唯爱 来源:
导读 阿里再一次推出大规模视觉语言模型Qwen-VL,上线之后可以直接开源。Qwen-VL是基于通义千问-7B打造的多模态大模型,支持多种不同的输入,包...

阿里再一次推出大规模视觉语言模型Qwen-VL,上线之后可以直接开源。Qwen-VL是基于通义千问-7B打造的多模态大模型,支持多种不同的输入,包括图像输入、文本输入以及检测框输入等等。除了文字输出之外,也支持检测框输出。

这款模型可以支持多语言对话,端到端支持图片里中英双语的长文识别。支持多图输入和比较,指定图片问答,多图文学创作等等。在视觉定位能力方面做得也比较完美,即使图片当中有非常复杂的人物,也能够根据使用者的需求,精准的找到对应目标。在模型架构上引入视觉编码器 ViT,通过位置感知的视觉语言适配器连接两者,能够让大模型支持视觉信号输入。引入高分辨率的多任务视觉语言数据,多项任务可以做联合预训练。


免责声明:本文由用户上传,如有侵权请联系删除!

最新文章

精彩推荐

图文推荐

点击排行

2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ   备案号:

本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。

邮箱:toplearningteam#gmail.com (请将#换成@)