阿里大模型开源读图识物基于通义千问7B打造可以商用

2023-08-28 14:52:48 编辑：滕唯爱来源：

导读阿里再一次推出大规模视觉语言模型Qwen-VL，上线之后可以直接开源。Qwen-VL是基于通义千问-7B打造的多模态大模型，支持多种不同的输入，包...

阿里再一次推出大规模视觉语言模型Qwen-VL，上线之后可以直接开源。Qwen-VL是基于通义千问-7B打造的多模态大模型，支持多种不同的输入，包括图像输入、文本输入以及检测框输入等等。除了文字输出之外，也支持检测框输出。

这款模型可以支持多语言对话，端到端支持图片里中英双语的长文识别。支持多图输入和比较，指定图片问答，多图文学创作等等。在视觉定位能力方面做得也比较完美，即使图片当中有非常复杂的人物，也能够根据使用者的需求，精准的找到对应目标。在模型架构上引入视觉编码器 ViT，通过位置感知的视觉语言适配器连接两者，能够让大模型支持视觉信号输入。引入高分辨率的多任务视觉语言数据，多项任务可以做联合预训练。

标签：阿里大模型，通义千问