弱智吧成为大模型重要语料来源（关于大模型语料的简介）

2024-04-05 11:57:04 编辑：容波宜来源：

导读近日一篇人工智能领域的论文将百度贴吧的弱智吧推上风口浪尖，缺乏训练数据的AI大模型将目光投向了弱智吧，根据论文内容，使用弱智吧帖子标...

近日一篇人工智能领域的论文将百度贴吧的“弱智吧”推上风口浪尖，缺乏训练数据的AI大模型将目光投向了弱智吧，根据论文内容，使用弱智吧帖子标题加上GPT-4回答微调之后的Yi-34B模型评估结果超过精心收集的SFT指令集数据，在安全性评估方面也位于第二名。

1.最近大型语言模型取得了突出的进展，但是在中文指令调优方面仍然存在着一定的短板，现有的数据集基本上都是以英语为中心，或者与现实世界的中国用户交互模式存在差别。

2.为了改善LLM在中文语境下的能力，10家机构联合发布的研究提出了COIG-CQIA，这是一个中文指令调优数据集，数据来源包括问答社区、维基百科以及现有的NLP数据集。

3.这一研究成果提出了一个高质量的中文指令调优数据集，专门用于和人类交互保持一致，并且通过严格的过滤程序实现。

4.现在中文大模型的开发难点在于缺乏高质量的中文数据集，研究团队认为各种中文社交媒体以及论坛是大模型训练的最佳语料来源，为此开发者从许多社交平台中收集人工编写的文本集合，最终构建出了数据集。

5.在对来自不同平台的数据集进行评估时，开发者发现在多个比分当中，弱智吧提供的数据训练在分类表现中最好，对此进行微调之后的Yi-34B评测中，弱智吧的数据训练表现几乎在全领域中都拿到第一的成绩。

6.对于弱智吧数据集这样的结果，开发者也感到意外，人们认为是弱智吧的数据特性有助于增强模型的逻辑推理能力，使其在大多数遵循指令的任务中表现更加出色。弱智吧有许多语料看起来更像是脑筋急转弯，这能大大弥补大模型的逻辑能力。

标签：弱智吧大模型

免责声明：本文由用户上传，如有侵权请联系删除！

本站除标明“本站原创”外所有信息均转载自互联网版权归原作者所有。

邮箱：toplearningteam#gmail.com (请将#换成@)