您的位置: 首页 >科技 >

AI大模型无米下锅 合成数据优势凸显 硅谷巨头加速布局

2023-05-21 17:18:32 编辑:江卿辰 来源:
导读 微软,谷歌,英伟达等一系列硅谷的商业巨头,对于合成数据领域相关的业务正在加速布局,合成数据也显示出了多种的优势。合成数据是通过计算...

微软,谷歌,英伟达等一系列硅谷的商业巨头,对于合成数据领域相关的业务正在加速布局,合成数据也显示出了多种的优势。合成数据是通过计算机技术人工所生成的,数据类型并不由真实的事件将数据产生,但合成数据同样也具有可用性的特点,在数学和统计学领域,能够将原始数据属性反映出来可以作为原始数据的一种代替品,对于AI大模型进行训练,并且验证大模型的准确性。

大模型训练过程中除了要有庞大数据量,支撑数据本身的质量也是极为重要的,ChatGPT在训练的时候一共使用数据达到45TB,有将近1万个单词包含在内, ChatGPT等一系列大模型的训练,主要是从书籍、期刊、维基百科等众多方面得来的,总体来看,数据方面是比较依赖互联网现有的公开数据。

在互联网上文本参考的数量毕竟是有限的,GPT-3在数据参考方面已经达到了千亿级别,下一代的大模型在参考数量上达到万亿级别以上之后,就会出现数据短缺这一问题,让训练出现瓶颈,在这种背景之下,合成数据的重要性就不断的显现出来。

合成数据拥有更低成本,更高效率和更高的质量这三大特点,这也是合成数据所具有的优势,根据市场的调研机构在预测中看到2024年人工智能数据分析中的数据其中大约60%都是从合成数据当中得来的。

以自动驾驶领域作为例子,在实际驾驶方面拥有着较为复杂的路况和很多的变量,极端天气下会对路况信息获得较为困难,通过合成数据,就可以将各种场景进行模拟的驾驶,既保证了安全,同时也让驾驶能力提高。


免责声明:本文由用户上传,如有侵权请联系删除!

最新文章

精彩推荐

图文推荐

点击排行

2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ   备案号:

本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。

邮箱:toplearningteam#gmail.com (请将#换成@)