返回 柠檬清香

AI大模型即将陷入数据荒?专家:对空间数据、视频数据的学习利用才刚开始

2024-12-18

因此未来要想应对这种局面,除了继续寻求新的数据来源(包括更偏僻的语料、专业领域的数据),还可以尝试合成数据、数据增强、迁移学习、联邦学习等策略,提升数据利用效率与质量管理水平。总的来说,困境不单纯是“数量不够”,更是数据“质量与可用性”不足带来的挑战,应对之策是在技术、策略、制度层面全方位提升数据处理的精度与效率。
其中合成数据成为应对大模型训练数据短缺的新思路。相比于从现实世界中采集或测量的真实数据,合成数据是基于模拟真实数据的分布特征和统计特性,再通过生成模型而创建的。它能根据实际需求生成海量可训练的数据集,但也存在所谓“过拟合”问题,导致大模型在合成数据上表现良好,但在真实场景中表现不佳。
沈阳强调,我们讨论近来在全球引发高度关注的“AI大模型预训练数据是否将耗尽”这个话题时,要厘清两个问题:一是业内讨论的预训练数据是否将“耗尽”主要针对的是可用于大模型训练的文本数据,但大模型对空间数据、视频数据,以及传感器感应到的自然界中的海量数据的学习与利用才刚刚开始。也就是说由AI大模型学习和使用文本数据迈向这些上述提到的巨量数据,还将会面临一个巨大量级的扩张。二是未来我们一方面要持续强化大模型的预训练,但更重要的是研究推理,研究智能体,研究人机共生。“也就是在研究怎样让AI通过海量数据学习,能力变强的同时,更要研究怎样让人类也变得更强。不管AI能力有多强,人类最终要能够驾驭AI。”

最新文章

南京一凯迪拉克销售涉嫌私收客户购车款“跑路”,有人转账26万却无法提车!

新闻

 

阅读16090

哈萨克斯坦称将与坠毁客机制造商合作调查飞机失事原因

新闻

 

阅读12212

乌方获10亿美元俄被冻资产收益 克宫回应:将采取法律行动

新闻

 

阅读19034

中方批菲防长涉华言论出格荒唐:对此坚决反对并予以强烈谴责

影视

 

阅读13266

狼来了!理想汽车不再是一家车企 李想官宣做基座模型,造硅基家人

新闻

 

阅读10725

2022 ipingguo.net 冀ICP备20014368号-1

冀公网安备13010802001966