柠檬清香

AI大模型即将陷入数据荒？专家：对空间数据、视频数据的学习利用才刚开始

2024-12-18

因此未来要想应对这种局面，除了继续寻求新的数据来源（包括更偏僻的语料、专业领域的数据），还可以尝试合成数据、数据增强、迁移学习、联邦学习等策略，提升数据利用效率与质量管理水平。总的来说，困境不单纯是“数量不够”，更是数据“质量与可用性”不足带来的挑战，应对之策是在技术、策略、制度层面全方位提升数据处理的精度与效率。

其中合成数据成为应对大模型训练数据短缺的新思路。相比于从现实世界中采集或测量的真实数据，合成数据是基于模拟真实数据的分布特征和统计特性，再通过生成模型而创建的。它能根据实际需求生成海量可训练的数据集，但也存在所谓“过拟合”问题，导致大模型在合成数据上表现良好，但在真实场景中表现不佳。

沈阳强调，我们讨论近来在全球引发高度关注的“AI大模型预训练数据是否将耗尽”这个话题时，要厘清两个问题：一是业内讨论的预训练数据是否将“耗尽”主要针对的是可用于大模型训练的文本数据，但大模型对空间数据、视频数据，以及传感器感应到的自然界中的海量数据的学习与利用才刚刚开始。也就是说由AI大模型学习和使用文本数据迈向这些上述提到的巨量数据，还将会面临一个巨大量级的扩张。二是未来我们一方面要持续强化大模型的预训练，但更重要的是研究推理，研究智能体，研究人机共生。“也就是在研究怎样让AI通过海量数据学习，能力变强的同时，更要研究怎样让人类也变得更强。不管AI能力有多强，人类最终要能够驾驭AI。”

页码:上一页

最新文章

南京一凯迪拉克销售涉嫌私收客户购车款“跑路”，有人转账26万却无法提车！

阅读16090

哈萨克斯坦称将与坠毁客机制造商合作调查飞机失事原因

阅读12212

乌方获10亿美元俄被冻资产收益克宫回应：将采取法律行动

阅读19034

中方批菲防长涉华言论出格荒唐：对此坚决反对并予以强烈谴责

阅读13266

狼来了！理想汽车不再是一家车企李想官宣做基座模型，造硅基家人

阅读10725