因此未来要想应对这种局面,除了继续寻求新的数据来源(包括更偏僻的语料、专业领域的数据),还可以尝试合成数据、数据增强、迁移学习、联邦学习等策略,提升数据利用效率与质量管理水平。总的来说,困境不单纯是“数量不够”,更是数据“质量与可用性”不足带来的挑战,应对之策是在技术、策略、制度层面全方位提升数据处理的精度与效率。
其中合成数据成为应对大模型训练数据短缺的新思路。相比于从现实世界中采集或测量的真实数据,合成数据是基于模拟真实数据的分布特征和统计特性,再通过生成模型而创建的。它能根据实际需求生成海量可训练的数据集,但也存在所谓“过拟合”问题,导致大模型在合成数据上表现良好,但在真实场景中表现不佳。
沈阳强调,我们讨论近来在全球引发高度关注的“AI大模型预训练数据是否将耗尽”这个话题时,要厘清两个问题:一是业内讨论的预训练数据是否将“耗尽”主要针对的是可用于大模型训练的文本数据,但大模型对空间数据、视频数据,以及传感器感应到的自然界中的海量数据的学习与利用才刚刚开始。也就是说由AI大模型学习和使用文本数据迈向这些上述提到的巨量数据,还将会面临一个巨大量级的扩张。二是未来我们一方面要持续强化大模型的预训练,但更重要的是研究推理,研究智能体,研究人机共生。“也就是在研究怎样让AI通过海量数据学习,能力变强的同时,更要研究怎样让人类也变得更强。不管AI能力有多强,人类最终要能够驾驭AI。”
页码:上一页