柠檬清香

AI大模型即将陷入数据荒？专家：对空间数据、视频数据的学习利用才刚开始

2024-12-18

“预训练模式必将终结”

美国“连线”网站称，AI发展离不开三大核心要素：算法、算力和数据。如今算力随着硬件升级和数据中心扩建正在持续增长，算法也在不断迭代，但数据的增加速度开始跟不上AI的发展需要。苏茨克维尔在加拿大温哥华举行的第38届神经信息处理系统年会的演讲中警告，“我们熟知的预训练模式必将终结。”他解释说，“AI的训练数据，正像石油一样，面临着耗尽的危机。无法改变的事实是：我们只有一个互联网。我们已经达到数据峰值，不会再有更多数据了，我们必须处理好现有的数据。”

清华大学新闻学院、人工智能学院教授沈阳17日对《环球时报》记者表示，大模型的预训练是指在构建大型人工智能模型（如GPT系列）时，首先在海量未标注的数据上进行初步训练的过程。通过自监督学习方法，模型学习语言的基本结构、语法规则和广泛的知识，形成通用的语言表示。这一阶段使模型能够理解和生成自然语言，为后续的具体任务（如文本分类、问答系统等）提供坚实的基础。预训练不仅提升了模型在各种任务中的表现，还减少了对大量标注数据的需求，加速了应用开发的进程。

这并非AI业内首次注意到“数据不够用”的情况。英国《经济学人》杂志不久前也在题为《AI公司很快将耗尽大部分互联网数据》的报道中，援引研究公司Epoch AI的预测称，“互联网上可用的人类文本数据将在2028年耗尽”。

为何AI需要的数据越来越多？

沈阳介绍说，如今大模型训练对数据的需求量确实在快速增长，呈现出近似成倍叠加的趋势。具体来说，像GPT这样的模型通常需要数百亿到数万亿字的数据来进行预训练。这些庞大的数据集帮助模型深入理解语言结构和语义关系，从而实现其最终的强大性能和广泛的应用能力。

页码:下一页

AI大模型即将陷入数据荒？专家：对空间数据、视频数据的学习利用才刚开始

最新文章