“预训练模式必将终结”
美国“连线”网站称,AI发展离不开三大核心要素:算法、算力和数据。如今算力随着硬件升级和数据中心扩建正在持续增长,算法也在不断迭代,但数据的增加速度开始跟不上AI的发展需要。苏茨克维尔在加拿大温哥华举行的第38届神经信息处理系统年会的演讲中警告,“我们熟知的预训练模式必将终结。”他解释说,“AI的训练数据,正像石油一样,面临着耗尽的危机。无法改变的事实是:我们只有一个互联网。我们已经达到数据峰值,不会再有更多数据了,我们必须处理好现有的数据。”
清华大学新闻学院、人工智能学院教授沈阳17日对《环球时报》记者表示,大模型的预训练是指在构建大型人工智能模型(如GPT系列)时,首先在海量未标注的数据上进行初步训练的过程。通过自监督学习方法,模型学习语言的基本结构、语法规则和广泛的知识,形成通用的语言表示。这一阶段使模型能够理解和生成自然语言,为后续的具体任务(如文本分类、问答系统等)提供坚实的基础。预训练不仅提升了模型在各种任务中的表现,还减少了对大量标注数据的需求,加速了应用开发的进程。
这并非AI业内首次注意到“数据不够用”的情况。英国《经济学人》杂志不久前也在题为《AI公司很快将耗尽大部分互联网数据》的报道中,援引研究公司Epoch AI的预测称,“互联网上可用的人类文本数据将在2028年耗尽”。
为何AI需要的数据越来越多?
沈阳介绍说,如今大模型训练对数据的需求量确实在快速增长,呈现出近似成倍叠加的趋势。具体来说,像GPT这样的模型通常需要数百亿到数万亿字的数据来进行预训练。这些庞大的数据集帮助模型深入理解语言结构和语义关系,从而实现其最终的强大性能和广泛的应用能力。
页码:下一页