返回 柠檬清香

AI大模型即将陷入数据荒?专家:对空间数据、视频数据的学习利用才刚开始

2024-12-18
“预训练模式必将终结”
美国“连线”网站称,AI发展离不开三大核心要素:算法、算力和数据。如今算力随着硬件升级和数据中心扩建正在持续增长,算法也在不断迭代,但数据的增加速度开始跟不上AI的发展需要。苏茨克维尔在加拿大温哥华举行的第38届神经信息处理系统年会的演讲中警告,“我们熟知的预训练模式必将终结。”他解释说,“AI的训练数据,正像石油一样,面临着耗尽的危机。无法改变的事实是:我们只有一个互联网。我们已经达到数据峰值,不会再有更多数据了,我们必须处理好现有的数据。”

清华大学新闻学院、人工智能学院教授沈阳17日对《环球时报》记者表示,大模型的预训练是指在构建大型人工智能模型(如GPT系列)时,首先在海量未标注的数据上进行初步训练的过程。通过自监督学习方法,模型学习语言的基本结构、语法规则和广泛的知识,形成通用的语言表示。这一阶段使模型能够理解和生成自然语言,为后续的具体任务(如文本分类、问答系统等)提供坚实的基础。预训练不仅提升了模型在各种任务中的表现,还减少了对大量标注数据的需求,加速了应用开发的进程。
这并非AI业内首次注意到“数据不够用”的情况。英国《经济学人》杂志不久前也在题为《AI公司很快将耗尽大部分互联网数据》的报道中,援引研究公司Epoch AI的预测称,“互联网上可用的人类文本数据将在2028年耗尽”。
为何AI需要的数据越来越多?
沈阳介绍说,如今大模型训练对数据的需求量确实在快速增长,呈现出近似成倍叠加的趋势。具体来说,像GPT这样的模型通常需要数百亿到数万亿字的数据来进行预训练。这些庞大的数据集帮助模型深入理解语言结构和语义关系,从而实现其最终的强大性能和广泛的应用能力。

最新文章

南京一凯迪拉克销售涉嫌私收客户购车款“跑路”,有人转账26万却无法提车!

新闻

 

阅读16394

哈萨克斯坦称将与坠毁客机制造商合作调查飞机失事原因

新闻

 

阅读12332

乌方获10亿美元俄被冻资产收益 克宫回应:将采取法律行动

新闻

 

阅读13907

中方批菲防长涉华言论出格荒唐:对此坚决反对并予以强烈谴责

影视

 

阅读11139

狼来了!理想汽车不再是一家车企 李想官宣做基座模型,造硅基家人

新闻

 

阅读13010

2022 ipingguo.net 冀ICP备20014368号-1

冀公网安备13010802001966