柠檬清香

AI大模型即将陷入数据荒？专家：对空间数据、视频数据的学习利用才刚开始

2024-12-18

对于每次大模型迭代都会导致数据量需求急速增加的原因，沈阳解释称，这主要源于模型规模的扩大和性能提升的需求。随着模型参数数量增加，模型的学习和表达能力也随之增强，就需要更多的数据来充分训练这些参数，并确保模型具备良好的泛化能力。

另一方面，数据的多样性和覆盖面也是推动数据需求增长的重要因素。为了提升模型的通用性和适应性，必须使用涵盖广泛主题和语言风格的海量数据，这不仅有助于模型理解复杂的语言结构和语义关系，还能确保其在各种应用场景中表现出色。同时，随着模型应用范围的扩展，如多模态和跨领域应用，对不同类型和领域的数据需求也显著增加，进一步推动了数据量的增长。

总的来说，技术迭代与数据量之间存在紧密的正相关关系。每一次技术进步，尤其是模型规模和复杂度的提升，都会带动对更大、更丰富的数据集的需求。这种需求的急速增加不仅是为了提升模型性能和泛化能力，还为了支持其在更广泛和复杂的应用场景中的表现。

随着大模型（如GPT-4o及Open AI o1 Pro其后续版本）的规模不断扩大，对训练数据的需求量呈指数级增长。每一次模型迭代，参数数量的增加都要求更多的数据以确保模型能够充分学习和泛化。如今互联网和其他数据源的增长速度并未完全跟上这种需求，导致可用于训练的高质量数据相对稀缺。此外，随着隐私法规的日益严格，如欧盟发布《通用数据保护条例》，大模型研制企业和机构想要获取和使用大规模数据变得更加复杂和受限，进一步加剧了数据供需不平衡的问题。

未来或将进入“小数据”时代？

沈阳表示，将AI可用数据的现状比作传统矿产资源，并非单纯因为数据“总量”枯竭，更像是随着“矿藏”不断开采，能轻松获取的优质“矿石”（高质量数据）变少了，剩下的数据要么同质化较高、要么质量较低，因此无法直接满足新一代大模型的训练需求。如今的数据可能仍有海量存在，但充斥着偏见、不一致或缺乏标注，类似于经过开采剩余的矿石贫矿化严重，需要更多的精炼和加工。

AI大模型即将陷入数据荒？专家：对空间数据、视频数据的学习利用才刚开始

最新文章