专家:高质量数据集对AI至关重要 推动产业落地关键引擎
人工智能技术的突破性进展正深刻重塑全球产业格局,高质量数据集作为人工智能模型训练与应用的基石,已成为国家科技发展的核心要素。高质量数据集不仅是技术创新的“燃料”,更是推动超级人工智能、具身智能、自动驾驶等未来产业落地的关键引擎。
8月26日,中国信息通信研究院副院长魏亮在“2025人民数据大会”发表主旨演讲时指出,在大模型为代表的人工智能技术发展过程中,数据是大模型智慧的来源,任何一个高性能大模型,都离不开高质量的数据集。多模态数据、具身智能数据、推理思维链数据和长视频数据是下一步高质量数据集建设的重点。
随着人工智能加速迭代,大模型如雨后春笋般不断涌现,大模型需要的数据集增速远远高于高质量数据集生产和生成的速度。高质量、高价值密度的数据集将成为企业差异化竞争的关键,成为企业人工智能业务发展的护城河。拥有高质量数据的企业可以训练出好用的垂类模型,当这些模型在生产中大规模使用时,会生成更多高质量数据再反馈到该模型中,从而实现“数据飞轮”效应。
高质量数据的供给有三个方面的措施:数据技术、数据工程以及数据治理。数据技术包括新一代标注技术和合成技术。当前,高技术含量、高知识密度、高价值的应用,行业顶尖专家的高水平数据可能需要几十美元甚至上百美元,这成为新一代标注技术的方向。合成技术最初用于解决流通中的隐私问题,如今也在应对训练集不足的问题,包括物理仿真、统计模型、机器学习等领域发挥更大作用。数据工程旨在提升模型数据集管理和效率,即能够规模化、高效生成好用的数据集,围绕管理体系、开发维护、质量控制、资源运行和合规可用五大要素搭建数据工程。数据治理则确保数据在控制过程中实现高质量和可靠,同时满足安全与合规及伦理要求,更好地服务于数据集建设。
魏亮强调,高质量数据集的建设是提高人工智能性能的关键,也是推动“人工智能+”行动落地的保证。随着“人工智能+”行动的发布,标志着人工智能进入一个数据驱动的新阶段。通过AI的数据技术、数据工程、数据治理,共同推动高质量数据要素的高效能供给。专家:高质量数据集对AI至关重要 推动产业落地关键引擎