12版:数字检察·科技 上一版   下一版
 
标题导航
· 永远有目标,永远在路上
· 训练模型的“养分”从何而来
· 与大语言模型“交手”
· 让无证驾驶“驶”不得
· 数智化推动网络餐饮食品安全数治化
 
正义网 | 返回检察日报首页 | 检察日报检索
上一篇   下一篇 2025年02月26日 上一期  下一期
训练模型的“养分”从何而来

  以往,人工智能模型主要依赖真实的数据来构建、训练和改进,而真实数据多由公众创建的文本、视频和图像构成,科技人员通过调查、实验、观察或挖掘网站及社交媒体等途径收集。随着人工智能的快速发展,公众生成数据的速度已无法应对人工智能模型不断增长的需求,真实数据量略显匮乏。

  为给人工智能模型构建提供充足的“养分”,科技人员正转向使用由算法生成、可以模仿真实世界的合成数据。合成数据在数字世界中创造生成,作为真实数据的替代品,可用来训练、测试、验证人工智能模型。合成数据可无限供应,为训练人工智能模型提供经济高效且快捷的解决方案,同时有效解决了人工智能训练使用真实数据时面临的个人隐私和敏感信息保护等问题。

  虽可解燃眉之急,但也并非尽善尽美。当人工智能模型过于依赖合成数据时,它们会产生更多“幻觉”,编造看似合理可信但实际上并不存在的信息,导致模型的质量和性能下降。此外,合成数据也存在过于简单化的风险,它可能缺乏真实数据集蕴含的细节和多样性,这可能导致其训练的人工智能模型过于简单,缺乏充足的实用性。人工智能模型的发展在很大程度上取决于数据质量,虽然合成数据在克服数据短缺方面发挥重要作用,但对合成数据的使用,必须保持谨慎态度,尽量减少错误,确保其作为真实数据的可靠补充,从而保障人工智能模型系统的准确性和可信度。

  ——摘编于《科技日报》

上一篇   下一篇
 

检察日报社简介   关于我们   联系我们   采编人员
正义网版权所有 未经授权 严禁转载   Copyright 1998-2008,all rights reserved