这些人工智能(AI)生成的“胡言乱语”虽是网友们茶余饭后的笑谈,但提醒我们要清醒认识到其背后折射出的问题:数据质量是大模型应用成败的关键。以个性化推荐AI系统为例,一些企业在开发过程中,虽然收集了大量的用户行为数据,但数据中充斥着错误的标注、重复的数据以及相互矛盾的信息,数据的量增加了,但系统推荐的准确性并没有显著提升。《自然》杂志(Nature)刊登的一篇有关大模型可靠性研究的文章指出,一个西班牙研究团队发现,包括OpenAI公司的GPT在内的几个大模型升级后,虽然参数量更大了,误答情况却更严重了。因此,大模型长得壮不壮,不仅取决于“食量”(即数据的数量),更在于食物的“质量”(即数据的质量)——吃得饱并不等同于吃得好。
数据是大模型的基石,在数据质量不高、可靠性缺失的情况下,一味追求大模型参数量的增加,不仅无法提升模型性能,反而会放大偏差和谬误,产生更多不可信数据。如此一来,势必造成计算与存储资源的浪费,增加开发和维护成本,降低用户信任度。更为严重的是,这种“大模型幻觉”和“灾难性遗忘”现象如果发生在精确性要求极高的工业生产领域中,还可能引发不可预测的风险和隐患。以油气勘探为例,基于大模型给出的错误预测进行开采可能导致数亿元的资金损失,并对自然环境造成不可逆转的破坏。
提升大模型性能,关键是处理好数据“质”和“量”的关系,构建大规模、高质量的数据集。应建立完善的数据收集、清洗、验证和存储机制,加强对数据质量的监控和评估,确保数据的准确性、完整性和一致性。此外,还应注重跨领域合作,引入数据科学家、AI算法工程师等多方力量,开展大模型算法合作、制定数据共享和隐私安全保密协议,推动大模型产学研用生态建设。
如今,大模型的发展已迈入多模态融合阶段。通过加强数据治理,优化人工智能学习、训练和验证的“基础食材”,端上大规模、高质量、多模态数据集的“丰盛大餐”,必将助力大模型能力的提升,让人工智能更好地赋能千行百业、造福人类社会。
关键词:
凡注有"环球传媒网 - 环球资讯网 - 环球生活门户"或电头为"环球传媒网 - 环球资讯网 - 环球生活门户"的稿件,均为环球传媒网 - 环球资讯网 - 环球生活门户独家版权所有,未经许可不得转载或镜像;授权转载必须注明来源为"环球传媒网 - 环球资讯网 - 环球生活门户",并保留"环球传媒网 - 环球资讯网 - 环球生活门户"的电头。
- 大模型既要“吃得饱”更要“吃得好”2025-03-04
- 大模型既要“吃得饱”更要“吃得好”2025-03-04
- 当机器人照镜子,它看见了什么2025-03-04
- 大语言模型意识水平测评报告显示:DeepSeek2025-03-04
- 热门概念蕴机遇 低空经济企业频获订单 产2025-03-04
- 多款手机接入DeepSeek 消费电子厂商发力大模型2025-03-04
- 加速崛起: 国产单机游戏如何保持发展“后2025-03-04
- 单机游戏热下的冷思考2025-03-04
- 从世界移动通信大会看 5G进阶与AI爆发2025-03-04
- 英特尔再度推迟在美芯片厂完工时间2025-03-04
- “祖冲之三号”问世!中国再创全球量子计算2025-03-04
- 求解特定问题比超算快千万亿倍!中国科学家2025-03-04
- 求解特定问题比超算快千万亿倍!中国科学家2025-03-04
- 健康聆听 无碍沟通|全国爱耳日2025-03-04
- 中新健康周报|10款药品被纳入重点监控名单2025-03-04
- 警惕听力受损 助力无碍沟通2025-03-04
- 过量的盐威胁健康 这份普通人切实可行的减2025-03-04
- 丁列明委员:中国医药创新领域大有可为2025-03-04
- 邢界红代表:建议对民族医药经典名方进行系2025-03-04
- 中新健康|气胸为何多发于瘦高个男青年?医2025-03-04
- 国家医保局印发《耳鼻喉科医疗服务价格项目2025-03-04
- 国家医保局印发《耳鼻喉科医疗服务价格项目2025-03-04
- 专家:AI技术是推动互联网医疗发展的核心动2025-03-04
- 守护耳朵健康,专家称这个情况不可轻视2025-03-04
- 让1500名脑瘫儿站起来,王川代表连续3年建2025-03-04
- 让1500名脑瘫儿站起来,王川代表连续3年建2025-03-04
- 身体有结节?不要慌!这些天然“散结方”赶2025-03-04
- 垂类大模型竞争白热化,微医医疗大模型拿下2025-03-04
- 中国科学家首次揭示细菌抗肿瘤关键原理2025-03-04
- 肥胖危害多 专家:中国开展多学科联合诊疗2025-03-04