大语言模型仍无法可靠区分信念与事实
在最新一期《自然·机器智能》发表的一篇论文中,美国斯坦福大学研究提醒:大语言模型(LLM)在识别用户错误信念方面存在明显局限性,仍无法可靠区分信念还是事实。研究表明,当用户的个人信念与客观事实发生冲突时,LLM往往难以可靠地作出准确判断。

图片来源于网络,如有侵权,请联系删除
图片由AI生成
这一发现为其在高风险领域(如医学、法律和科学决策)的应用敲响警钟,强调需要审慎对待模型输出结果,特别是在处理涉及主观认知与事实偏差的复杂场景时,否则LLM有可能会支持错误决策、加剧虚假信息的传播。
团队分析了24种LLM(包括DeepSeek和GPT-4o)在13000个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真或假时,较新的LLM平均准确率分别为91.1%或91.5%,较老的模型平均准确率分别为84.8%或71.5%。当要求模型回应第一人称信念(“我相信……”)时,团队观察到LLM相较于真实信念,更难识别虚假信念。具体而言,较新的模型(2024年5月GPT-4o发布及其后)平均识别第一人称虚假信念的概率比识别第一人称真实信念低34.3%。相较第一人称真实信念,较老的模型(GPT-4o发布前)识别第一人称虚假信念的概率平均低38.6%。
团队指出,LLM往往选择在事实上纠正用户而非识别出信念。在识别第三人称信念(“Mary相信……”)时,较新的LLM准确性降低4.6%,而较老的模型降低15.5%。
研究总结说,LLM必须能成功区分事实与信念的细微差别及其真假,从而对用户查询作出有效回应并防止错误信息传播。(记者张梦然)
【责任编辑:朱家齐】
阅读下一篇:
扫描二维码推送至手机访问。
版权声明:本文由每日快讯发布,如需转载请注明出处。
“大语言模型仍无法可靠区分信念与事实” 的相关文章
新华网北京1月6日电(朱家齐)在数字化浪潮席卷而来的当下,算法已然成为推动社会运转的关键引擎。它的诞生,是人类智慧为提高效率交出的一份答卷。凭借强大的数据分析和处理能力,算法让信息的筛选、资源的分配变得更加精准高效,提升了各个领域的运行效率,为我们的生活带来了便利。图片来源于网络,如有侵权,请联系删...
天津大学与清华大学联合研发出一款“双环路”脑机接口系统。此系统不仅精度更高、能耗更低,还能处理更为复杂的任务。图片来源于网络,如有侵权,请联系删除 这款基于忆阻器神经形态器件的无创演进脑机接口系统,成功揭示了脑电发展与解码器演化在脑机交互过程中的协同增强效应,实现了人脑对无人机的高效四自由度操...
“DeepSeek系列模型的发布将加速人工智能的渗透、扩散和普及,实质性带动算力需求的增长。”2月13日,《2025年中国人工智能计算力发展评估报告》发布,浪潮电子信息产业股份有限公司(以下简称“浪潮信息”)高级副总裁刘军在发布会上说。图片来源于网络,如有侵权,请联系删除 《报告》由国际数据公...
2月18日,为了让更多用户方便稳定地体验和使用DeepSeek,腾讯内部紧急协调部署,调用元宝支持微信搜索,给用户提供更多入口和选择。图片来源于网络,如有侵权,请联系删除 从2月18日开始,尚未被灰度到AI搜索的用户,点击微信对话框顶部的搜索栏,进入微信搜索,将有机会在页面中看到“下载元宝(体...
2月18日,绿源重庆基地投产仪式在重庆市举行。随着绿源数智化豪华旗舰S95顺利下线,绿源集团重庆基地正式投产。标志着绿源集团控股有限公司(以下简称“绿源”)全国第四个智能制造基地即重庆基地正式迈入新征程,开启产业链区域协同发展的新篇章。图片来源于网络,如有侵权,请联系删除 据悉,该项目一期投资...
全球主要央行降息步伐持续,澳大利亚联储周二自2020年以来首次降息,新西兰联储今日将利率再度下调50个基点。在最新经济数据不及预期后,市场预计泰国央行下周也可能再度降息。图片来源于网络,如有侵权,请联系删除 澳大利亚联储2020年来首次降息图片来源于网络,如有侵权,请联系删除 得益于...