当前位置:首页 > 环球风云 > 大语言模型仍无法可靠区分信念与事实

大语言模型仍无法可靠区分信念与事实

2025年11月07日64863

在最新一期《自然·机器智能》发表的一篇论文中,美国斯坦福大学研究提醒:大语言模型(LLM)在识别用户错误信念方面存在明显局限性,仍无法可靠区分信念还是事实。研究表明,当用户的个人信念与客观事实发生冲突时,LLM往往难以可靠地作出准确判断。

大语言模型仍无法可靠区分信念与事实
图片来源于网络,如有侵权,请联系删除

图片由AI生成

  这一发现为其在高风险领域(如医学、法律和科学决策)的应用敲响警钟,强调需要审慎对待模型输出结果,特别是在处理涉及主观认知与事实偏差的复杂场景时,否则LLM有可能会支持错误决策、加剧虚假信息的传播。

  团队分析了24种LLM(包括DeepSeek和GPT-4o)在13000个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真或假时,较新的LLM平均准确率分别为91.1%或91.5%,较老的模型平均准确率分别为84.8%或71.5%。当要求模型回应第一人称信念(“我相信……”)时,团队观察到LLM相较于真实信念,更难识别虚假信念。具体而言,较新的模型(2024年5月GPT-4o发布及其后)平均识别第一人称虚假信念的概率比识别第一人称真实信念低34.3%。相较第一人称真实信念,较老的模型(GPT-4o发布前)识别第一人称虚假信念的概率平均低38.6%。

  团队指出,LLM往往选择在事实上纠正用户而非识别出信念。在识别第三人称信念(“Mary相信……”)时,较新的LLM准确性降低4.6%,而较老的模型降低15.5%。

  研究总结说,LLM必须能成功区分事实与信念的细微差别及其真假,从而对用户查询作出有效回应并防止错误信息传播。(记者张梦然)

【责任编辑:朱家齐】
    阅读下一篇:

              扫描二维码推送至手机访问。

              版权声明:本文由每日快讯发布,如需转载请注明出处。

              “大语言模型仍无法可靠区分信念与事实” 的相关文章

              国家计算机病毒应急处理中心监测发现14款违规移动应用

              国家计算机病毒应急处理中心监测发现14款违规移动应用

                新华社天津2月17日电(记者张建新、栗雅婷)国家计算机病毒应急处理中心近期通过互联网监测发现,14款移动应用存在隐私不合规行为。图片来源于网络,如有侵权,请联系删除  1、个人信息处理者在处理个人信息前,未以显著方式、清晰易懂的语言真实、准确、完整地向个人告知个人信息处理者的名称或者姓名、联系方...

              2025年我国智能算力规模预计增长43%

              2025年我国智能算力规模预计增长43%

                “DeepSeek系列模型的发布将加速人工智能的渗透、扩散和普及,实质性带动算力需求的增长。”2月13日,《2025年中国人工智能计算力发展评估报告》发布,浪潮电子信息产业股份有限公司(以下简称“浪潮信息”)高级副总裁刘军在发布会上说。图片来源于网络,如有侵权,请联系删除  《报告》由国际数据公...

              腾讯紧急调用元宝支持微信搜索,助力更多用户体验DeepSeek

              腾讯紧急调用元宝支持微信搜索,助力更多用户体验DeepSeek

                2月18日,为了让更多用户方便稳定地体验和使用DeepSeek,腾讯内部紧急协调部署,调用元宝支持微信搜索,给用户提供更多入口和选择。图片来源于网络,如有侵权,请联系删除  从2月18日开始,尚未被灰度到AI搜索的用户,点击微信对话框顶部的搜索栏,进入微信搜索,将有机会在页面中看到“下载元宝(体...

              小心AI伴侣背后的“温柔陷阱”

              小心AI伴侣背后的“温柔陷阱”

                随着大模型技术快速发展,新型类人情感聊天机器人——“AI伴侣”日益流行。目前,市面上已有100多款由AI驱动的应用程序,不仅能够进行全天候情感交流,还可以满足不同用户的个性化需求。殊不知,用户在享受温柔陪伴的同时,一些法律风险也悄然而至。图片来源于网络,如有侵权,请联系删除  隐私可能被窃取和滥...

              普京:愿同特朗普会面

              普京:愿同特朗普会面

                俄罗斯总统普京19日说,他非常愿意同美国总统特朗普会面,但会面前必须做好准备。图片来源于网络,如有侵权,请联系删除   据俄罗斯媒体报道,普京当天参观圣彼得堡一家制造厂,其间积极评价18日在沙特阿拉伯举行的俄美会谈。他在回答记者提问时说,此次会谈旨在恢复俄美信任,两国在恢复共同关心的各领域工作...

              天问二号探测器运抵发射场

              天问二号探测器运抵发射场

                新华社北京2月20日电(记者宋晨)记者从国家航天局获悉,2月20日,中国行星探测工程天问二号任务探测器运抵西昌卫星发射中心。天问二号任务将通过一次发射,实施小行星2016HO3伴飞、取样、返回和主带彗星311P伴飞探测等多项任务。目前,发射场设施状态良好,正按计划有序推进发射前各项测试准备工作,...