IT之家 2 月 20 日报道称,当用户与 AI 聊天机器人长时间交谈时,他们可能会感觉越来越“愚蠢”,而这种感觉是有科学依据的。在 Windows Central 今天发布的一份报告中,微软研究院和 Salesforce 的一项联合研究发现,即使是最先进的大规模语言模型,在多次重复对话后也会很快变得不太可靠。研究人员分析了 15 个顶级模型(包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4)上超过 200,000 个模拟对话,发现了系统中一个被称为“对话丢失”的缺陷。数据显示,这些模型在单个快速任务上可以实现高达 90% 的成功率,但当同一任务被拆分为多个自然交互时,成功率骤降至 65% 左右。研究指出,虽然模型本身的“智能”并没有明显下降,其核心功能仅下降了约15%,“不可靠性”增加了112%。换句话说,大规模的AI模型仍然具有解决问题的能力,但在多次交互迭代后变得非常不稳定,难以持续跟踪上下文。该报告指出,当前大多数模型主要是在“单轮”基准上进行评估,即一次性接收所有指令的理想实验设置。然而,真正的人类交流通常是分阶段发生的,信息是在多次交互中逐渐添加的。研究表明,当任务被“拆分”为多轮时,即使是最先进的模型也容易出现系统错误。研究人员进一步分析了导致表现不佳的行为模式机制。首先是“早产一代”。在用户充分表达其需求之前,模型通常会尝试提供最终答案。如果从一开始就形成了错误的假设(TI注:可以参考第一个t 印象),模型将在添加新信息时自行纠正。相反,他们继续根据该错误进行推理,并且错误会随着时间的推移而增加。二是“应对通胀”。对于多轮对话,模型的响应持续时间比单轮对话增加了 20% 至 300%。较长的回答往往包含更多的假设或“幻觉”,这些假设或“幻觉”会融入当前对话的上下文,并进一步影响后续推论的准确性。令人惊讶的是,即使是新一代带有“额外思维”工具的推理模型,例如 OpenAI o3 和 DeepSeek R1,也未能在多轮交互中显着提高性能。研究还发现,将模型的温度参数设置为 0(一种常用的确保一致性的技术)对于此类语音障碍几乎没有什么保护作用。这一发现引发了人们对 AI 行业目前如何估值的疑问。archers 指出,现有的基准主要基于理想的单轮场景,而忽略了现实世界的模型性能。行动。这一结论对于依赖人工智能创建复杂代理和交互流程的开发人员来说是一个严峻的挑战。目前,解决这一问题最有效的方法是减少多轮来回通信,并在一条消息中一次性提供所有必要的数据、约束和指令。完整的系统,提高输出的一致性。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。