可信大模|贝斯特最奢华平台型新挑战：噪声思维链提示下的鲁棒推理准确率直降40%

编辑：小编日期：2024-12-16 18:58 / 人气：

　　世纪大和解★★★！马斯克★“重新关注”昔日华人首富感谢两年前5亿美元支持收购推特

　　我们在 NoRa 数据集上全面测试了 CD-CoT，并对比了多个需要额外监督信息的去噪方法（见图 10）★★★，我们发现：

　　图 10. 各种需要额外监督信息的方法在 NoRa 数据集上的测评结果

　　这些噪声思维链通常源自 LLM 的实际应用，比如众包平台、对话系统贝斯特最奢华平台、机器生成数据等场景，人类和机器在推理中都会不可避免地犯错★★★，从而产生噪声思维链★。因此★★，噪声思维链的实际影响和技术挑战不容小觑。当前，我们仍然不清楚 LLM 在面对噪声思维链提示时的鲁棒性能如何，也缺少有效的应对策略。因此，非常有必要构建一个新的数据集，用于系统评估当前 LLM 在噪声思维链场景下的鲁棒性，以及验证相应的鲁棒推理策略。

　　IDC★：预计2025年中国智能手机市场出货量将达2.89亿同比增长1.6%

　　特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布★★★，本平台仅提供信息存储服务★。

　　马云想让黄渤免费代言，黄渤：★“可以，你送我一辆车吧★★！”马云问：“你想要什么车？★★”黄渤的回答情商太高了

　　CD-CoT 借鉴了对比学习的思路，通过让 LLM 显式地对比有噪和干净的思维链★，从而识别出噪声信息★★。方法主要包括四个关键步骤，步骤 1&2 进行显式的去噪，步骤 3&4 进行精细推理并获得最终答案。

　　：我们设计了一种简单有效的方法（CD-CoT），基于单个正确的思维链示例，去纠正噪声思维链并完成推理，并通过大量实验验证了方法的有效性。

　　香港浸会大学可信机器学习和推理课题组 (TMLR Group) 由多名青年教授、博士后研究员★★、博士生、访问博士生和研究助理共同组成，课题组隶属于理学院计算机系。课题组专攻可信表征学习★★★、可信基础模型★★★、基于因果推理的可信学习等相关的算法，理论和系统设计以及在自然科学上的应用★★★，具体研究方向和相关成果详见本组 GitHub (★★★。

　　AIxiv专栏是机器之心发布学术★★、技术内容的栏目★★★。过去数年★，机器之心AIxiv专栏接收报道了2000多篇内容★，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播★★★。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：；

　　：我们构建了 NoRa 数据集，用于评测 LLM 在噪声思维链提示下的推理鲁棒性。我们使用 NoRa 数据集对 LLM 展开系统评估，揭露了 LLM 推理的鲁棒性不足★★★，数据去噪能力非常有限的问题；

　　图 6★★. 消融实验：(左) 温度系数对性能的影响；(中) 示例个数对性能的影响；(右) 各种模型的性能

　　思维链可以有效提升大模型的推理能力 [1]。具体来说，通过给出带有中间推理步骤的示例，LLM 可以很快地适应到新任务上，而无需进行参数修改（见图 2 右上角）★★。现有工作中，通常假设思维链包含清楚且正确的推理步骤，但实际情况可能并非如此。

　　：对当前流行的思维链提示技术★★★，我们提出了尚未充分探究的噪声思维链问题（Noisy Rationales）★★，并给出了详细的问题定义和统一的问题建模；

　　已有的鲁棒研究大多侧重于噪声问题（Noisy Questions），然而，LLM 在噪声思维链（Noisy Rationales）下的推理还没有得到充分的探究。在本工作中★★，我们将噪声思维链定义为：包含不相关或者不准确推理步骤的思维链，如图 1 右侧 R1 中的「13 + 8 = 21」步骤★★，对于 base-9 计算来说，是错误的推理步骤★★★。

　　根据测评结果，大语言模型在应对噪声思维链提示时，其自身的去噪能力非常有限；即便使用自我纠正或自一致性方法★，效果仍不理想。

　　我们希望通过这项工作，呼吁人们更多地关注 LLM 推理的鲁棒性问题，并开展关于大模型推理鲁棒性的探讨与研究★★★。非常感谢大家关注我们的工作！

　　对此★★，我们构建了NoRa 数据集，并进行了大量的实验评测。结果表明，GPT-3★★★.5-Turbo、Gemini-Pro、Llama2-70B 和 Mixtral-8x7B 等开源或闭源 LLM 都极容易受到噪声思维链的影响。其中★，GPT-3.5-Turbo 的准确率至多可降低40★.4%。因此★★★，我们也呼吁大家更多地关注大模型推理的鲁棒性问题★。

　　因此，我们认为有必要引入外部监督信号来增强模型鲁棒性，且这种监督信号既要足以实现去噪★★，又要在实际应用中切实可行★★。对此，我们提出了一种简单有效的去噪推理方法★，CD-CoT（Contrastive Denoising with Noisy Chain of Thoughts）。

　　足坛悲喜1夜：曼联2-1绝杀曼城，巴萨6轮1胜切尔西7连胜热刺5-0

　　热搜！董明珠曝小米空调因侵权赔了50万元★！小米回应★★：再次核查，消息不实

　　：通过答案匹配，筛选出改写后答案不变的思维链，形成精炼的候选集；再从中随机选取一定数量的思维链，用于后续的推理（见图 7 step2）；

　　因此★★，本文提出了新的研究问题 Noisy Rationales：当示例的推理步骤中包含无关的或者不准确的内容时★，LLM 的推理鲁棒性如何？对这一问题的探索★★★，有助于深入理解和提升 LLM 在非完备场景中的推理能力。

　　：将选取的思维链排列成不同的上下文，与目标问题一同输入给 LLM，并采用较高的温度参数进行多次重复推理★★★，以探索多样的推理路径（见图 8 step3）；

　　116-109！杜兰特20+7+7，布克28分，太阳力克开拓者迎2连胜

　　接下来将从新问题、新数据集★、新方法这三个角度，简要地介绍我们关于大模型推理鲁棒性的研究结果★，相关论文已发表于 NeurIPS 2024 会议。

　　目前★★，已经有许多工作探索了 Noisy Questions 对 LLM 推理性能的影响（见图 2 左下角），揭示了 LLM 对输入中微小修改的敏感性 [2,3]。

　　★★★：借助一个干净的思维链示例★★★，引导 LLM 通过对比改写和纠正噪声思维链，并生成多个改写的思维链（见图 7 step1）；

　　然而★，现有研究表明★★★，LLM 在应对噪声输入时存在明显不足：当输入的问题包含无关内容，或者遭到轻微修改时，模型极容易受到干扰★，进而偏离正确的推理方向。如图 1 左所示★★★，Q1 中的「We know 6+6=12 and 3+7=10 in base 10」是关于 base-9 计算的噪声信息，该信息容易误导模型输出错误的结果。

　　课题组由政府科研基金以及工业界科研基金资助，如香港研究资助局杰出青年学者计划，国家自然科学基金面上项目和青年项目，以及微软★★、英伟达★★、字节跳动、百度、阿里★★、腾讯等企业的科研基金。青年教授和资深研究员手把手带贝斯特最奢华平台，GPU 计算资源充足，长期招收多名博士后研究员、博士生、研究助理和研究实习生★。此外★，本组也欢迎自费的访问博士后研究员、博士生和研究助理申请★，访问至少 3-6 个月，支持远程访问。有兴趣的同学请发送个人简历和初步研究计划到邮箱。

　　我们以 GPT-3.5-Turbo 为 base model，测试了其在 NoRa 上的表现★，并且对比了多种去噪方法。这些去噪方法可以分为两类：

　　一条思维链（Rationale）包含多个连续的推理步骤（Thoughts）★；噪声思维链（Noisy Rationale）包含的噪声推理步骤（Noisy Thoughts）被定义为如下两类（示例见图 3）★：

　　然而，在人工标注或机器生成的思维链中★★★，可能会包含一些与问题不相关或不准确的推理步骤（见图 2 右下角），这些噪声思维链可能会对推理性能产生负面影响，但目前 LLM 对噪声思维链（Noisy Rationales）的鲁棒性依旧未知★★★。

　　；当变化 N,M,C 等超参数的取值时，准确性仅呈现出细微的变化（见图 11）。在论文中★★，我们默认采用 M 设为 2 的 CD-CoT 示例★★★，以在效率和效果之间取得平衡★；

　　更多的实验分析和技术细节，请移步参阅我们的论文及源码，我们也将持续更新本工作的内容。

　　在构建数据集时，我们通过插入 Noisy Thoughts 来生成噪声思维链，这些噪声仅影响推理链的细节，而不改变问题和最终答案的正确性★★。此外，我们使用不同的噪声比例（Noise Ratio★★★，即 Noisy Thoughts 占所 Thoughts 的比例，如 0.3★、0.5★★、0.8）来控制任务的困难程度★★★，Noise Ratio 越大任务难度也越大。NoRa 数据集的统计信息如图 4 所示★★★。

　　此外★，我们还进行了各种消融研究，来探索不同因素对 NoRa 数据集评估结果的影响（见图 6）★，我们发现★★★：

　　自动驾驶拐点何时到来，新出海浪潮避坑指南，2024网易未来大会完美收官

　　为了评估 LLM 在噪声思维链下的鲁棒性，我们构建了 NoRa（Noisy Rationales）数据集，NoRa 涵盖了 3 种推理任务类型★★：数学推理、符号推理和常识推理，共包含26391个问题以及5种子任务★★。

　　★，与 base model（GPT-3.5-Turbo 和 Gemini-Pro）相比★★，其准确率分别提高了

北京装修公司知名品牌电话：13988889999

可信大模|贝斯特最奢华平台型新挑战：噪声思维链提示下的鲁棒推理准确率直降40%

内容搜索 Related Stories

推荐内容 Recommended

服务范畴 SERVICE

成功案例 CASE

现在致电 13988889999 OR 查看更多联系方式 →

现在致电 13988889999 OR 查看更多联系方式 →