攻击DeepSeek最薄弱的地方：会出现什么好玩的事情

发布日期：2025-02-04 23:00 点击次数：53

DeepSeek和o1/o3一类推理大模型持续带来震撼之际，有人开始研究他们的弱点了。

最新研究揭示：

在遇到高难度问题时，推理大模型可能像“三心二意的学生”一样频繁切换解题思路，却因缺乏深入探索而失败——这种现象被研究者称为Underthinking（欠思考）。

研究团队来自腾讯AI实验室、苏州大学和上海交通大学，主要研究对象是开源的DeepSeek-R1和Qwen QwQ系列模型。

通过分析AI的错误答案，他们发现当前的推理大模型经常在思考早期就走上了正确的路线，但倾向于“浅尝辄止”，很快开始探索别的思路，导致后续生成的数千个tokens对解题毫无贡献。

这种“无效努力”不仅浪费计算资源，还显著降低了答案的正确率。

“三心二意”是罪魁祸首

这一现象在解决数学竞赛题等更为复杂任务时尤为明显。

为了系统分析，团队在三个具有挑战性的测试集MATH500、GPQA Diamond和AIME2024上，对类o1模型QwQ-32B-Preview、DeepSeek-R1-671B等进行了实验。

下图比较了正确和错误回答中的token使用量和思维切换次数。平均来看，类o1模型在错误回答中比正确回答多消耗了225%的token，原因是思维切换频率增加了418%。

为了深入分析这一现象，研究团队开发了一套评估框架，用于判断被放弃的推理路径是否实际上足以推导出正确答案。

bob手机登录