• 首页
  • bob手机登录介绍
  • 产品展示
  • 新闻动态
  • 新闻动态你的位置:bob手机登录 > 新闻动态 > 攻击DeepSeek最薄弱的地方:会出现什么好玩的事情

    攻击DeepSeek最薄弱的地方:会出现什么好玩的事情

    发布日期:2025-02-04 23:00    点击次数:53

    DeepSeek和o1/o3一类推理大模型持续带来震撼之际,有人开始研究他们的弱点了。

    最新研究揭示:

    在遇到高难度问题时,推理大模型可能像“三心二意的学生”一样频繁切换解题思路,却因缺乏深入探索而失败——这种现象被研究者称为Underthinking(欠思考)。

    研究团队来自腾讯AI实验室、苏州大学和上海交通大学,主要研究对象是开源的DeepSeek-R1和Qwen QwQ系列模型。

    通过分析AI的错误答案,他们发现当前的推理大模型经常在思考早期就走上了正确的路线,但倾向于“浅尝辄止”,很快开始探索别的思路,导致后续生成的数千个tokens对解题毫无贡献。

    这种“无效努力”不仅浪费计算资源,还显著降低了答案的正确率。

    “三心二意”是罪魁祸首

    这一现象在解决数学竞赛题等更为复杂任务时尤为明显。

    为了系统分析,团队在三个具有挑战性的测试集MATH500、GPQA Diamond和AIME2024上,对类o1模型QwQ-32B-Preview、DeepSeek-R1-671B等进行了实验。

    下图比较了正确和错误回答中的token使用量和思维切换次数。平均来看,类o1模型在错误回答中比正确回答多消耗了225%的token,原因是思维切换频率增加了418%。

    为了深入分析这一现象,研究团队开发了一套评估框架,用于判断被放弃的推理路径是否实际上足以推导出正确答案。



    Powered by bob手机登录 @2013-2022 RSS地图 HTML地图