微软研究声称 AI 仍然难以调试软件

尽管生成式 AI 正在越来越多地融入编程工作流程,但微软的最新研究表明,在调试方面,大型语言模型仍然难以满足要求。

微软研究声称 AI 仍然难以调试软件

研究表明,即便是先进的模型,在处理对于经验丰富的开发者来说相当简单的调试任务时,依然存在困难,这突显了人类程序员的重要性。

然而,AI 似乎确实有着可靠的应用场景,谷歌现在声称,大约 25% 的新代码是 AI 生成的。Meta 也指出了 AI 在编码中的广泛部署。

AI 擅长代码创作,但不擅长调试 报告探讨了 11 名微软研究人员如何在 SWE-bench Lite(一种流行的调试基准测试工具)上测试 9 种 AI 模型。Claude 3.7 Sonnet 的成功率最高,但仅为 48.4%,而 OpenAI 的 o1 和 o3-mini 分别以 30.2% 和 22.1% 的较低成功率排在其后。

“即便使用调试工具,我们基于简单提示的代理也很少能解决超过一半的 SWE-bench Lite 问题,”研究人员写道,并将这一不理想的表现归咎于缺乏代表顺序决策行为的数据。

不过,并非一切都没有希望。“我们认为,训练或微调大型语言模型可以增强其交互式调试能力,”他们补充道。研究人员计划微调一个专门用于收集必要信息以解决 bugs 的信息获取模型,但与此同时,他们承诺开源 debug-gym,以便其他人能够开展类似的研究。

debug-gym 被描述为一个“允许代码修复代理访问用于主动信息获取行为的工具的环境。”

TechRadar的头像TechRadar认证作者

相关推荐

  • 任天堂最终确认Switch 2将向后兼容

    我们现在可以确定的是,任天堂Switch 2(我们对任天堂Switch继任者的暂定名称)将向后兼容任天堂Switch软件。 在官方的任天堂投资者关系X /推特账户上,首席执行官古川俊太郎(Shuntaro Furukawa)表示:“在今天的企业管理政策简报会上,我们宣布任天堂Switch软件也将在任天堂Switch的继任者上运行。” 该帖子接着解释说,“任天…

    2024年11月6日
    195
  • Garmin Fenix 8 或将迎来重大升级 —— 加入 LTE 功能

    一则最新爆料称,Garmin 可能正准备推出其最强手表 Garmin Fenix 8 的 LTE 版本,这意味着用户在更多场景中可以不带手机出门,只要手表绑定了数据套餐即可。 自 2021 年推出 Forerunner 945 LTE 以来,Garmin 一直没有在其智能手表中提供 LTE(蜂窝连接)功能 —— 包括通话、音乐串流等。而如果此次的泄露信息属实…

    2025年4月30日
    81
  • 更严格的要求导致 Google Play 商店中的应用数量减少

    谷歌在审核和验证即将上架 Google Play 商店的应用程序时变得更加谨慎。这引发了连锁反应:不仅新批准的应用数量大幅减少,平台上的整体应用总数也显著下降。 过去,Google Play 商店中存在大量无法满足用户期望的应用程序,不仅因为这些应用反复上架并携带恶意软件,还因为其整体质量长期受到批评。 与苹果不同,谷歌对开发者提交的应用设置的最低要求远低得…

    2025年5月1日
    195
  • 经济学家表示,生成式 AI 并没有压低工资、取代工人,也没有节省时间

    根据芝加哥大学贝克尔·弗里德曼经济学研究所的一项新工作论文,尽管存在关于人工智能和工人担忧的讨论,但像 ChatGPT、Gemini 和 Claude 等生成式 AI 聊天机器人迄今对工资或就业的影响微乎其微,几乎没有影响。 该研究基于对丹麦约 25,000 名工人在 11 个受 AI 影响的职业中的调查,研究发现,在这些 AI 工具实施后,工资或工作时间没…

    2025年4月30日
    101
  • LG 刚刚推出了一款 32 英寸 4K 触摸屏显示器,配备轮子,甚至可以运行 Microsoft Office——可惜的是,它不支持遥控操作

    LG 宣布推出 Smart Monitor Swing,这是一款 31.5 英寸 4K UHD 触摸屏显示器,旨在重新定义用户与屏幕互动的方式和场景。 这款显示器采用 IPS 面板,分辨率为 3840 x 2160,并支持多点触控,方便用户直接与应用和文件进行互动。 Smart Monitor Swing 配备了三个 USB-C 端口和两个 HDMI 输入接…

    2025年4月25日
    136

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注