微软研究声称 AI 仍然难以调试软件

尽管生成式 AI 正在越来越多地融入编程工作流程,但微软的最新研究表明,在调试方面,大型语言模型仍然难以满足要求。

微软研究声称 AI 仍然难以调试软件

研究表明,即便是先进的模型,在处理对于经验丰富的开发者来说相当简单的调试任务时,依然存在困难,这突显了人类程序员的重要性。

然而,AI 似乎确实有着可靠的应用场景,谷歌现在声称,大约 25% 的新代码是 AI 生成的。Meta 也指出了 AI 在编码中的广泛部署。

AI 擅长代码创作,但不擅长调试 报告探讨了 11 名微软研究人员如何在 SWE-bench Lite(一种流行的调试基准测试工具)上测试 9 种 AI 模型。Claude 3.7 Sonnet 的成功率最高,但仅为 48.4%,而 OpenAI 的 o1 和 o3-mini 分别以 30.2% 和 22.1% 的较低成功率排在其后。

“即便使用调试工具,我们基于简单提示的代理也很少能解决超过一半的 SWE-bench Lite 问题,”研究人员写道,并将这一不理想的表现归咎于缺乏代表顺序决策行为的数据。

不过,并非一切都没有希望。“我们认为,训练或微调大型语言模型可以增强其交互式调试能力,”他们补充道。研究人员计划微调一个专门用于收集必要信息以解决 bugs 的信息获取模型,但与此同时,他们承诺开源 debug-gym,以便其他人能够开展类似的研究。

debug-gym 被描述为一个“允许代码修复代理访问用于主动信息获取行为的工具的环境。”

TechRadar的头像TechRadar认证作者

相关推荐

  • 分析师预测iPhone 17 Pro Max将采用动态岛2.0

    拥有不错Apple产品预测纪录的分析师Jeff Pu指出,预计2025年推出的iPhone 17 Pro Max将会缩小动态岛(Dynamic Island) 设计。这项消息印证他在5月时的说法。 采用新世代Face ID Jeff Pu在投资银行海通国际的研究报告中表示,iPhone 17 Pro Max将使用全新的金属镜头技术于Face ID系统上,让动…

    2024年10月25日
    407
  • 供应链分析师撰文爆料 低阶版 Apple Vision Pro 推出延后

    根据供应链分析师郭明錤在社交平台 X 的帖文,Apple 原本计划在 2025 年推出的低阶版头戴式 Apple Vision 空间运算装置,现在已经被推迟。郭明錤预计这款定价较便宜的 Apple Vision 产品,将会需要多花数年时间才能够推出市场。 早前的传闻指 Apple 计划于明年推出较廉价的 Apple Vision,该版本将会采用成本较低的物料…

    2024年11月4日
    474
  • 随着越来越多的 Google Pixel Buds 2a 泄露消息浮出水面,我们既有好消息,也有坏消息……

    距离上一次关于 Google Pixel Buds 2a 的泄露已经过去几天了,现在又到了迎来新爆料的时候—— Evan Blass 很乐意帮忙。他在 X 上发布了一份泄露的规格表,补充了之前泄露信息中的一些空白。 这份规格表还有一个实用之处:它展示了这款更实惠的耳机与当前的 Google Pixel Buds Pro 2 之间的对比。 Google Pix…

    2025年8月11日
    366
  • 苹果下一代 MacBook 价格如此低廉,令所有笔记本厂商措手不及

    虽然苹果新款 MacBook Air 的起售价更低,但业界普遍预计苹果将推出一款更加实惠的 MacBook 新机型。最近有一则令人振奋的报道浮出水面,暗示这款低价 MacBook 的潜在定价,可能会对笔记本市场造成冲击。 今年六月,有传闻称苹果计划推出一款价格更亲民的 MacBook,定位低于 MacBook Air。据说这款预算版苹果笔记本将搭载类似于 i…

    2025年8月12日
    364
  • 显存价格危机威胁显卡——传闻称部分 AMD 和 Nvidia 入门显卡可能被停产

    有传言称,由于显存成本飙升,AMD 和 Nvidia 正在考虑停止生产部分中低端游戏显卡。 Notebookcheck.net 注意到,硬件爆料者 Jukan 在 X(原 Twitter)上提到了一篇《韩国经济日报》的报道,称 AMD 和 Nvidia 正在考虑停产一些显卡型号,因为这些型号的视频内存(VRAM)占了显卡制造成本的很大一部分。 虽然报道中没有…

    2025年11月19日
    184

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注