微软研究声称 AI 仍然难以调试软件

尽管生成式 AI 正在越来越多地融入编程工作流程,但微软的最新研究表明,在调试方面,大型语言模型仍然难以满足要求。

微软研究声称 AI 仍然难以调试软件

研究表明,即便是先进的模型,在处理对于经验丰富的开发者来说相当简单的调试任务时,依然存在困难,这突显了人类程序员的重要性。

然而,AI 似乎确实有着可靠的应用场景,谷歌现在声称,大约 25% 的新代码是 AI 生成的。Meta 也指出了 AI 在编码中的广泛部署。

AI 擅长代码创作,但不擅长调试 报告探讨了 11 名微软研究人员如何在 SWE-bench Lite(一种流行的调试基准测试工具)上测试 9 种 AI 模型。Claude 3.7 Sonnet 的成功率最高,但仅为 48.4%,而 OpenAI 的 o1 和 o3-mini 分别以 30.2% 和 22.1% 的较低成功率排在其后。

“即便使用调试工具,我们基于简单提示的代理也很少能解决超过一半的 SWE-bench Lite 问题,”研究人员写道,并将这一不理想的表现归咎于缺乏代表顺序决策行为的数据。

不过,并非一切都没有希望。“我们认为,训练或微调大型语言模型可以增强其交互式调试能力,”他们补充道。研究人员计划微调一个专门用于收集必要信息以解决 bugs 的信息获取模型,但与此同时,他们承诺开源 debug-gym,以便其他人能够开展类似的研究。

debug-gym 被描述为一个“允许代码修复代理访问用于主动信息获取行为的工具的环境。”

TechRadar的头像TechRadar认证作者

相关推荐

  • 微软最新的大型补丁修复了一个严重的零日漏洞以及众多其他问题——请立即更新

    微软发布了其 2025 年 8 月“补丁星期二”更新包,这是一个累积更新,修复了其众多产品中的 100 多个漏洞。 其中包括 Windows Kerberos 中已知的零日漏洞。Kerberos 是微软实现的认证协议,用于在 Windows 网络中通过票据验证用户身份,而不是在网络上传输密码。 研究发现,Kerberos 存在“相对路径遍历”漏洞,允许已授权…

    2025年8月13日
    111
  • ChatGPT 进阶语音功能 即日起登陆 Windows、Mac 程式

    日前 OpenAI 宣布在 macOS 和 Windows 版程式加入进阶语音模型支援,合资格用户将程式更新至最新版本即可试用。以往进阶语音模型只可以在网页版使用,现在 OpenAI 扩大了技术的应用范围,在今次更新将功能进一步开放予桌面程式用户。 OpenAI 表示进阶语音功能提供 5 种新的语音,同时改善部分外语的口音,并提升对话速度和流畅度,令活动变得…

    2024年11月3日
    355
  • HTC与谷歌合作:智能眼镜的新纪元?

    谷歌似乎正在重新点燃其在智能眼镜领域的雄心,而这一次,它带来了强大的合作伙伴。与HTC的全新合作不仅确保了获得关键专利,还引入了经验丰富的XR开发者。对于曾经设想由计算机眼镜塑造未来的科技巨头来说,这一合作标志着迈出了大胆的一步。那么,我们是如何走到今天的?接下来会发生什么? 起步艰难:谷歌早期的眼镜实验 早在2012年,Google Glass就承诺带来一…

    2025年1月27日
    317
  • 解拆 iPad mini 7 确认萤幕硬件没有更变 不过已解决「果冻」萤幕问题

    维修网站iFixit昨日公开新款iPad mini拆解报导,专业团队详细检视新机内部设计,特别关注Apple如何解决上一代出现的显示问题。拆解过程显示,新款在整体结构与上代相近,维修难度并无显著改变。拆解过程最大发现是Apple Logo改为可拆式设计,為维修带来更大弹性。 优化的显示控制器 iFixit团队特别检视新款显示面板的设计,确认Apple并非透过…

    2024年10月28日
    450
  • 微软的人工智能助手Copilot几乎可以看到你在做什么

    微软(Microsoft)的人工智能助手Copilot将开始看到你在网上看到的东西。据x网站上的一篇文章称,这家科技巨头在一个月前对Copilot进行了重大改造,其中包括一项名为“Copilot Vision”的功能,该功能只针对注册了Copilot实验室实验中心的特定群体,但现在让人工智能能够看到你屏幕上的所有东西,这将是每个人的选择。 在收集了上个月左右…

    2024年11月5日
    423

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注