微软研究声称 AI 仍然难以调试软件

尽管生成式 AI 正在越来越多地融入编程工作流程,但微软的最新研究表明,在调试方面,大型语言模型仍然难以满足要求。

微软研究声称 AI 仍然难以调试软件

研究表明,即便是先进的模型,在处理对于经验丰富的开发者来说相当简单的调试任务时,依然存在困难,这突显了人类程序员的重要性。

然而,AI 似乎确实有着可靠的应用场景,谷歌现在声称,大约 25% 的新代码是 AI 生成的。Meta 也指出了 AI 在编码中的广泛部署。

AI 擅长代码创作,但不擅长调试 报告探讨了 11 名微软研究人员如何在 SWE-bench Lite(一种流行的调试基准测试工具)上测试 9 种 AI 模型。Claude 3.7 Sonnet 的成功率最高,但仅为 48.4%,而 OpenAI 的 o1 和 o3-mini 分别以 30.2% 和 22.1% 的较低成功率排在其后。

“即便使用调试工具,我们基于简单提示的代理也很少能解决超过一半的 SWE-bench Lite 问题,”研究人员写道,并将这一不理想的表现归咎于缺乏代表顺序决策行为的数据。

不过,并非一切都没有希望。“我们认为,训练或微调大型语言模型可以增强其交互式调试能力,”他们补充道。研究人员计划微调一个专门用于收集必要信息以解决 bugs 的信息获取模型,但与此同时,他们承诺开源 debug-gym,以便其他人能够开展类似的研究。

debug-gym 被描述为一个“允许代码修复代理访问用于主动信息获取行为的工具的环境。”

TechRadar的头像TechRadar认证作者

相关推荐

  • 微软员工在大规模裁员几周后,用糟糕的 AI 生成图像为 Xbox 艺术家招聘做广告

    一则在领英(LinkedIn)发布的招募 Xbox 平面设计师的帖子因为其极差的 AI 生成图像而因讽刺意味而走红。Xbox图形部门首席开发负责人 Mike Matsel 分享了这则招聘公告,配图是一张乍看无害的卡通图,画面中一名女性坐在工作站前敲代码。但代码竟然写在她显示器的背面,这只是图像问题的开始。 更尴尬的是,微软就在几周前刚刚完成了最新一轮裁员,这…

    2025年7月16日
    459
  • 索尼 WH-1000XM6:设计泄露将让粉丝们非常高兴

    索尼 WH-1000XM6,这款制造商的下一款高端蓝牙耳机已泄露。它于 5 月 3 日在西班牙亚马逊上提前上线进行预购。该商品页面已被删除,并且没有展示产品照片。不过,这一次,亚马逊冗长且关键词密集的标题派上了用场。我们了解了很多技术细节、一个相当奇怪的价格,最重要的是,一个期待已久的设计变化。 The Walkman Blog 负责保存该泄露商品页面的内容…

    2025年5月6日
    574
  • ChatGPT 变得更聪明了 —— 如何和孩子谈论 AI 与 GPT-5,你需要知道这些

    ChatGPT 的 GPT-5 “大脑移植”标志着通往通用人工智能(AGI)道路上的一个重要转折点。搭载 GPT-5 模型后,无论是免费版还是 Pro 版的 ChatGPT,都变得更加个性化、可靠、精准、强大、主动且高效。它现在甚至已经准备好与用户更深入地探讨健康问题。 对于那些过去三年来一直关注 OpenAI 和 ChatGPT 的人来说,这些更新或许不足…

    2025年8月8日
    329
  • Windows 替代方案:Valve 发布自家操作系统

    SteamOS 已被 Valve 调整,使其也能适用于移动游戏机的小屏幕。这家游戏发行商已经尝试说服游戏机厂商采用其操作系统一段时间了,现在用户有了更多选择。 像联想 Legion Go 和华硕 ROG Ally 这样的移动游戏机为玩家提供了一种随身携带的游戏主机体验。然而,许多用户对其操作系统感到不满。在这些小巧的显示屏上,用户面对的是典型的 Window…

    2025年5月27日
    510
  • 小米 SU7 Ultra 预订价公布,SU7 10 月交车突破 2 万部

    小米在原型车亮相三个月后,昨晚终于正式发表 SU7 Ultra 限量版。实际发售的版本外观比原型车平实,但仍然拥有不少跑车特色。虽然还有详情有待公布,不过新车已经开始正式接受预订。 SU7 Ultra 限量版保留了大尺寸前铲、U 形风刀和固定尾翼等特色,并在车身 17 处,包括车顶、方向盘、前排座椅背板及尾翼等位置採用碳纤维材质。而原型车的三摩打系统则继续获…

    2024年10月30日
    846

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注