微软研究声称 AI 仍然难以调试软件

尽管生成式 AI 正在越来越多地融入编程工作流程,但微软的最新研究表明,在调试方面,大型语言模型仍然难以满足要求。

微软研究声称 AI 仍然难以调试软件

研究表明,即便是先进的模型,在处理对于经验丰富的开发者来说相当简单的调试任务时,依然存在困难,这突显了人类程序员的重要性。

然而,AI 似乎确实有着可靠的应用场景,谷歌现在声称,大约 25% 的新代码是 AI 生成的。Meta 也指出了 AI 在编码中的广泛部署。

AI 擅长代码创作,但不擅长调试 报告探讨了 11 名微软研究人员如何在 SWE-bench Lite(一种流行的调试基准测试工具)上测试 9 种 AI 模型。Claude 3.7 Sonnet 的成功率最高,但仅为 48.4%,而 OpenAI 的 o1 和 o3-mini 分别以 30.2% 和 22.1% 的较低成功率排在其后。

“即便使用调试工具,我们基于简单提示的代理也很少能解决超过一半的 SWE-bench Lite 问题,”研究人员写道,并将这一不理想的表现归咎于缺乏代表顺序决策行为的数据。

不过,并非一切都没有希望。“我们认为,训练或微调大型语言模型可以增强其交互式调试能力,”他们补充道。研究人员计划微调一个专门用于收集必要信息以解决 bugs 的信息获取模型,但与此同时,他们承诺开源 debug-gym,以便其他人能够开展类似的研究。

debug-gym 被描述为一个“允许代码修复代理访问用于主动信息获取行为的工具的环境。”

TechRadar的头像TechRadar认证作者

相关推荐

  • 微软员工在大规模裁员几周后,用糟糕的 AI 生成图像为 Xbox 艺术家招聘做广告

    一则在领英(LinkedIn)发布的招募 Xbox 平面设计师的帖子因为其极差的 AI 生成图像而因讽刺意味而走红。Xbox图形部门首席开发负责人 Mike Matsel 分享了这则招聘公告,配图是一张乍看无害的卡通图,画面中一名女性坐在工作站前敲代码。但代码竟然写在她显示器的背面,这只是图像问题的开始。 更尴尬的是,微软就在几周前刚刚完成了最新一轮裁员,这…

    2025年7月16日
    374
  • 忘记每天充电?一加声称Watch 3最长可续航16天

    一加在去年迅速扩展了其智能手表系列,推出了期待已久的一加Watch 2 和更具性价比的一加Watch 2R。现在,不到一年后,公司正式宣布了其继任者——一加Watch 3,并将在发布后一周内正式上市。 一加Watch 3:单次充电最长可达16天的电池续航 一加Watch 2凭借其大容量电池和混合操作系统,显著提升了电池续航,结合了谷歌的Wear OS和一加的…

    2025年2月11日
    437
  • 别再等待:iOS 18.4.1 修复了 CarPlay 问题及重大安全漏洞

    苹果在两周前正式发布了 iOS 18.4,引入了多项新功能,并将 Apple Intelligence 扩展至更多语言。然而,这次更新对 CarPlay 用户来说并不顺利,安装后出现了多个问题。现在,苹果通过发布 iOS 18.4.1 解决了这些问题,该版本还修复了关键的安全漏洞。 上周,越来越多的用户反馈在升级至 iOS 18.4 后,CarPlay 出现…

    2025年4月19日
    474
  • 联发科天玑 9500:安卓处理器王座的新挑战者

    2026 年 Android 处理器竞争已经开始。联发科正式发布了其旗舰移动处理器 天玑 9500,单核 CPU 性能提升 32%,GPU 性能提升 33%,同时功耗降低约 40%。继续阅读,了解这款旗舰 SoC 的更多信息。 过去几年,联发科与来自北美的竞争对手高通在 Android 领域的竞争日趋激烈。虽然联发科目前在智能手机市场份额上已领先,但在整体性…

    2025年9月24日
    365
  • 新的三星三折叠手机泄露信息再次暗示了“G Fold”手机可能的尺寸

    三星确认正在研发一款三折叠手机,尽管我们还没有太多关于它的细节,但最新的泄露信息为我们提供了一些关于屏幕尺寸的更多信息。 这个消息来自知名博主数码闲聊站(通过 Notebookcheck),他说这款手机的主屏幕尺寸大约为 9.9 英寸。这比华为 Mate XT 三折叠手机的 10.2 英寸显示屏略小。 这也与之前关于这款三星设备的传闻相符:这些传闻预测主屏幕…

    2025年4月26日
    571

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注