微软研究声称 AI 仍然难以调试软件

尽管生成式 AI 正在越来越多地融入编程工作流程,但微软的最新研究表明,在调试方面,大型语言模型仍然难以满足要求。

微软研究声称 AI 仍然难以调试软件

研究表明,即便是先进的模型,在处理对于经验丰富的开发者来说相当简单的调试任务时,依然存在困难,这突显了人类程序员的重要性。

然而,AI 似乎确实有着可靠的应用场景,谷歌现在声称,大约 25% 的新代码是 AI 生成的。Meta 也指出了 AI 在编码中的广泛部署。

AI 擅长代码创作,但不擅长调试 报告探讨了 11 名微软研究人员如何在 SWE-bench Lite(一种流行的调试基准测试工具)上测试 9 种 AI 模型。Claude 3.7 Sonnet 的成功率最高,但仅为 48.4%,而 OpenAI 的 o1 和 o3-mini 分别以 30.2% 和 22.1% 的较低成功率排在其后。

“即便使用调试工具,我们基于简单提示的代理也很少能解决超过一半的 SWE-bench Lite 问题,”研究人员写道,并将这一不理想的表现归咎于缺乏代表顺序决策行为的数据。

不过,并非一切都没有希望。“我们认为,训练或微调大型语言模型可以增强其交互式调试能力,”他们补充道。研究人员计划微调一个专门用于收集必要信息以解决 bugs 的信息获取模型,但与此同时,他们承诺开源 debug-gym,以便其他人能够开展类似的研究。

debug-gym 被描述为一个“允许代码修复代理访问用于主动信息获取行为的工具的环境。”

TechRadar的头像TechRadar认证作者

相关推荐

  • 谷歌计划用人工智能取代Chrome

    众所周知,Google正在开发速度更快、功能更强大的Gemini版本,称为Gemini 2.0。现在一份新报告详细介绍了我们预计何时发布新的人工智能大语言模型。它还可能包括一个旨在支持Chrome进行自主浏览的“代理”。 早在I/O 2024上,谷歌就在Gemini模型中展示了这些代理,该模型被描述为具有“推理、计划和记忆”的人工智能,能够预测和预测用户的行…

    2024年10月29日
    204
  • 更严格的要求导致 Google Play 商店中的应用数量减少

    谷歌在审核和验证即将上架 Google Play 商店的应用程序时变得更加谨慎。这引发了连锁反应:不仅新批准的应用数量大幅减少,平台上的整体应用总数也显著下降。 过去,Google Play 商店中存在大量无法满足用户期望的应用程序,不仅因为这些应用反复上架并携带恶意软件,还因为其整体质量长期受到批评。 与苹果不同,谷歌对开发者提交的应用设置的最低要求远低得…

    2025年5月1日
    195
  • 好耶,游戏不用丢!任天堂官宣Nintendo Switch后继机种能向下兼容旧游戏!

    小编要去买游戏了! 耶不是,怎么每次都自己爆料重磅消息啦!对於任天堂的热门主机Nintendo Switch后继机种消息一直以来都是各种谣言满天飞,结果确定真的有新款主机,是来自於任天堂社长古川俊太郎在X上一则朴实无华的推文。而现在大家一直在揣测与担心的问题「究竟下一代后继机种能不能游玩Nintendo Switch主机的游戏呢?」也在任天堂最近的财报电话会…

    2024年11月9日
    300
  • 你现在可以使用 Google Docs 编辑客户端加密的微软 Word 文件了

    谷歌宣布了其在线办公套件即将推出的一项实用新功能,用户将能够在 Google Docs 界面中查看和编辑客户端加密(Client-Side Encryption,CSE)的微软 Word (.docx) 文件。 该功能的优势在于,编辑后的文件仍将以原始Word格式保存,使用户能够在 Google Workspace 中继续使用熟悉的 Word 工具和格式。 …

    2025年5月21日
    97
  • GPT-5 有望问世?OpenAI 传 12 月前发表下代模型「Orion」

    外媒 The Verge 报导,OpenAI 计划在 12 月前推出下代新模型「Orion」。 The Verge 引述知情人士消息指出,OpenAI 计划优先向密切合作的公司授予 Orion 存取权限,以便运用在合作伙伴的產品和服务。於是 Orion 起初不会透过 ChatGPT 提供用户广泛使用,这种做法与 OpenAI 今年推出的 GPT-4o、o1 …

    2024年10月26日
    183

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注