微软研究声称 AI 仍然难以调试软件

TechRadar • 2025年4月11日 20:48 • 科技

尽管生成式 AI 正在越来越多地融入编程工作流程，但微软的最新研究表明，在调试方面，大型语言模型仍然难以满足要求。

微软研究声称 AI 仍然难以调试软件

研究表明，即便是先进的模型，在处理对于经验丰富的开发者来说相当简单的调试任务时，依然存在困难，这突显了人类程序员的重要性。

然而，AI 似乎确实有着可靠的应用场景，谷歌现在声称，大约 25% 的新代码是 AI 生成的。Meta 也指出了 AI 在编码中的广泛部署。

AI 擅长代码创作，但不擅长调试报告探讨了 11 名微软研究人员如何在 SWE-bench Lite（一种流行的调试基准测试工具）上测试 9 种 AI 模型。Claude 3.7 Sonnet 的成功率最高，但仅为 48.4%，而 OpenAI 的 o1 和 o3-mini 分别以 30.2% 和 22.1% 的较低成功率排在其后。

“即便使用调试工具，我们基于简单提示的代理也很少能解决超过一半的 SWE-bench Lite 问题，”研究人员写道，并将这一不理想的表现归咎于缺乏代表顺序决策行为的数据。

不过，并非一切都没有希望。“我们认为，训练或微调大型语言模型可以增强其交互式调试能力，”他们补充道。研究人员计划微调一个专门用于收集必要信息以解决 bugs 的信息获取模型，但与此同时，他们承诺开源 debug-gym，以便其他人能够开展类似的研究。

debug-gym 被描述为一个“允许代码修复代理访问用于主动信息获取行为的工具的环境。”

TechRadar认证作者

0 0

硬件

Nvidia宣布RTX 5070 Ti GPU将于2月20日发布，但RTX 5070推迟至3月6日发布——对此我一点也不感到惊讶

Nvidia已经确认了RTX 5070显卡的发布日期，RTX 5070 Ti将按计划于2月发布，但标准版RTX 5070的发布则推迟到了3月，这正如之前的传闻所说。 Nvidia更新了其RTX 5070系列的官方网站，公布了具体日期：RTX 5070 Ti将在2月20日发布，而RTX 5070则将在3月5日发布。绿色团队还在X上发布了关于RTX 5070 …

TechRadar
2025年2月14日
730
科技

OpenAI 准备斥资 30 亿美元收购 AI 编程工具 Windsurf，ChatGPT 的发明者意在让程序员感到更多紧张

OpenAI 计划收购 Windsurf，一款顶级的人工智能编程助手，交易金额 reportedly 达到 30 亿美元。截至目前，交易尚未完成，但如果顺利进行，这将成为 OpenAI 迄今为止最大的一笔收购，并标志着该公司在快速发展的 AI 辅助软件开发领域的激进扩张。 Windsurf，前身为 Codeium，是 Exafunction Inc.的产品…

TechRadar
2025年5月9日
597
科技

华为推出的新款 MatePad 让我不禁思考：那些好用又便宜的平板都去哪了？

我来告诉你一个秘密：我其实很讨厌更新我们的“最佳廉价平板推荐”指南。不是因为我反对经济实惠的数码平板，而是因为我对 2025 年廉价平板市场的现状感到失望。在撰写本文时，真正值得考虑的低端平板屈指可数，而除了苹果最新的入门级 iPad 之外，很难推荐其他产品——但我也承认，对大多数人来说，它已经算不上“便宜”了。所以，当华为宣布推出全新版本的 MateP…

TechRadar
2025年7月31日
561
科技

Spotify 离线播放列表功能迎来重大升级——这对安卓用户来说尤其是个好消息

Spotify 推出了一个实用的新升级，支持离线播放，让 Premium 订阅用户可以通过 Spotify 手机应用远程下载歌单、播客等内容到其他设备。平台还新增了改进的下载管理工具。除了 iPad 和笔记本电脑等设备外，这项新功能还支持将音乐和播客下载到顶级智能手表。虽然类似功能早已在部分 Apple Watch 上实现，但这次是首次支持 WearOS …

TechRadar
2025年6月16日
786
科技

企业在落实“负责任的 AI”方面举步维艰——但这可能成为关键的决定性因素

虽然在一些情况下，AI 工具已被证明能够提升生产力，但这项技术仍伴随着不少担忧——尤其是就业安全、成本和排放问题。 Experian 的最新研究发现，四分之三（76%）的企业现在认为，将“负责任的 AI”真正落实到实践中，是他们面临的最大挑战之一。尽管如此，89% 的英国企业领导者承认 AI 已经在提升他们的业务表现；展望未来，87% 的受访者认为，在未来…

TechRadar
2025年11月26日
269

发表回复