微软研究声称 AI 仍然难以调试软件

尽管生成式 AI 正在越来越多地融入编程工作流程,但微软的最新研究表明,在调试方面,大型语言模型仍然难以满足要求。

微软研究声称 AI 仍然难以调试软件

研究表明,即便是先进的模型,在处理对于经验丰富的开发者来说相当简单的调试任务时,依然存在困难,这突显了人类程序员的重要性。

然而,AI 似乎确实有着可靠的应用场景,谷歌现在声称,大约 25% 的新代码是 AI 生成的。Meta 也指出了 AI 在编码中的广泛部署。

AI 擅长代码创作,但不擅长调试 报告探讨了 11 名微软研究人员如何在 SWE-bench Lite(一种流行的调试基准测试工具)上测试 9 种 AI 模型。Claude 3.7 Sonnet 的成功率最高,但仅为 48.4%,而 OpenAI 的 o1 和 o3-mini 分别以 30.2% 和 22.1% 的较低成功率排在其后。

“即便使用调试工具,我们基于简单提示的代理也很少能解决超过一半的 SWE-bench Lite 问题,”研究人员写道,并将这一不理想的表现归咎于缺乏代表顺序决策行为的数据。

不过,并非一切都没有希望。“我们认为,训练或微调大型语言模型可以增强其交互式调试能力,”他们补充道。研究人员计划微调一个专门用于收集必要信息以解决 bugs 的信息获取模型,但与此同时,他们承诺开源 debug-gym,以便其他人能够开展类似的研究。

debug-gym 被描述为一个“允许代码修复代理访问用于主动信息获取行为的工具的环境。”

TechRadar的头像TechRadar认证作者

相关推荐

  • Xiaomi 15系列确认10/29正式发布!官方抢曝外观,标准版细机身LEICA三镜

    今日(10 月 24 日)小米正式宣布,将在下週二(10 月 29 日)正式发表年度重点手机 Xiaomi 15 系列,并率先公佈标准版 Xiaomi 15机身外观及重点配置。 据小米透过“小米手机”官方微博帐号宣佈,品牌将在香港时间下週二(10 月 29 日)晚上 7 时,发表国行版 Xiaomi 15 跟 Xiaomi 15 Pro,海外版就有待进一步消…

    2024年10月25日
    332
  • Gemini的新AI功能让你的Google TV更智能

    在2025年CES上,谷歌公布了计划将Gemini引入部分Google TV设备。Gemini由谷歌的先进语言模型(LLM)驱动,旨在与现有的Google助手无缝集成,使用户能够更加自然地互动,获取更复杂的回答,并全面提升电视体验。 Gemini能在电视上做什么? 据谷歌介绍,Gemini将为Google TV引入一系列令人兴奋的功能。用户可以向它提问,并获…

    2025年1月10日
    318
  • 小米手环 9 Pro 发表!推出多种颜色+改为金属机身 同场加映:小米平板 7 Pro 也来啦

    小米手环 9 Pro 发表啦 !!!!! 小米本周一口气带来了小米 15 系列、小米平板 7、小米手环 9 Pro,以及小米手表 S4 等新品,本篇文章要来整理小米手环 9 Pro 与小米平板 7 Pro,各自共有哪些升级的亮点与特色,感兴趣的獭友们一起来看看 小米手环 9 Pro 和小米手环 9 比起来,小米手环 9 Pro 的功能又更多元了一点,萤幕和前…

    2024年10月30日
    601
  • ASUS ROG Phone 9 实机超前曝光!骁龙峰会展示工程机、外观沿用前代设计

    日前高通发表新代旗舰 5G 芯片 S8E,当中首轮配置机型就包括了电竞旗舰新作 ASUS ROG Phone 9。新近有日媒在峰会活动中,拿到 ROG Phone 9 工程机并上传多组影像,相片中可看到装置似乎大致保留前代设计。 ASUS ROG Phone 9 样本机照片来自日媒 K-tai Watch,据报导其在日前高通在美国举行 Snapdragon …

    2024年10月25日
    358
  • 西部数据计划明年推出 40TB 硬盘,采用 HAMR 技术并融合闪存技术

    西部数据(Western Digital)近日举行了一场投资者大会,主要聚焦其未来十年内如何大幅提升硬盘存储容量的战略规划。 WD 展示了一条清晰的技术发展路线图,从能量辅助垂直磁记录(ePMR)过渡到热辅助磁记录(HAMR),最终迈向热点磁记录(HDMR),目标是在未来实现超过 100TB 的硬盘容量。 根据西部数据的规划,到 2026 年,其硬盘容量将通…

    2025年4月24日
    242

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注