OpenAI 推出 SWE-bench Verified 基准，更准确评估代码生成表现-小师评

IT之家 8 月 15 日消息，OpenAI 公司于 8 月 13 日发布新闻稿，宣布推出 SWE-bench Verified 代码生成评估基准，解决了此前的局限性问题，能够更准确地评估人工智能模型在软件工程任务中的表现。

SWE-bench

IT之家注：SWE-Bench 是一个用于评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集。

它收集了来自 12 个流行的 Python 仓库的 2294 个 Issue-Pull Request 对。在测试时，LLM 会拿到一个代码库和 issue 描述，然后生成一个补丁来解决 issue 描述的问题。

该基准使用两种类型的测试：

FAIL_TO_PASS 测试用于检查问题是否已得到解决
PASS_TO_PASS 测试用于确保代码更改不会破坏现有功能。

SWE-bench 的问题

OpenAI 指出了 SWE-bench 的三个主要问题：

单元测试过于严格：用于评估解决方案正确性的单元测试往往过于具体，有时甚至与问题无关，这可能导致拒绝正确的解决方案。
问题描述不明确：许多样本的问题描述不够具体，导致问题是什么以及应如何解决含糊不清。
开发环境难以设置：有时很难可靠地为代理设置 SWE-bench 开发环境，从而无意中导致单元测试失败。

SWE-bench Verified

SWE-bench Verified 的主要改进之一是使用容器化 Docker 环境开发了新的评估工具包。

这一改进旨在使评估过程更加一致和可靠，降低与开发环境设置相关的问题发生的可能性。

例如，GPT-4o 解决了 33.2% 的样本，而表现最佳的开源代理框架 Agentless 的得分翻了一番，达到 16%。

性能的提高表明，SWE-bench Verified 更好地捕捉到了人工智能模型在软件工程任务中的真正能力。

本站所发布的全部内容源于互联网搬运，请在下载后24小时内删除。如果有侵权之处请第一时间联系我们E-mail：zgq3242@qq.com删除。敬请谅解!

THE END

科技资讯
# 拒绝

OpenAI 推出 SWE-bench Verified 基准，更准确评估代码生成表现

推荐阅读：

张馨予真的太有福气了！老公何捷教女儿学游泳，健硕身材意外抢镜

新款丰田亚洲龙 7 月 12 日上市，外观细节调整，配置升级，搭载全新混动系统

马自达将推 MX-5 Roadster 35 周年纪念版车型，有望采用特别车漆

奇瑞星途星纪元 ET 增程 Max 上市：支持城市智驾辅助，24.98 万

老年人睡眠问题别只依赖安眠药，多种方法助您提高睡眠质量

三四出码开二二，亡羊补牢出能发打一准确生肖,词语释义解析落实

小新简介

站长同款主题购买渠道：

1手机数据恢复大师v4.5.0高级版

2PHP在线文字转语音合成源码

3怎么在B站评论区发图片？使用笔记功能就行

4开源H5盲盒商城源码4.0|vue+TP5php框架开发开源网站+安装教程

5WordPress免插件去除腾讯视频广告

6一段代码隐藏WordPress后台登录地址

7WordPress自动给图片添加alt和title标签

8最有效的wordpress禁止生成缩略图教程

916TB超大txt文件，用emeditor工具秒开

10『电脑软件』百度网盘下载智能提速插件（无需解析、直接下载）

112023全新UI彩虹站长在线工具箱系统源码基于ThinkPHP开发

12APK软件信息查看工具易语言源码（附成品）

13PHP+Python全新热搜热门榜内容系统聚合源码

142023年全新H5购物商城整站源码

15PHP七彩云cms云转码M3U8切片程序源码v12

1AI写作项目火爆开启，利用智能技术每月多赚2000+，9节课程助你轻松掌握！

2用GPT快速生成热点评论文章，5分钟实操教程

3GPT+AI绘图学习班【第13期】 文案制作 爆款小红书推文、AI换脸、客服话术

4搭桥牵线指是什么生肖,具体解答落实

5郝大嘴麻辣烫加盟：独特风味与优惠加盟计划，助您开启致富之路

6京东自营店和旗舰店的区别

7小欢喜：黄磊海清演技精湛，演绎青年挑战与奋斗

8《女神异闻录：夜幕魅影》贝尔芬格面具图鉴一览：揭秘每一个面具的传说

9抖音故事汇：一键挂机，单号日入1261.39元！官方授权，轻松赚钱！

10风流人物数今期,君心三八为石得打一生肖,精选词语释义解析落实

11张开大網，补拾萤虫。四六相争运定来打一个生肖代表什么动物.答案解答解析落实

12独特赛道-清洗地毯解压视频：简单无脑怼作品，创收新思路（教程+素材）

13一身是胆闯天下，众心成城力断金是指什么生肖,最佳作答落实

1459岁的哈里斯要当女总统，还有三道坎：民主党、资金和特朗普

15CBA开罚单：球员周琦因肘击对手被停赛2场、罚款10万元

1宋小睿与TNT视频事件：真相揭秘，为何引发众怒？

2站稳脚跟是指代表什么生肖,打一最佳生肖词语,成语释义解释

3辽宁男女一夜情，男方过于厉害导致女方猝死，该怎么判？

4开蚌什么意思形容女人（章子怡开蚌是什么梗？）

5原神寻景觅画第一天全收集-原神寻景觅画第一天缺失景物位置大全

6SEO廉颇老矣，但仍发挥重要作用

72024直播运营个体培训，让个体直播没有秘密，起号/货源/单品打爆/投流等玩法

8萝卜快跑爆火！自动驾驶汽车进入新阶段，产业未来格局如何？

9视频号天文赛道，日入300+，搬运玩法，捡钱项目【揭秘】

10《逆水寒手游》粉墨英雄人间任务完成攻略：如何顺利完成任务

11四七相加二四合，四九回出一九数是指代表什么生肖,最佳精选解释落实

12《女神异闻录：夜幕魅影》贝尔芬格面具图鉴一览：揭秘每一个面具的传说

13过世农村老人将生平与心事写满庭院：他把日子过成了诗

14揭秘爆款搞笑盘点视频合集：日入2000+，轻松成为视频达人！

15AI 闪电外贸实战：外贸建站/开发客户/内容营销/从0到3做外贸AI-更新至75节

1夫妻之间如何做深入的感情沟通试营运全天开放策略，网友：难怪人气涨了不少

2今期马羊猴出特，三来二六走四一指是什么生肖,谜语释义解释落实

3小红书引流新技巧：每日稳定吸引一二百创业粉丝，全行业精准定位玩法揭秘

4明天，和夏天说你好🍃关于立夏你了解多少？

5本钱低的创业小项目摆地摊

6淘宝退货单号在哪里填写(淘宝退货单号填在哪里?)

7AI创业秘籍：8天玩转人工智能，抢先一步看清未来，开启财富新篇章！

8急！气温突破40℃！河南323万亩地因旱无法播种

92024 年国内豪华汽车市场爆冷，雷克萨斯以价换量，全新 TX 引入中国

10男子清华毕业1年重新高考学中医

11探索日产免费线路一二三四区别这里的资源已破解？网友：懂的就来！！

12猛士 917 正式上市，新能源越野技术加持，售价 63.77 万元起，试驾体验如何？

13冬去春来一地荣指是什么最佳生肖，精准答案解析落实

14无需实名开播的视频号引流技术，无限注册新视频号，无限开播，让你在视频营销中事半功倍

15上班族怎样投资小项目

3GPT+AI绘图学习班【第13期】文案制作爆款小红书推文、AI换脸、客服话术