1。缺乏可施行取验证机制:已有开源数据(如SWE-bench-extra、SWE-Fixer)凡是缺乏或单位测试来验证数据准确性,导致生成的修复难以验证。
正在上述三个阶段过程中,团队实施了严酷的数据筛拔取建立流程。如下图所示,团队从最后跨越15万条候选代码仓库元数据中,最终筛选出约1万条高质量实例,建立出当前规模最大、质量最高的可验证SWE使命(锻炼)数据集——Skywork-SWE。
将来,Skywork-SWE-32B模子将进一步拓展多编程言语支撑以笼盖更普遍的开辟场景,并摸索融合运转时测试反馈的强化进修机制,为建立实正具备智能软件开辟能力的狂言语模子奠基根本。同时,昆仑万维也将积极摸索更多Agent使命场景。
Skywork-SWE-32B模子正在SWE-bench Verified基准上取得38。0% pass1精确率,刷新Qwen2。5-Coder-32B系列模子正在OpenHands代码框架下的最佳成就。进一步引入测试时扩展手艺后,模子表示提拔至47。0%的精确率,不只超越了现有参数规模正在32B以下的开源模子,也显著效缩小了取闭源模子之间的机能差距。
通过Skywork-SWE数据集的建立,以及自从代码智能体模子Skywork-SWE-32B模子的发布,团队研究表白高质量且可施行验证的数据是提拔代码智能体模子机能的环节瓶颈,系统化的数据扩展策略将正在鞭策开源模子机能冲破中阐扬环节感化。基于此,我们期望Skywork-SWE-32B的开源,可以或许帮力社区正在狂言语模子驱动的软件工程研究中持续演进。
2025年被普遍认为是智能体(Agent)模子的元年,其焦点特征包罗“超多轮交互”和“超长上下文处置”。正在浩繁使用标的目的中,软件工程SWE使命正成为狂言语模子智能体的环节使用场景之一。
Skywork-SWE数据集正在使命数量取代码笼盖广度方面,远超现有同类数据集(如SWE-Gym Lite取SWE-bench Verified),为大模子供给了丰硕、多样且切近现实的软件工程使命样本,持续鞭策智能体模子的能力进化。此外,Skywork-SWE数据集不只涵盖如Pydantic、SQLGlot、DVC等支流开源项目,还包含大量中小型仓库,呈现出高度切近实正在开辟生态的使命分布特征。这种切近实正在开辟生态的数据形成,有帮于提拔模子正在复杂多样场景下的问题处理能力。
虽然当前市道上已有不少工做聚焦于SWE使命并收集了相关的数据集,但当前的支流(锻炼)数据集仍存正在三大焦点问题。
“Less artict, more intelligence”(更少的人工束缚,更多智能阐扬) 是团队开辟软件工程自从代码智能体模子的焦点。由其决定东西利用取使命施行体例,而为事后设定法则流程。基于这一,最终选用目前最具自从性的开源OpenHands框架。
为打破上述瓶颈,而且打制出具备工程适用性的SWE代码智能体模子,昆仑万维团队起首正在锻炼阶段自行建立了一套从动化、布局化、可复现的SWE数据收集取验证流程,共分为三个阶段、最终团队建立出超1万条高质量使命实例、8千条多轮交互的轨迹,为模子锻炼供给根本。
基于Skywork-SWE数据集的高质量智能体轨迹,昆仑万维团队微调获得Skywork-SWE-32B模子,截至目前,Skywork-SWE-32B正在SWE-Bench榜单中成为当前机能最强的32B开源代码智能体大模子,刷新SWE-bench Verified基准上划一规模模子的最佳成就,充实展现了其工程适用价值?。
1。Skywork-SWE-32B测评成果超越不异参数规模的模子。Skywork-SWE-32B基于开源OpenHands代码Agent框架,实现了38。0% pass1的精确率,达到了Qwen2。5-Coder-32B系列模子正在OpenHands代码框架下的最优程度。更为环节的是,尝试成果进一步表白:跟着锻炼数据规模的持续扩展,模子机能持续提拔,充实验证了“数据规模扩展带来的机能增益”正在软件工程使命中的无效性取合用性。
过去半年多时间,昆仑万维正在励模子、多模态、推理、视频生成等标的目的开源了一系列SOT别模子,现在又正在Agent(SWE使命)标的目的再下一城。继5月天工超等智能体(Skywork Super Agents)面向全球发布后,今天我们又发布并开源了自从代码智能体模子Skywork-SWE-32B模子,这不只是公司果断开源策略的主要实践,更代表了我们对Agent正在办公使命、SWE使命场景中的主要摸索。
比拟保守的代码生成使命(如代码编程题解答),SWE使命愈加切近实正在的软件开辟流程,涵盖了从定位BUG、点窜源代码,到验证修复结果的完整闭环。这类使命凡是源自GitHub仓库中的现实代码工程问题,具备高度的实正在性、复杂性和挑和性,是评估智能体模子能力的一个主要基准。
6月20日,昆仑万维发布软件工程(Software Engineering, SWE)自从代码智能体基座模子Skywork-SWE,正在开源32B模子规模下实现了业界最强的仓库级代码修复能力。昆仑万维团队通过建立跨越1万个可验证的GitHub仓库使命实例,打制出目前最大规模的可验证GitHub仓库级代码修复的数据集,并系统性验证了大模子正在软件工程使命上的数据缩放定律(Scaling Law)。
3。数据规模合用性不明白:相较于天然言语范畴中的使命,SWE使命现有的公开锻炼数据体量较小,尚无法无效验证数据扩展能否能带来模子能力的持续增加。
SWE使命的奇特之处正在于,它对模子提出了更高要求:不只需要支撑多轮交互和长上下文推理,还需具备处置跨文件依赖、挪用东西链,以及正在复杂中持续修复代码问题的能力。这些能力全面了智能体模子的工程实践程度取系统性思维能力。
建湖乐虎- lehu(游戏)科技有限公司
2025-06-26 17:23
0515-68783888
免费服务热线
扫码进入手机站 |
网站地图 | | XML | © 2022 Copyright 江苏乐虎- lehu(游戏)机械有限公司 All rights reserved.