[논문 리뷰] SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?
SWE-Lancer는 1,488개의 실제 Upwork 소프트웨어 엔지니어링 작업의 벤치마크로, 가치는 $1M이며, 프런티어 LLM을 독립 코딩 및 관리 작업 의사결정에 대해 엔드 투 엔드 테스트로 평가합니다; 결과는 현재 모델이 전체 보상에 미치지 못한다는 것을 보여줍니다.
We introduce SWE-Lancer, a benchmark of over 1,400 freelance software engineering tasks from Upwork, valued at \$1 million USD total in real-world payouts. SWE-Lancer encompasses both independent engineering tasks--ranging from \$50 bug fixes to \$32,000 feature implementations--and managerial tasks, where models choose between technical implementation proposals. Independent tasks are graded with end-to-end tests triple-verified by experienced software engineers, while managerial decisions are assessed against the choices of the original hired engineering managers. We evaluate model performance and find that frontier models are still unable to solve the majority of tasks. To facilitate future research, we open-source a unified Docker image and a public evaluation split, SWE-Lancer Diamond (https://github.com/openai/SWELancer-Benchmark). By mapping model performance to monetary value, we hope SWE-Lancer enables greater research into the economic impact of AI model development.
연구 동기 및 목표
- 실제 금전적 보상이 있는 실제 프리랜스 SWE 작업에서 프런티어 LLM 능력 측정.
- 제안 평가가 필요한 Independent Contributor SWE 작업과 SWE Manager 작업 모두 평가.
- 전체 스택 엔지니어링 성능을 평가하기 위한 엔드투엔드, 삼중 검증 테스트 제공.
- 재현성과 연구 성장를 위한 공개 평가 환경 통합 및 공개 평가 분할 공개.
제안 방법
- Expensify에서 실제 보상이 합계 $1M인 1,488개의 실제 Upwork 작업을 수집.
- 작업을 IC SWE(764 작업) 및 SWE Manager(724 작업) 범주로 나눕니다.
- IC 작업에 대해 엔지니어가 삼중으로 검증된 엔드 투 엔드 Playwright 기반 테스트를 사용합니다.
- 모델은 로컬 코드베이스에 접근 가능하고 인터넷이 차단된 제한된 Docker 환경에서 작동하며; 명시되지 않는 한 단일 패스(pass@1)만 받습니다.
- 모델이 로컬 애플리케이션을 탐색하고 상호작용할 수 있는 사용자 도구를 활성화하고 평가를 위해 출력이 로깅됩니다.
실험 결과
연구 질문
- RQ1프런티어 LLM이 전체 스택 코드베이스의 실제 소프트웨어 버그를 autonomously 수정하고 기능을 구현할 수 있는가?
- RQ2모델이 실제 프리랜서 제출물 중 최선의 구현 제안을 선택하여 SWE 매니저 역할을 효과적으로 수행할 수 있는가?
- RQ3모델 성능이 난이도 및 도메인이 다른 Upwork 보상에 실제로 어떻게 매핑되는가?
- RQ4도구 사용 및 테스트 시간 계산이 복잡한 SWE 작업에서 모델의 성공률에 어떤 영향을 미치는가?
주요 결과
- 가장 성능이 뛰어난 모델(Claude 3.5 Sonnet)은 SWE-Lancer 다이아몬드에서 $208k를 벌고(IC SWE 작업의 26.2% 해결) 전체 데이터 세트에서 40만 달러를 넘게 벌지만, 다수의 솔루션은 잘못된 것으로 나타남.
- IC SWE 작업 전반에 걸쳐 pass@1과 수익률은 모든 모델에서 30% 미만으로 유지되며, SWE Manager 작업은 더 높은 성공률을 보이고, Sonnet 3.5는 Diamond Manager 작업에서 44.9%–45.0%를 달성.
- 시도 횟수(pass@k)나 테스트 시간 계산을 늘리면 특히 더 강한 모델에서 합격률이 개선되며, 예를 들어 Sonnet 3.5는 IC Diamond에서 pass@1이 26.2%에 도달하고 더 긴 추론 노력이 IC pass@1을 9.3%에서 16.5%로 상승시킴.
- 사용자 도구를 사용하면 상위 모델의 성능이 향상되며, 도구를 제거하면 특히 더 강한 모델의 성능이 더 크게 떨어지므로 효과적인 도구 사용이 성공의 핵심임.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.