QUICK REVIEW

[논문 리뷰] Build It, Break It, Fix It: Contesting Secure Development

James Parker, Michael Hicks|arXiv (Cornell University)|2019. 07. 02.

Information and Cyber Security참고 문헌 22인용 수 24

한 줄 요약

이 논문은 보안 소프트웨어 개발을 경쟁적 빌드, 취약점 탐지, 패치 적용 단계를 융합한 새로운 프레임워크인 Build It, Break It, Fix It (BIBIFI) 보안 경연 대회를 소개한다. 주요 발견 결과로는 정적 타이핑 언어가 C/C++에 비해 보안 결함을 11배 줄였으며, 빌드와 브레이크 능력이 뛰어난 팀이 취약점 탐지에서 뚜렷하게 뛰어난 성과를 거둔 것으로 나타났다.

ABSTRACT

Typical security contests focus on breaking or mitigating the impact of buggy systems. We present the Build-it, Break-it, Fix-it (BIBIFI) contest, which aims to assess the ability to securely build software, not just break it. In BIBIFI, teams build specified software with the goal of maximizing correctness, performance, and security. The latter is tested when teams attempt to break other teams' submissions. Winners are chosen from among the best builders and the best breakers. BIBIFI was designed to be open-ended; teams can use any language, tool, process, etc. that they like. As such, contest outcomes shed light on factors that correlate with successfully building secure software and breaking insecure software. We ran three contests involving a total of 156 teams and three different programming problems. Quantitative analysis from these contests found that the most efficient build-it submissions used C/C++, but submissions coded in a statically-type safe language were 11 times less likely to have a security flaw than C/C++ submissions. Break-it teams that were also successful build-it teams were significantly better at finding security bugs.

연구 동기 및 목표

보안 소프트웨어 개발 평가에 초점을 맞춘 경연 대회를 통해 사이버보안 교육 및 연구 분야의 격차를 해소하기 위해.
실제 환경과 유사한 조건에서 보안 소프트웨어 구축 및 효과적인 취약점 탐지에 영향을 미치는 요인을 연구하기 위해.
프로그래밍 언어 선택, 팀 구성, 개발 관행이 소프트웨어 보안 결과에 미치는 영향을 실증적으로 분석하기 위해.
깊이, 넓이, 정확성을 동시에 고려한 보완적이고 인cent라이즈된 경연 프레임워크를 구축하여, 보다 우수한 취약점 보고를 유도하기 위해.
보안 소프트웨어 공학 관행을 연구하고 보안 개발 향상 방안을 실험할 수 있는 연구 플랫폼으로 기능하기 위해.

제안 방법

BIBIFI는 세 단계로 구성된 경연을 운영한다: 빌드잇(팀이 사양에 따라 보안 소프트웨어를 구현), 브레이킷(다른 팀의 코드에서 취약점을 탐지하고 보고), 패치잇(보고된 결함를 수정하여 점수를 복구).
정확성, 성능, 보안을 고려한 점수 체계를 설계하였으며, 최고의 빌더와 최고의 브레이커를 별도로 순위 매김한다.
유효하고 고유한 취약점 보고에 대해 점수를 부여하며, 중복 보고 또는 동일한 결함을 지적하는 보고는 점수를 감소시켜 중복 제출을 방지한다.
자동화된 오라클을 사용해 테스트 케이스를 검증하고, 보고된 결함의 재현 가능성을 확보한다.
156개 팀과 세 가지의 고유한 프로그래밍 문제를 포함한 세 차례의 경연에서 자료, 설문조사, 참여 로그를 수집하여 분석하였다.
정량적 분석을 통해 개발 관행(언어, 팀 규모, 테스팅)이 빌드잇 및 브레이킷 성과에 미치는 영향을 분석하였다.

실험 결과

연구 질문

RQ1보안 소프트웨어 구현에서 프로그래밍 언어 선택이 보안 결함 발생 확률에 어떤 영향을 미치는가?
RQ2보안 소프트웨어를 잘 구현하는 팀이 다른 팀의 코드에서 취약점을 탐지하는 데서도 뛰어난 성과를 내는가?
RQ3팀 규모는 브레이킷 단계에서의 취약점 탐지 효율성에 어떤 영향을 미치는가?
RQ4어떤 개발 관행이 보다 높은 수준의 보안 소프트웨어와 더 효과적인 취약점 탐지에 관련되는가?
RQ5점수 체계의 인센티브 구조는 취약점 보고의 질과 다양성에 어떤 영향을 미치는가?

주요 결과

C/C++는 고성능 빌드잇 제출물 구현에 가장 효율적인 언어였지만, 정적 타이핑 언어에 비해 보안 결함 발생 빈도가 뚜렷하게 높았다.
정적 타이핑 언어로 작성된 제출물은 C/C++에 비해 보안 결함이 11배 적게 발생했다.
빌드잇에서 성공한 팀이 브레이킷 단계에서 더 효과적으로 보안 취약점을 탐지하는 것으로 나타나, 보안 코딩 능력과 취약점 탐지 능력 간에 강한 상관관계가 있음을 시사한다.
브레이킷 단계에서 더 큰 팀이 더 성공적이었으며, 코드 감사가 매우 병렬 처리 가능한 작업임을 반영한다.
인센티브 구조가 중복 보고를 효과적으로 방지하여, 다양한 제출물에 걸쳐 더 넓고 깊이 있는 취약점 탐색을 유도하였다.
이 경연 프레임워크는 보안 소프트웨어 개발 관행에 대한 고급 실증 데이터를 성공적으로 생성하였으며, 연구 및 교육 플랫폼으로서의 활용 가능성을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.