[논문 리뷰] Garbage In, Garbage Out? Do Machine Learning Application Papers in Social Computing Report Where Human-Labeled Training Data Comes From?
논문은 트위터에서 ML 분류 논문을 감사하여 인간이 라벨링한 학습 데이터가 어떻게 만들어졌는지 보고하는지 여부를 확인하고, 주석자, 학습, 데이터 출처에 대한 상세 정보의 상당한 변동성과 자주 누락을 발견했다.
Many machine learning projects for new application areas involve teams of humans who label data for a particular purpose, from hiring crowdworkers to the paper's authors labeling the data themselves. Such a task is quite similar to (or a form of) structured content analysis, which is a longstanding methodology in the social sciences and humanities, with many established best practices. In this paper, we investigate to what extent a sample of machine learning application papers in social computing --- specifically papers from ArXiv and traditional publications performing an ML classification task on Twitter data --- give specific details about whether such best practices were followed. Our team conducted multiple rounds of structured content analysis of each paper, making determinations such as: Does the paper report who the labelers were, what their qualifications were, whether they independently labeled the same items, whether inter-rater reliability metrics were disclosed, what level of training and/or instructions were given to labelers, whether compensation for crowdworkers is disclosed, and if the training data is publicly available. We find a wide divergence in whether such practices were followed and documented. Much of machine learning research and education focuses on what is done once a "gold standard" of training data is available, but we discuss issues around the equally-important aspect of whether such data is reliable in the first place.
연구 동기 및 목표
- 소셜 컴퓨팅에서 ML 응용 논문이 인간 라벨링 학습 데이터의 출처를 어떻게 보고하는지 평가한다.
- 주석자 소스, 자격, 훈련, 보상의 투명성을 평가한다.
- 상호 주석자 신뢰도 및 데이터 가용성의 보고를 검토한다.
- 감독 학습 ML 응용에서 데이터 신뢰성과 연구 무결성에 대한 시사점을 강조한다.
제안 방법
- ArXiv와 Scopus에서 트위터 분류 ML 논문의 말뭉치를 구성한다(약 494개의 ArXiv 논문; 29개의 Scopus 논문).
- 데이터 라벨링 관행에 대해 각 논문에 대해 구조적 콘텐츠 분석을 수행하기 위해 6인 라벨링 팀을 활용한다.
- 주석자, 훈련, 정의, 데이터 가용성에 대한 보고를 판단하기 위해 재조정이 포함된 이중 라벨링 프로세스를 적용한다.
- 라벨링 세부정보의 보고를 정량화하기 위한 원시 및 정규화 정보 점수를 개발한다.
- 라운드 간 평균 합의율로 IRR를 계산한다(1라운드 66.67%, 2라운드 84.80%).
- 재현성을 위해 데이터셋과 코드를 GitHub와 Zenodo에 공개한다.
실험 결과
연구 질문
- RQ1트위터 분류를 수행하는 ML 논문이 학습 데이터가 인간에 의해 라벨링되었는지 공개하는가?
- RQ2주 annotators 누구였는가(저자, 크라우드워커, 전문가 등) 그리고 어떻게 모집되었는가?
- RQ3보고된 훈련 수준, 지침, 및 상호 주석자 신뢰도 지표는 무엇인가?
- RQ4크라우드워커 보상이 공개되어 있는가, 훈련 데이터는 공개적으로 접근 가능한가?
주요 결과
- 대부분의 논문은 원래 분류 작업을 포함했다(142 예, 17 아니오, 5 불확실).
- 인간 주석이 있는 논문 중 93개가 인간 주석(Yes)을 보고했고 46개는 아니다(No), 4개 불확실.
- 원래 인간 주석을 사용하는 논문 중 72개가 원래 주석을 사용한다고 보고했고 21개는 아니다(No), 3 불확실.
- 주석자 소스는 다양했다: 저자 themselves가 출처인 논문이 22편(29.73%), 그리고 “정보 없음”이 흔했다(24.32%); 전문가/전문가 21.62%, Amazon Mechanical Turk 4.05%, 기타 크라우드워크 10.81%, 기타 9.46%.
- 원래 인간 주석을 사용하는 논문 중 주석자 수를 명시한 경우가 대략 절반이다(Yes 41; No 44.60% 명시되지 않음).
- 형식 지시나 정의는 32편에서 보고되었다(43.24%), 반면 35편(47.30%)은 지시사항에 대한 정보가 없었다; 7편(9.46%)은 질문 텍스트 외의 지시가 없다고 명시했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.