[논문 리뷰] Responses to Critiques on Machine Learning of Criminality Perceptions (Addendum of arXiv:1611.04135)
이 논문은 저자들이 이전에 얼굴 이미지에서 범죄성 예측을 위해 딥러닝을 사용한 연구에 대해 널리 퍼진 비판에 대응한다. 연구의 목적은 순수 학술적 목적—즉, 머신러닝이 인간의 얼굴에 대한 사회적 인식을 재현할 수 있는지 테스트하는 것—이었으며, 경찰 수사나 유전적 우월성 이데올로기의 정당화를 위한 것이 아니었다. 尽管 보고된 정확도가 매우 높았음(정확도 89%)에도 불구하고 베이지안 분석에 따르면, 양성 예측가능성이 있는 경우 실제 범죄성의 확률은 기저 빈도가 낮기 때문에 단지 4.39%에 불과하며, 이는 기저 빈도 오류의 위험성을 강조한다.
In November 2016 we submitted to arXiv our paper "Automated Inference on Criminality Using Face Images". It generated a great deal of discussions in the Internet and some media outlets. Our work is only intended for pure academic discussions; how it has become a media consumption is a total surprise to us. Although in agreement with our critics on the need and importance of policing AI research for the general good of the society, we are deeply baffled by the ways some of them mispresented our work, in particular the motive and objective of our research.
연구 동기 및 목표
- 머신러닝이 얼굴에 대한 인간의 사회적 인식을 재현할 수 있는지 조사하는 것, 특히 범죄성과 같은 특성 추론에 초점 맞추기.
- 얼굴 특징이 사회적 행동과 관련이 있다는 가설을 검증하기 위해, 범죄성을 극단적인 사례로 삼기.
- 연구가 실질적 적용을 위한 것이 아니며, 인종적 또는 사회적 편향을 조장하기 위한 것이 아니라는 것을 명확히 하기.
- 연구를 과학적 인종주의 또는 감시 도구로 해석한 언론 보도의 오해를 바로잡기.
- 특히 기저 빈도에 대한 이해가 부족할 경우 발생할 수 있는 AI 모델 성능 해석에 있어 철저한 통계적 추론의 중요성을 강조하기.
제안 방법
- 저자들은 2000명의 중국 남성 신용카드 사진을 포함한 데이터셋을 사용하여, 법원 판결 기반으로 범죄자 또는 비범죄자로 레이블링된 컨volutional neural network (CNN)을 훈련시켰다.
- 얼굴 랜드마크를 애핀 변환으로 정렬하여 변동성을 줄이고 모델의 일반화 능력을 향상시켰다.
- 표준 평가 지표를 사용하여 모델을 평가하였으며, 이는 진성 양성률(89%)과 위성 양성률(7%)을 포함한다.
- 베이지안 추론을 적용하여, 양성 예측가능성이 있을 경우 실제 범죄성의 사후 확률을 계산하였으며, 공식은 다음과 같다: P(C|+) = [P(+|C)P(C)] / [P(+|C)P(C) + P(+|N)(1−P(C))].
- 과적합 여부를 테스트하기 위해 데이터셋을 무작위로 재레이블링하였고, 어떤 분류기라도 랜덤 레이블을 랜덤하게 분리하는 것보다 성능이 좋지 않음을 확인하여, 훈련 데이터에 대한 강건성을 입증하였다.
- 표정이나 이미지 아티팩트(예: 압축 노이즈) 등에 영향을 받지 않도록 통제하여, 표면적인 패턴 학습을 방지하였다.
실험 결과
연구 질문
- RQ1머신러닝 모델이 얼굴 특징과 범죄성과 같은 사회적 인식 간의 상관관계를 탐지할 수 있는가?
- RQ2딥러닝 모델이 얼굴 외형에 기반한 인간의 첫인상을 어느 정도 재현할 수 있는가?
- RQ3인구 내 범죄율 기저 빈도가 낮을 경우, 이러한 모델의 실제 예측 능력은 어느 정도인가?
- RQ4얼굴 인식에 대한 문화적 차이가 모델 출력 해석에 어떻게 영향을 미치는가?
- RQ5모델 결과가 진정한 상관관계가 아닌 데이터 편향 또는 과적합에 의해 주로 유도되는가?
주요 결과
- CNN 분류기는 중국 남성의 신용카드 사진에서 유죄 판결을 받은 사람을 식별하는 데 진성 양성률 89%를 달성하였다.
- 높은 진성 양성률에도 불구하고, 중국의 기저 빈도가 0.36%로 매우 낮기 때문에, 양성 예측가능성이 있을 경우 실제 범죄성의 사후 확률은 단지 4.39%에 불과하다.
- 무작위 레이블링 실험 결과, 어떤 분류기라도 무작위로 레이블링된 데이터를 랜덤 분류보다 더 잘 나누지 못하였으며, 이는 훈련 데이터에 대한 과적합이 없음을 시사한다.
- 압축 및 카메라 기준의 이미지 수준의 변형에 대해 모델의 성능이 강건하여, 표면적 아티팩트가 아닌 구조적 얼굴 패턴을 학습한 것으로 보인다.
- 문화적 차이가 관찰되었으며, 서양 관찰자는 특정 얼굴 클러스터에서 미소를 인식하는 반면, 중국 관찰자는 그렇지 않았다. 이는 해석에 있어 교차 문화적 변동성이 있음을 시사한다.
- 저자들은 사회경제적 상태 표시(예: 백칼라 셔츠)를 통제하지 못했으며, 이는 모델 성능에 영향을 미칠 수 있고 공정성 및 표현의 대표성에 대한 우려를 제기한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.