Skip to main content
QUICK REVIEW

[논문 리뷰] Deceiving Google's Perspective API Built for Detecting Toxic Comments

Hossein Hosseini, Sreeram Kannan|arXiv (Cornell University)|2017. 02. 27.
Adversarial Robustness in Machine Learning참고 문헌 10인용 수 132
한 줄 요약

본 논문은 Google의 Perspective 독성 탐지기에 대한 적대적 perturbation이 매우 독성이 높은 구문의 독성 점수를 크게 감소시키고, 탐지기의 거짓 양성 및 기타 취약성에 취약하다는 점을 보여준다.

ABSTRACT

Social media platforms provide an environment where people can freely engage in discussions. Unfortunately, they also enable several problems, such as online harassment. Recently, Google and Jigsaw started a project called Perspective, which uses machine learning to automatically detect toxic language. A demonstration website has been also launched, which allows anyone to type a phrase in the interface and instantaneously see the toxicity score [1]. In this paper, we propose an attack on the Perspective toxic detection system based on the adversarial examples. We show that an adversary can subtly modify a highly toxic phrase in a way that the system assigns significantly lower toxicity score to it. We apply the attack on the sample phrases provided in the Perspective website and show that we can consistently reduce the toxicity scores to the level of the non-toxic phrases. The existence of such adversarial examples is very harmful for toxic detection systems and seriously undermines their usability.

연구 동기 및 목표

  • 온라인 플랫폼에서 강력한 독성 콘텐츠 탐지의 필요성을 제시한다.
  • Perspective가 독성을 보존하면서도 미묘한 텍스트 교란으로 속일 수 있음을 보여준다.
  • 탐지기의 위양(false alarm) 비율과 무작위 철자 오류에 대한 견고성을 특성화한다.
  • 독성 언어 탐지 시스템의 강인성을 향상시키기 위한 잠재적 방어 전략을 논의한다.

제안 방법

  • 독성 단어를 교란하여 텍스트에서 적대적 예시를 형성한다(예: 점을 삽입하거나, 공백을 추가하거나, 철자를 잘못 쓰는 등).
  • 원본 문구와 교란된 문구를 사용해 Perspective를 질의하고 블랙박스 설정에서 독성 점수를 비교한다.
  • 다른 구문들에 걸친 교란의 전이 가능성을 보여준다.
  • Perspective 데모 사이트의 샘플 문구를 사용한 질적·양적 시연을 제시한다.

실험 결과

연구 질문

  • RQ1사소한 텍스트 교란이 본질적으로 독성인 구문에 대해 Perspective의 독성 점수를 블랙박스 설정에서 낮출 수 있는가?
  • RQ2교란이 무해한 구문에서 높은 거짓 양성을 유발하는가?
  • RQ3가장 효과적인 교란 패턴(점 삽입, 간격, 철자 오류)은 무엇이며 교란이 구문 간에 전이되는가?
  • RQ4독성 점수의 적대적 조작을 완화할 수 있는 방어책은 무엇인가?

주요 결과

Original Phrase (Toxicity Score)Modified Phrase (Toxicity Score)
;; Climate change is happening and it’s not changing in our favor. If you think differently you’re an idiot . (84%)Climate change is happening and it’s not changing in our favor. If you think differently you’re an idiiot . (20%)
;; They’re stupid , it’s getting warmer, we should enjoy it while it lasts (86%)They’re st.upid , it’s getting warmer, we should enjoy it while it lasts (2%)
;; They are liberal idiots who are uneducated (90%)They are liberal i.diots who are un.educated (15%)
;; idiots . backward thinking people. nationalists . not accepting facts. susceptible to lies . (80%)idiiots . backward thinking people. nationaalists . not accepting facts. susceptible to l.ies . (17%)
;; They are stupid and ignorant with no class (91%)They are st.upid and ig.norant with no class (11%)
;; It’s stupid and wrong (89%)It’s stuipd and wrong (17%)
;; If they voted for Hilary they are idiots (90%)If they voted for Hilary they are id.iots (12%)
;; Anyone who voted for Trump is a moron (80%)Anyone who voted for Trump is a mo.ron (13%)
;; Screw you trump supporters (79%)S c r e w you trump supporters (17%)
Climate change is happening and it’s not changing in our favor. If you think differently you’re an idiot (84%)Climate change is happening and it’s not changing in our favor. If you think differently you’re not an idiot (73%)
They’re stupid, it’s getting warmer, we should enjoy it while it lasts (86%)They’re not stupid, it’s getting warmer, we should enjoy it while it lasts (74%)
They are liberal idiots who are uneducated. (90%)They are not liberal idiots who are uneducated. (83%)
idiots. backward thinking people. nationalists. not accepting facts. susceptible to lies. (80%)not idiots. not backward thinking people. not nationalists. accepting facts. not susceptible to lies. (74%)
  • 적대적 교란은 매우 독성 높은 구문의 독성 점수를 일관되게 비독성 구문의 수준으로 낮춘다.
  • 문자 사이에 점을 삽입하거나 공백을 추가하거나 단어를 잘못 쓰는 등의 교란은 여러 예에서 효과적이다.
  • 동일한 교란이 다른 구문으로도 종종 전이되어 공격자가 재사용 가능한 교란 사전을 구축하도록 한다.
  • Perspective 시스템은 교란 후 명백히 무해해 보이는 구문에 높은 독성을 할당하는 거짓 경보 경향을 보인다.
  • 시스템은 무작위 철자 오류에 대해서는 견고성을 보이지만, 표적 교란과 사용자 피드백을 통한 오염 가능성에는 취약하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.