QUICK REVIEW

[논문 리뷰] It Takes Two to Tango: Towards Theory of AI's Mind

Arjun Chandrasekaran, Deshraj Jain|arXiv (Cornell University)|2017. 04. 03.

Multimodal Machine Learning Applications참고 문헌 71인용 수 34

한 줄 요약

이 논문은 인간-AI 협업의 효과성을 높이기 위해 인간이 AI 시스템의 강점, 약점, 특이성을 이해해야 한다는 이론적 개념인 AI의 마음 이론(ToAIM)을 제안한다. 이는 AI가 인간을 이해하는 것과 마찬가지로 인간도 AI를 이해해야 한다는 주장이다. 시각질문응답(VQA)에서 일반인들은 단지 50개의 훈련 예제를 경험한 후에만 VQA 모델의 행동(실패 및 답변 예측)을 예측 능력을 향상시켰지만, 표준 설명 방식(예: 주의 맵, 신뢰도 점수)은 도움이 되지 않았고, 오히려 성능을 악화시키기도 하였다.

ABSTRACT

Theory of Mind is the ability to attribute mental states (beliefs, intents, knowledge, perspectives, etc.) to others and recognize that these mental states may differ from one's own. Theory of Mind is critical to effective communication and to teams demonstrating higher collective performance. To effectively leverage the progress in Artificial Intelligence (AI) to make our lives more productive, it is important for humans and AI to work well together in a team. Traditionally, there has been much emphasis on research to make AI more accurate, and (to a lesser extent) on having it better understand human intentions, tendencies, beliefs, and contexts. The latter involves making AI more human-like and having it develop a theory of our minds. In this work, we argue that for human-AI teams to be effective, humans must also develop a theory of AI's mind (ToAIM) - get to know its strengths, weaknesses, beliefs, and quirks. We instantiate these ideas within the domain of Visual Question Answering (VQA). We find that using just a few examples (50), lay people can be trained to better predict responses and oncoming failures of a complex VQA model. We further evaluate the role existing explanation (or interpretability) modalities play in helping humans build ToAIM. Explainable AI has received considerable scientific and popular attention in recent times. Surprisingly, we find that having access to the model's internal states - its confidence in its top-k predictions, explicit or implicit attention maps which highlight regions in the image (and words in the question) the model is looking at (and listening to) while answering a question about an image - do not help people better predict its behavior.

연구 동기 및 목표

인간-AI 협업의 불균형을 해결하기 위해, AI는 인간을 이해하도록 훈련되지만 인간은 AI를 이해하도록 훈련되지 않은 상황를 해결하기 위함.
일반인이 최소한의 상호작용을 통해 AI의 행동에 대한 직관적인 이해를 발달시킬 수 있는지 조사하기 위함.
기존의 설명 방식(예: 주의 맵, 신뢰도 점수)이 인간이 AI 행동을 예측하는 데 도움이 되는지 평가하기 위함.
실패 예측 및 지식 예측이라는 두 가지 작업을 제안하고 검증하여 인간이 AI 동료를 얼마나 잘 이해하고 있는지 정도를 측정하기 위함.
현재의 설명 가능성 기법의 격차를 밝혀내고, 인간이 AI 행동을 더 잘 예측할 수 있도록 보다 효과적인 새로운 설명 방식을 제안하기 위함.

제안 방법

연구는 인간-AI 협업 환경에서 AI 동료로 사용된 'Vicki'라는 이름의 VQA 모델을 사용한다.
아마존 메카니컬 터크에 등록된 참가자들이 두 가지 작업을 수행한다: 실패 예측(이론적으로 Vicki가 정확하게 답변할지 여부를 예측) 및 지식 예측(정확한 답변을 예측).
참가자들은 테스트 이전에 50개의 레이블이 붙은 예제(이미지-질문 쌍과 함께 Vicki의 답변)를 통해 익숙해지도록 한다.
테스트 중에 참가자들에게는 상위-k 신뢰도 점수, 주의 맵, 암묵적 주의와 같은 설명 방식을 제공하여 그 영향을 평가한다.
성능은 실패 예측 및 지식 예측 작업에서의 정확도로 측정되며, 설명 방식이 있는 조건과 없는 조건을 비교한다.
제거 분석(ablation study)을 통해 즉각 피드백(IF)만 있는 경우와 IF에 더해 설명 방식이 있는 경우를 비교하여, 설명 방식이 성능 향상에 기여하지 못하고 오히려 떨어지는 경우가 있음을 밝혀냈다.

실험 결과

연구 질문

RQ1일반인이 VQA 시스템과의 최소한의 상호작용을 통해 AI 행동에 대한 신뢰할 수 있는 정신 모델(ToAIM)을 개발할 수 있는가?
RQ2표준 설명 방식(예: 주의 맵, 신뢰도 점수)이 일반인이 VQA 모델의 행동을 예측하는 능력을 어느 정도 향상시키는가?
RQ3설명 방식에 노출된 결과로 AI 행동의 패턴에 대해 과적합되거나 환각이 발생하는가?
RQ450개의 예제를 통해 AI에 익숙해지는 것과 설명 방식에 의존하는 것 중 어느 것이 AI 성능 예측에 더 효과적인가?
RQ5실패 예측 및 지식 예측 작업의 성능은 다른 VQA 모델 간에도 일반화되는가?

주요 결과

일반인들은 단지 50개의 훈련 예제를 경험한 후에만 VQA 모델의 행동을 예측하는 데 뚜렷한 성능 향상을 보였으며, 이는 익숙해짐만으로도 효과적인 ToAIM 개발이 가능함을 보여준다.
신뢰도 점수, 주의 맵, 암묵적 주의와 같은 설명 방식의 추가로 실패 예측 및 지식 예측 작업 양쪽에서 예측 정확도 향상이 없었다.
일부 사례에서는 설명 방식의 존재가 지식 예측 성능을 통계적으로 유의미하게 저하시켜, 사용자를 오도하거나 과적합을 유도할 수 있음을 시사한다.
설명 방식에 노출된 참가자들은 AI 행동의 패턴을 더 자주 환각하는 경향이 있었으며, 이는 현재의 방식이 정확한 정신 모델 구축을 지원하지 않는다는 것을 의미한다.
VQA 모델의 행동 예측 성능은 다른 VQA 모델 간에도 일반화되었으며, 이는 ToAIM 기술이 이식 가능할 수 있음을 시사한다.
본 연구는 현재의 설명 가능성 AI 분야에 중요한 격차를 드러내며, 기존의 방식은 사용자가 AI 행동을 더 정확히 예측하는 데 도움이 되지 않음을 입증하고, 더 효과적인 새로운 설명 설계가 필요하다고 주장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.