QUICK REVIEW

[論文レビュー] What Would You Ask the Machine Learning Model? Identification of User Needs for Model Explanations Based on Human-Model Conversations

Michał Kuźba, Przemysław Biecek|arXiv (Cornell University)|Feb 7, 2020

Explainable Artificial Intelligence (XAI)参考文献 43被引用数 21

ひとこと要約

本論文では、機械学習モデルの予測についてのユーザーの質問を収集することで、モデルの説明に対する実世界のニーズを特定する会話型AIシステム、dr_antを提案する。タイタニック生存予測モデルと1,000件以上の対話を分析した結果、繰り返し現れるユーザーの質問パターンが明らかになり、XAI開発を開発者中心から人間中心の設計へと転換する、画期的なインタラクティブな方法が提示された。

ABSTRACT

Recently we see a rising number of methods in the field of eXplainable Artificial Intelligence. To our surprise, their development is driven by model developers rather than a study of needs for human end users. The analysis of needs, if done, takes the form of an A/B test rather than a study of open questions. To answer the question "What would a human operator like to ask the ML model?" we propose a conversational system explaining decisions of the predictive model. In this experiment, we developed a chatbot called dr_ant to talk about machine learning model trained to predict survival odds on Titanic. People can talk with dr_ant about different aspects of the model to understand the rationale behind its predictions. Having collected a corpus of 1000+ dialogues, we analyse the most common types of questions that users would like to ask. To our knowledge, it is the first study which uses a conversational system to collect the needs of human operators from the interactive and iterative dialogue explorations of a predictive model.

研究の動機と目的

機械学習モデルと対話する人間のユーザーの実際の説明ニーズを特定し、開発者主導の説明手法を超えること。
オープンエンドでインタラクティブな対話によって、ユーザーがモデルの挙動について抱く期待値や質問を明らかにすること。
自然言語でブラックボックスモデルを探索・質問できる会話型AIエージェント（dr_ant）の開発およびデプロイメント。
収集した対話を分析し、繰り返し現れる質問タイプと説明の動機を抽出することで、将来のXAIシステム設計に貢献すること。
会話型インタラクションが、特に非専門家ユーザーにとって、ユーザーのニーズを効果的かつスケーラブルに引き出す有効な方法であることを示すこと。

提案手法

タイタニックデータセットに学習させたランダムフォレストモデルの予測についてユーザーと対話するチャットボット「dr_ant」を開発した。
ユーザーの質問（乗客の特徴、生存予測、説明内容など）を処理できるように、意図分類とエンティティ認識を備えた複数ターン対話システムを実装した。
DALEXおよびExplanatory Model Analysis（EMA）フレームワークのモデル説明ツール（Ceteris ParibusプロファイルおよびBreak Downプロット）を統合し、視覚的およびテキストベースの説明を生成した。
動的再トレーニングパイプラインを導入：実際のユーザー対話を収集し、新たな意図を追加し、学習データを拡張することで、システムの頑健性とカバレッジを向上させた。
WebおよびSlackインターフェースを通じてデプロイし、自然な状況下で1,000件以上の実際のユーザー対話を収集した。
反復的な対話管理を適用し、オープンエンドでユーザー主導の会話を可能にした。これにより、想定外の質問の探索が可能になった。

実験結果

リサーチクエスチョン

RQ1ユーザーが機械学習モデルの予測を理解しようとする際に、実際にどのような質問をするのか？
RQ2会話型AIシステムは、モデル挙動に関する多様でオープンエンドなユーザーの質問を効果的に引き出し、応答できるか？
RQ3モデル説明に関するユーザーの質問にはどのような繰り返しパターンやテーマが現れ、ユーザーの背景や意図によってどのように変化するか？
RQ4インタラクティブで対話ベースのシステムは、説明可能AIにおけるユーザーのニーズを発見・検証するためのスケーラブルな方法として機能できるか？
RQ5役割（例：ドメインエキスパート vs. 一般ユーザー）によってユーザーの質問はどのように異なるのか？これにより、ユーザーの説明ニーズの本質が何を示唆するか？

主な発見

最も頻出するユーザーの質問は、『もしも〜だったら』という仮説的シナリオ（例：『もし乗客が年を取っていたらどうなるか？』）、特徴量の重要性、および性別や年齢に関するモデルの公平性に関するものであった。
ユーザーは特定の個人のモデル挙動について頻繁に質問しており、インスタンスレベルの説明および対照的推論（counterfactual reasoning）の強いニーズがうかがえる。
多くの質問が公平性とバイアスに集中しており、特に性別や年齢に関する懸念が顕在化し、差別の的結果に対するユーザーの懸念が明らかになった。
システムは1,000件以上の対話を成功裏に収集した。これは、会話型AIがXAIにおけるユーザーのニーズを収集するための実用的でスケーラブルな方法であることを示している。
分析から、特徴量の影響、予測の感度、特定の事例におけるモデル挙動、公平性への懸念という明確な質問クラスタが特定された。それぞれのクラスタには、個別に最適化された説明戦略が必要である。
会話型アプローチにより、従来の静的説明手法では見過ごされがちな、モデルの限界性や不確実性に関する要請といった、予期しないユーザーのニーズが明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。