[論文レビュー] Automated Rationale Generation: A Technique for Explainable AI and its Effects on Human Perceptions
本論文は、エージェントの行動に対する人間らしい自然言語の説明を生成する神経的推論生成器を訓練し、Frogger における focused-view と complete-view の構成を比較する。品質の認知と嗜好に関する2つのユーザ研究を通じて評価する。
Automated rationale generation is an approach for real-time explanation generation whereby a computational model learns to translate an autonomous agent's internal state and action data representations into natural language. Training on human explanation data can enable agents to learn to generate human-like explanations for their behavior. In this paper, using the context of an agent that plays Frogger, we describe (a) how to collect a corpus of explanations, (b) how to train a neural rationale generator to produce different styles of rationales, and (c) how people perceive these rationales. We conducted two user studies. The first study establishes the plausibility of each type of generated rationale and situates their user perceptions along the dimensions of confidence, humanlike-ness, adequate justification, and understandability. The second study further explores user preferences between the generated rationales with regard to confidence in the autonomous agent, communicating failure and unexpected behavior. Overall, we find alignment between the intended differences in features of the generated rationales and the perceived differences by users. Moreover, context permitting, participants preferred detailed rationales to form a stable mental model of the agent's behavior.
研究の動機と目的
- ゲーム状態と行動に結びついたリモート・シンク・アラウド・プロトコルを用いて、高品質な人間の説明のコーパスを作成する。
- 状態-行動表現を自然言語の推論根拠へ翻訳するエンコーダ-デコーダ型ニューラルモデルを訓練する。
- 推論スタイルがユーザーの認知(自信、人間らしさ、正当性、理解のしやすさ)に与える影響を評価する。
- focused-view と complete-view の推論生成器を比較し、ユーザーの嗜好と設計目標との整合性を分析する。
提案手法
- 改良された Frogger インタフェースを用いて、ゲーム状態と対になった大量の think-aloud の説明コーパスを収集する。
- GRUセルと注意機構を備えたエンコーダ-デコーダ RNN を訓練し、直列化された状態-行動入力を推論根拠へ翻訳する。
- 二つの入力構成を実験する:focused-view(7x7 の局所窓)と complete-view(ノイズを含む全盤).
- 推論根拠生成器に対して100エポックの訓練を行い、妥当性と知覚的次元でユーザ研究を通じて評価する。
- exemplars(見本)とランダムベースラインと比較しつつ、自信、 human-likeness、adequate justification、理解可能性を測定する二つのユーザ研究を実施する。
実験結果
リサーチクエスチョン
- RQ1生成された推論根拠(focused-view および complete-view)は、妥当性と知覚的質においてランダムベースラインを上回るか?
- RQ2推論根拠は、認知の自信、 人間らしさ、正当性の十分性、理解のしやすさの点でどのように異なるか?
- RQ3complete-view の推論は focused-view の推論と比較してユーザーの認識に違いを生むか?
- RQ4ユーザーはひとつの推論スタイル(focused-view 対 complete-view)に嗜好を示すか、そしてその理由は何か?
主な発見
- focused-view と complete-view の推論根拠は、4つの知覚次元全てにおいてランダムベースラインを有意に上回る。
- 模範的な人間の推論根拠は候補推論より高く評価され、構成によって差が異なる。
- complete-view の候補推論根拠は一般に focused-view の候補より高い評価を受ける。
- 文脈的正確さ、認知、戦略的詳細を含む推論根拠は自信と理解しやすさを高める。単なる可読性だけでは高い自信をもたらさない。
- 文脈が許す場合には、詳細で全体的な説明を提供する推論根拠を参加者は好み、安定したメンタルモデルの形成を助ける。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。