Skip to main content
QUICK REVIEW

[論文レビュー] Explainability for Large Language Models: A Survey

Haiyan Zhao, Hanjie Chen|arXiv (Cornell University)|Sep 2, 2023
Topic Modeling被引用数 18
ひとこと要約

この論文は、TransformerベースのLLMに対する説明可能性技術を調査し、従来の微調整とプロンプティングのパラダイムで方法を整理し、評価、デバッグ、将来の課題について論じる。

ABSTRACT

Large language models (LLMs) have demonstrated impressive capabilities in natural language processing. However, their internal mechanisms are still unclear and this lack of transparency poses unwanted risks for downstream applications. Therefore, understanding and explaining these models is crucial for elucidating their behaviors, limitations, and social impacts. In this paper, we introduce a taxonomy of explainability techniques and provide a structured overview of methods for explaining Transformer-based language models. We categorize techniques based on the training paradigms of LLMs: traditional fine-tuning-based paradigm and prompting-based paradigm. For each paradigm, we summarize the goals and dominant approaches for generating local explanations of individual predictions and global explanations of overall model knowledge. We also discuss metrics for evaluating generated explanations, and discuss how explanations can be leveraged to debug models and improve performance. Lastly, we examine key challenges and emerging opportunities for explanation techniques in the era of LLMs in comparison to conventional machine learning models.

研究の動機と目的

  • LLMsの説明可能性技術の分類法を提供する。
  • トレーニングパラダム(微調整とプロンプティング)で説明を整理する。
  • 各パラダイムの局所的およびグローバルな説明手法を要約する。
  • 説明の評価指標とそれらのデバッグ・モデル改善への活用を議論する。
  • LLMの説明可能性における課題と将来の方向性を示す。

提案手法

  • TransformerベースのLLMsの説明可能性技術の分類法を提案する。
  • 従来の微調整とプロンプティングパラダイムに基づいて手法を分類する。
  • 各パラダイムに対して局所的説明(特徴付け、アテンション、例示ベース、自然言語)とグローバル説明(プロービング、ニューロン活性、概念ベース)を要約する。
  • 説明の評価指標とその適用性を検討する。
  • 説明性におけるデバッグ、性能向上、将来の研究方向性を議論する。
Figure 1: We categorize LLM explainability into two major paradigms. Based on this categorization, we summarize different kinds of explainability techniques associated with LLMs belonging to these two paradigms. We also discuss evaluations for the generated explanations under the two paradigms.
Figure 1: We categorize LLM explainability into two major paradigms. Based on this categorization, we summarize different kinds of explainability techniques associated with LLMs belonging to these two paradigms. We also discuss evaluations for the generated explanations under the two paradigms.

実験結果

リサーチクエスチョン

  • RQ1LLMsの説明可能性技術を系統的に分類するにはどうすればよいか?
  • RQ2微調整済みおよびプロンプティングLLMsに対して、局所およびグローバルな説明手法は何か?
  • RQ3どの指標が説明の品質と有用性を評価するのか?
  • RQ4説明を用いてモデルをデバッグし性能を向上させるにはどうすればいいか?
  • RQ5従来のDLモデルと比較してLLM説明可能性の主な課題と機会は何か?

主な発見

  • LLMの説明可能性技術の分類法が提示され、従来の微調整とプロンプティングのパラダイムに分割される。
  • 各パラダイム内で、局所的説明(特徴付け、アテンションベース、例示ベース、自然言語)とグローバル説明(プロービング、ニューロン活性、概念ベース)を調査する。
  • 本調査は生成された説明の評価指標と、それらがパラダイムを超えて適用可能性を論じる。
  • 説明がモデルをデバッグし性能を向上させる方法を扱う。
  • LLM説明可能性と従来のDLモデルとの比較における課題と新たな機会を特定する。
Figure 2: LLMs undergo unsupervised pre-training with random initialization to create a base model. The base model can then be fine-tuned through instruction tuning and RLHF to produce the assistant model.
Figure 2: LLMs undergo unsupervised pre-training with random initialization to create a base model. The base model can then be fine-tuned through instruction tuning and RLHF to produce the assistant model.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。