[論文レビュー] Large Language Models as Superpositions of Cultural Perspectives
この論文は LLM を視点の重ね合わせとして再解釈し、文脈が予期せず表現される価値観や人格を変化させることを示す。視点の制御性を導入し、三つの心理学質問票を横断してモデルと誘導手法を体系的に比較する。
Large Language Models (LLMs) are often misleadingly recognized as having a personality or a set of values. We argue that an LLM can be seen as a superposition of perspectives with different values and personality traits. LLMs exhibit context-dependent values and personality traits that change based on the induced perspective (as opposed to humans, who tend to have more coherent values and personality traits across contexts). We introduce the concept of perspective controllability, which refers to a model's affordance to adopt various perspectives with differing values and personality traits. In our experiments, we use questionnaires from psychology (PVQ, VSM, IPIP) to study how exhibited values and personality traits change based on different perspectives. Through qualitative experiments, we show that LLMs express different values when those are (implicitly or explicitly) implied in the prompt, and that LLMs express different values even when those are not obviously implied (demonstrating their context-dependent nature). We then conduct quantitative experiments to study the controllability of different models (GPT-4, GPT-3.5, OpenAssistant, StableVicuna, StableLM), the effectiveness of various methods for inducing perspectives, and the smoothness of the models' drivability. We conclude by examining the broader implications of our work and outline a variety of associated scientific questions. The project website is available at https://sites.google.com/view/llm-superpositions .
研究の動機と目的
- 固定された価値観や人格を持つ安定した個人としての LLM の見方に反論する。
- 関連性の薄い文脈変化が表現される価値観を変化させる予期せぬ視点シフト効果を示す。
- LLMs を視点の重ね合わせとしての比喩を導入・形式化する。
- 対象視点を induce する能力を評価するための視点制御性を定義・測定する。
- 三つの心理学質問票を横断して複数の LLM と誘導手法を比較する。
提案手法
- 個人的価値観には PVQ、文化的価値観には VSM、ビッグファイブ人格には IPIP の三つの心理学質問票を採用し、LLM が表現する特徴を定量化する。
- 文脈を制御した条件(テキストプロンプト、システム対ユーザーメッセージ、第三人称対第二人称の視点など)に LLM をさらし、回答を記録する。
- 四つの prompting 手法を用いて対象視点を誘導し、各特性次元のスコアを計算する。
- 誘導された対象次元と非誘導次元を比較し、回答順序の 50 通りの permutations を横断して制御性スコアを算出する。
- 四つの視点誘導技法と三つの質問票を横断して 16 モデルを系統的に比較する。
- 統計分析(ANOVA、Tukey HSD、Bonferroni 修正付き Welch t 検定)を用いて文脈効果とモデルの制御性を評価する。
実験結果
リサーチクエスチョン
- RQ1LLM は直交する文脈変化に曝されると有意な予期せぬ視点シフト効果を示すか。
- RQ2さまざまな誘導手法や質問票に対して、異なる LLM が対象視点をどれだけ制御できるか。
- RQ3PVQ、VSM、IPIP のそれぞれについて、最も高い視点制御性を示す誘導手法とモデルはどれか。
- RQ4RLHF 微調整は時間またはモデルファミリを跨いで視点制御性にどのような影響を与えるか。
主な発見
- 関連性の薄い文脈(会話、フォーマット、または wiki の段落)の変化が個人的・文化的価値観および人格特性を有意に変える。
- 価値観の変化の大きさと方向は文脈とモデルによって異なり、人間の長期的な発達で見られる変化よりも大きいことが多い。
- 視点制御性はモデルと誘導手法により異なり、あるプロンプトやシステム/ユーザーメッセージ設定で特定の質問票に対して高い制御性を示すことがある。
- RLHF 微調整済みの GPT-4 およびいくつかの Upstage LLaMa モデルは、いくつかの設定で相対的に高い制御性を示す。
- 異なる質問票(PVQ、VSM、IPIP)は異なる最適な誘導手法とモデルを示し、モデルとタスク依存の制御性を示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。