Skip to main content
QUICK REVIEW

[論文レビュー] Conceptual Cultural Index: A Metric for Cultural Specificity via Relative Generality

Takumi Ohashi, Hitoshi Iyatomi|arXiv (Cornell University)|Feb 10, 2026
Computational and Text Analysis Methods被引用数 0
ひとこと要約

CCI は、ターゲット文化の一般性スコアを他の文化の平均一般性と比較することで文化的特異性を文レベルで定量化する、文化認識型の評価を可能にする文レベル指標です。

ABSTRACT

Large language models (LLMs) are increasingly deployed in multicultural settings; however, systematic evaluation of cultural specificity at the sentence level remains underexplored. We propose the Conceptual Cultural Index (CCI), which estimates cultural specificity at the sentence level. CCI is defined as the difference between the generality estimate within the target culture and the average generality estimate across other cultures. This formulation enables users to operationally control the scope of culture via comparison settings and provides interpretability, since the score derives from the underlying generality estimates. We validate CCI on 400 sentences (200 culture-specific and 200 general), and the resulting score distribution exhibits the anticipated pattern: higher for culture-specific sentences and lower for general ones. For binary separability, CCI outperforms direct LLM scoring, yielding more than a 10-point improvement in AUC for models specialized to the target culture. Our code is available at https://github.com/IyatomiLab/CCI .

研究の動機と目的

  • Interpretability and controllability を備えた、比較文化の集合によって解釈可能な文レベルの文化特異性指標(CCI)を定義する。
  • CCI が直接の LLM スコアリングよりも、文化特異的な文と一般的な文の間により明確な分離を提供することを実証する。
  • CCI がベンチマークを層別化し、文化的特異性が変化する際のパフォーマンスの変化を明らかにする方法を示す。
  • CCI を文化認識型評価およびデータ選定にどのように活用できるかの指針を提供する。

提案手法

  • 各文化 c の集合 C に対して、文 generality を推定するために LLM を使用する。
  • ターゲット文化 generality と他の文化の平均general性の差として per-sentence CCI(x; t, C) を計算する:CCI(x; t, C) = p_t(x)¯ − (1/|C|−1)∑_{c∈C } p_c(x)¯。
  • 変動性を軽減するために N 回の独立した実行の平均をとる(実験では N=3)。
  • 直接出力のベースラインが [0,1] の文化特異性スコアを予測する場合と比較する。
  • C の変更による可変性を検討する(Global mode: 19 経済圏 vs Custom mode: 隣接文化)。
  • CCI を用いてベンチマークを CCI レベルで層別化し、モデルのパフォーマンスの変化を分析する。

実験結果

リサーチクエスチョン

  • RQ1CCI は文レベルで culture-specific な文と general な文を信頼性高く識別できるか。
  • RQ2CCI は文化特異性の直接ベースラインスコアリングより分離性(AUC)を向上させるか。
  • RQ3比較文化集合 C の変更が CCI スコアと文化的範囲の可制御性にどう影響するか。
  • RQ4CCI ベースの層別化は、文化的特異性が高まるにつれてパフォーマンスのギャップを明らかにできるか。
  • RQ5文化認識ベンチマークとデータ選定の実用的な有用性はどの程度か。

主な発見

  • CCI はベースラインと同等または上回る AUC を達成し、文化特異な文と一般的な文の間の分離をより明確にする。
  • 推論能力と跨文化知識が強いモデル(日本語特化モデルを含む)は CCI の分離性が高い。
  • Custom mode(隣接文化を含む)は文化特異アイテムの中央値 CCI を低減し、文化的スコープを可制御できることを示す。
  • 高 CCI アイテムはモデルにとって難易度が高く、CCI が増加するほど正確さが一般に低下する(JCQA および JCM データセット)。
  • llm-jp は高 CCI ビンでの精度低下が相対的に小さく、日本語で訓練されたモデルが文化特異コンテンツで恩恵を受けることを示唆する。
  • CCI はターゲット文化の特異性スコアと並んで、文化ごとの一般性スコアを解釈可能な形で提供し、文化認識型分析を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。