QUICK REVIEW

[論文レビュー] Toward Culturally Aligned LLMs through Ontology-Guided Multi-Agent Reasoning

Wonduk Seo, Wonseok Choi|arXiv (Cornell University)|Jan 29, 2026

Computational and Text Analysis Methods被引用数 0

ひとこと要約

OG-MAR is an ontology-guided multi-agent framework that grounds LLM reasoning in structured cultural knowledge and demographic similarities to improve cultural alignment across regions.

ABSTRACT

Large Language Models (LLMs) increasingly support culturally sensitive decision making, yet often exhibit misalignment due to skewed pretraining data and the absence of structured value representations. Existing methods can steer outputs, but often lack demographic grounding and treat values as independent, unstructured signals, reducing consistency and interpretability. We propose OG-MAR, an Ontology-Guided Multi-Agent Reasoning framework. OG-MAR summarizes respondent-specific values from the World Values Survey (WVS) and constructs a global cultural ontology by eliciting relations over a fixed taxonomy via competency questions. At inference time, it retrieves ontology-consistent relations and demographically similar profiles to instantiate multiple value-persona agents, whose outputs are synthesized by a judgment agent that enforces ontology consistency and demographic proximity. Experiments on regional social-survey benchmarks across four LLM backbones show that OG-MAR improves cultural alignment and robustness over competitive baselines, while producing more transparent reasoning traces.

研究の動機と目的

地域ごとに偏った事前学習データのため、文化的に整合したLLMの必要性を動機づける。
文化的価値観と関係を grounded にするためのオントロジー主導のフレームワークを提案する。
World Values Survey データを利用して固定された文化オントロジーと人口統計的に類似したペルソナを構築する。
ontology-aware 判断機構と統合した複数の value-persona エージェントを具体化する。
多様な地域ベンチマークにおいて文化的整合性と堅牢性の向上を実証する。

提案手法

固定分類系に整合したカテゴリ別要約へ Respondent の価値観を要約する。
competency-question-guided ontology relations を構築し、専門家レビューで精査する。
推論時に ontology 一貫性のある関係と人口統計的に類似したプロフィールを取得する。
ontology コンテキストと人口統計データを条件とした複数の value-persona エージェントを実装する。
判断エージェントを用いてエージェント出力を統合し、 ontology の整合性と人口統計的近接性を維持する。

実験結果

リサーチクエスチョン

RQ1Ontology-guided multi-agent アプローチは地域間での LLM 出力の文化的整合性にどのような影響を与えるか？
RQ2固定オントロジーと人口統計的文脈に基づく価値観の grounded 化は、文化的に敏感な推論の堅牢性と解釈性を改善するか？
RQ3複数ペルソナの推論と単一ジャッジの裁定では地域データセットの精度にどのような影響があるか？
RQ4 retrieval 深度と価値要約は OG-MAR の性能とコストにどう影響するか？

主な発見

Method	EVS (Europe)	GSS (United States)	CGSS (China)	ISD (India)	AFRO (Africa)	LAPOP	Avg. Score
GPT-4o mini / Zero-shot	0.5606	0.5164	0.5847	0.6139	0.5324	0.5760	0.5640
GPT-4o mini / Role (2024)	0.5892	0.5184	0.6014	0.6060	0.5505	0.5674	0.5722
GPT-4o mini / Self-consistency (2022b)	0.5558	0.4920	0.5631	0.5976	0.5224	0.5551	0.5477
GPT-4o mini / Debate (2025)	0.5985	0.5509	0.5993	0.6568	0.5343	0.5306	0.5784
GPT-4o mini / ValuesRAG (2025)	0.6127	0.5589	0.5889	0.6420	0.5654	0.6085	0.5961
OG-MAR (Ours) † / GPT-4o mini	0.6206	0.5480	0.6509	0.6192	0.5389	0.6268	0.6007
Gemini 2.5 Flash Lite / Zero-shot	0.5681	0.4957	0.6467	0.5000	0.5282	0.6225	0.5602
Gemini 2.5 Flash Lite / Role (2024)	0.5786	0.4992	0.6669	0.5521	0.5313	0.5852	0.5689
Gemini 2.5 Flash Lite / Self-consistency (2022b)	0.5489	0.4728	0.6063	0.4705	0.5182	0.6268	0.5406
Gemini 2.5 Flash Lite / Debate (2025)	0.5977	0.5138	0.6348	0.6335	0.5046	0.5331	0.5696
Gemini 2.5 Flash Lite / ValuesRAG (2025)	0.6075	0.5376	0.6084	0.6041	0.5472	0.5339	0.5731
Gemini 2.5 Flash Lite / OG-MAR (Ours) †	0.6249	0.5489	0.7017	0.7007	0.5701	0.6385	0.6308
Qwen 2.5 / Zero-shot	0.5199	0.5069	0.2704	0.7222	0.4814	0.4908	0.4986
Qwen 2.5 / Role (2024)	0.5357	0.5037	0.3463	0.7452	0.5014	0.4712	0.5172
Qwen 2.5 / Self-consistency (2022b)	0.5096	0.4975	0.3289	0.6278	0.4080	0.4975	0.4782
Qwen 2.5 / Debate (2025)	0.5511	0.5174	0.4578	0.6320	0.4875	0.4332	0.5132
Qwen 2.5 / ValuesRAG (2025)	0.5538	0.5215	0.4697	0.6591	0.4724	0.5268	0.5339
Qwen 2.5 / OG-MAR (Ours) †	0.5898	0.5325	0.5220	0.6599	0.5180	0.6005	0.5705
EXAONE 3.5 / Zero-shot	0.5143	0.5311	0.2885	0.6041	0.4054	0.5006	0.4740
EXAONE 3.5 / Role (2024)	0.5319	0.5326	0.3129	0.6048	0.4077	0.4602	0.4750
EXAONE 3.5 / Self-consistency (2022b)	0.5490	0.5266	0.2697	0.6122	0.4086	0.5368	0.4838
EXAONE 3.5 / Debate (2025)	0.5713	0.5407	0.5624	0.6773	0.4995	0.4939	0.5575
EXAONE 3.5 / ValuesRAG (2025)	0.5172	0.5520	0.5833	0.6446	0.4794	0.5913	0.5631
EXAONE 3.5 / OG-MAR (Ours) †	0.6080	0.5636	0.6307	0.7810	0.5045	0.7022	0.6317

OG-MAR は 6つの地域ベンチマークと 4LLM においてベースラインを平均して高い精度を達成した。
OG-MAR は文化分布の変化が顕著な CGSS（中国）および ISD（インド）で特に大きな改善を示した。
5 件の retrieved personas（K=5）を用いると他の retrieval 深度と比較して最高の性能を提供した。
ontology-guided retrieval と multi-persona 推論は、解釈性と根拠ある推論の traces を改善した。
判断エージェントが ontolgy の一貫性と人口統計的近接性を強制し、文化的先行知識に対する堅牢性に寄与した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。