QUICK REVIEW

[논문 리뷰] Toward Culturally Aligned LLMs through Ontology-Guided Multi-Agent Reasoning

Wonduk Seo, Wonseok Choi|arXiv (Cornell University)|2026. 01. 29.

Computational and Text Analysis Methods인용 수 0

한 줄 요약

OG-MAR 은 구조화된 문화 지식과 인구 통계상의 유사성에 기초해 LLM 추론을 지탱하는 온톨로지-가이드 멀티 에이전트 프레임워크로, 지역 간 문화 정렬을 향상시킵니다.

ABSTRACT

Large Language Models (LLMs) increasingly support culturally sensitive decision making, yet often exhibit misalignment due to skewed pretraining data and the absence of structured value representations. Existing methods can steer outputs, but often lack demographic grounding and treat values as independent, unstructured signals, reducing consistency and interpretability. We propose OG-MAR, an Ontology-Guided Multi-Agent Reasoning framework. OG-MAR summarizes respondent-specific values from the World Values Survey (WVS) and constructs a global cultural ontology by eliciting relations over a fixed taxonomy via competency questions. At inference time, it retrieves ontology-consistent relations and demographically similar profiles to instantiate multiple value-persona agents, whose outputs are synthesized by a judgment agent that enforces ontology consistency and demographic proximity. Experiments on regional social-survey benchmarks across four LLM backbones show that OG-MAR improves cultural alignment and robustness over competitive baselines, while producing more transparent reasoning traces.

연구 동기 및 목표

지역적으로 편향된 사전 학습 데이터로 인해 문화적으로 정렬된 LLM의 필요성을 고무합니다.
문화 가치와 관계를 지면하는 온톨로지 기반 프레임워크를 제안합니다.
World Values Survey 데이터를 활용하여 고정된 문화 온톨로지와 인구통계적으로 유사한 페르소나를 구축합니다.
다중 가치-페르소나 에이전트를 구현하고 온톨로지 인지 판단 메커니즘으로 출력을 합성합니다.
다양한 지역 벤치마크에서 향상된 문화 정렬성과 강건성을 시연합니다.

제안 방법

응답자의 가치를 고정된 분류체계에 정렬된 범주별 요약으로 요약합니다.
역량-질문 기반 온톨로지 관계를 구성하고 전문가 검토로 정제합니다.
추론 시점에 온톨로지 일치 관계와 인구통계적으로 유사한 프로필을 검색합니다.
온톨로지 맥락과 인구통계 데이터를 조건으로 다중 가치-페르소나 에이전트를 인스턴스화합니다.
판단 에이전트를 사용하여 온톨로지 일관성과 인구통계적 근접성을 강제하는 동시에 에이전트 출력을 합성합니다.

실험 결과

연구 질문

RQ1온톨로지 가이드 멀티에이전트 접근 방식이 지역 간 LLM 출력의 문화 정렬에 어떤 영향을 미치나요?
RQ2고정된 온톨로지와 인구통계 맥락에서 가치를 기초로 하는 것이 문화적으로 민감한 추론의 강건성과 해석 가능성을 향상시키나요?
RQ3다중 페르소나 추론이 단일 판단자의 판단에 비해 지역별 데이터 세트의 정확도에 미치는 영향은?
RQ4검색 깊이와 가치 요약이 OG-MAR의 성능과 비용에 어떤 영향을 미치나요?

주요 결과

OG-MAR 은 여섯 개의 지역 벤치마크와 네 개의 LLM에서 기준선보다 더 높은 평균 정확도를 달성합니다.
OG-MAR 은 문화 분포 시차가 뚜렷한 CGSS(중국)와 ISD(인도)에서 특히 강한 향상을 보입니다.
다섯 개의 검색 페르소나(K=5)를 사용하는 것이 다른 검색 깊이보다 최고의 성능을 제공합니다.
온톨로지 가이드 검색과 다중 페르소나 추론은 더 나은 해석 가능성과 근거가 있는 추론 흔적을 제공합니다.
판단 에이전트가 온톨로지 일관성과 인구통계적 근접성을 강제하여 문화 편향에 대한 강건성에 기여합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.