Skip to main content
QUICK REVIEW

[論文レビュー] BLEnD: A Benchmark for LLMs on Everyday Knowledge in Diverse Cultures and Languages

Junho Myung, Nayeon Lee|arXiv (Cornell University)|Jun 14, 2024
Library Science and Information Systems被引用数 5
ひとこと要約

BLEnDは、日常の文化知識を16地域と13言語で評価する手作りのベンチマークで、総計52.6kのQ&A。代表されない文化と言語に対して重大なギャップを明らかにする。

ABSTRACT

Large language models (LLMs) often lack culture-specific knowledge of daily life, especially across diverse regions and non-English languages. Existing benchmarks for evaluating LLMs' cultural sensitivities are limited to a single language or collected from online sources such as Wikipedia, which do not reflect the mundane everyday lifestyles of diverse regions. That is, information about the food people eat for their birthday celebrations, spices they typically use, musical instruments youngsters play, or the sports they practice in school is common cultural knowledge but uncommon in easily collected online sources, especially for underrepresented cultures. To address this issue, we introduce BLEnD, a hand-crafted benchmark designed to evaluate LLMs' everyday knowledge across diverse cultures and languages. BLEnD comprises 52.6k question-answer pairs from 16 countries/regions, in 13 different languages, including low-resource ones such as Amharic, Assamese, Azerbaijani, Hausa, and Sundanese. We construct the benchmark to include two formats of questions: short-answer and multiple-choice. We show that LLMs perform better for cultures that are highly represented online, with a maximum 57.34% difference in GPT-4, the best-performing model, in the short-answer format. For cultures represented by mid-to-high-resource languages, LLMs perform better in their local languages, but for cultures represented by low-resource languages, LLMs perform better in English than the local languages. We make our dataset publicly available at: https://github.com/nlee0212/BLEnD.

研究の動機と目的

  • LLMが多様な地域と言語で日常的な文化的常識をどれだけ捉えているかを評価する。
  • 英語中心のソースを超えた日常生活を反映する多言語で文化的に多様なデータセットを提供する。
  • 短答式と多肇選択形式の両方を用いたクロスカルチャル評価を可能にする。
  • 言語リソースのレベルと地域表現に関連するバイアスと性能ギャップを特定する。

提案手法

  • 6カテゴリー(食べ物、スポーツ、家族、教育、祝日/レジャー、仕事と生活)で16地域・13言語にわたる52.6kの質問応答ペアを構築する。
  • 各地域につき500のSAQテンプレートを作成し、該当地域の1,942–3,699オプションから対応するMCQ項目を生成する。
  • 回答を各地域のネイティブスピーカーにより注釈付けし、票を集計して注釈を英語に翻訳する。
  • 16の主流モデルと地域特化モデルをSAQ(現地語と英語)およびMCQ(英語のみ)で評価し、跨文化パフォーマンスを比較する。
  • 採点時には、語形変化の正規化とアクセントの除去を用いて多言語表現を正規化する。
Figure 1: The overall framework of dataset construction and LLM evaluation on BLE n D. BLE n D is built through 4 steps: question collection, question filtering & translation, answer annotation, and answer aggregation. The dataset includes the same questions in 13 different languages, answered from
Figure 1: The overall framework of dataset construction and LLM evaluation on BLE n D. BLE n D is built through 4 steps: question collection, question filtering & translation, answer annotation, and answer aggregation. The dataset includes the same questions in 13 different languages, answered from

実験結果

リサーチクエスチョン

  • RQ1LLMは多様な言語と地域で日常的な文化知識をどの程度知っているか?
  • RQ2よく表現されている文化では現地語で、代表性の低い文化では英語でLLMはより良い性能を示すのか?
  • RQ3promptsの言語が文化と言語を跨ぐLLMの性能にどう影響するか?
  • RQ4どの文化領域(食べ物、祝日、教育など)がLLMにとってより正確に答えるのが難しいか?
  • RQ5言語リソースレベルと地域表現はLLMの性能とどの程度相関するか?

主な発見

国/ RegionLanguage (SAQ)SAQ CountLanguage (MCQ)MCQ Count
USEnglish500English1,942
GBEnglish500English2,167
CNEnglish (en)1,000English (en)1,929
ESEnglish (en)1,000English (en)1,931
MXEnglish (en)1,000English (en)1,899
IDEnglish (en)1,000English (en)1,995
KREnglish (en)1,000Korean (ko)2,512
GREnglish (en)1,000Greek (el)2,734
IREnglish (en)1,000Persian (fa)3,699
DZEnglish (en)1,000Arabic (ar)2,600
AZEnglish (en)1,000Azerbaijani (az)2,297
KPEnglish (en)1,000Korean (ko)2,185
JBEnglish (en)1,000Sundanese (su)2,345
ASEnglish (en)1,000Assamese (as)2,451
NGEnglish (en)1,000Hausa (ha)2,008
ETEnglish (en)1,000Amharic (am)2,863
  • LLMsは高く表現される文化と低く表現される文化の間で顕著な性能ギャップを示す。
  • 米国文化(英語)の平均SAQ性能は79.22%、ET文化(アムハラ語)は12.18%まで落ちる。
  • 地域特化モデルは自地域で一般モデルを上回ることが多い(例:KPのGPT-4対北朝鮮; KRのHyperCLOVA-X)。
  • 現地語プロンプトは中〜高リソース文化の性能を改善するが、低リソース文化では英語プロンプトが現地語より上回る。
  • MCQは一般的にSAQより高い正解率を示し、言語・地域を跨いでSAQとMCQの結果に強い相関がある。
  • 食べ物と祝日カテゴリは、仕事・生活や教育よりLLMにとって特に難しい。
  • 一部の回答には文化的バイアスやステレオタイプの兆候があり、特に代表性の低い地域で見られる。
Figure 2: Heatmap showing the average number of common lemmas within each question between all country/region pairs. Pairs from the same countries/regions are shown in white. Higher numbers of shared lemmas indicate that those countries/regions provide more similar answers compared to other countrie
Figure 2: Heatmap showing the average number of common lemmas within each question between all country/region pairs. Pairs from the same countries/regions are shown in white. Higher numbers of shared lemmas indicate that those countries/regions provide more similar answers compared to other countrie

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。