Skip to main content
QUICK REVIEW

[論文レビュー] The Tower of Babel Meets Web 2.0: User-Generated Content and its Applications in a Multilingual Context

Brent Hecht, Darren Gergle|arXiv (Cornell University)|Apr 2, 2019
Wikis in Education and Collaboration参考文献 26被引用数 25
ひとこと要約

本稿は、25のウィキペディア言語版を分析することで、ユーザ生成コンテンツにおける言語的・文化的多様性を調査し、言語間で知識表現に顕著な差異が生じていることを明らかにした。この多様性は翻訳の違いをはるかに超えており、多言語処理アプリケーションに顕著な影響を及ぼすことが示された。本稿では、この多様性を活用して文化的に配慮したハイパーリングアラル(hyperlingual)システムを構築する手法を提言する。

ABSTRACT

This study explores language's fragmenting effect on user-generated content by examining the diversity of knowledge representations across 25 different Wikipedia language editions. This diversity is measured at two levels: the concepts that are included in each edition and the ways in which these concepts are described. We demonstrate that the diversity present is greater than has been presumed in the literature and has a significant influence on applications that use Wikipedia as a source of world knowledge. We close by explicating how knowledge diversity can be beneficially leveraged to create "culturally-aware applications" and "hyperlingual applications".

研究の動機と目的

  • 言語固有の文化的・言語的視点が、ユーザ生成コンテンツにおける知識表現にどのように影響するかを検討すること。
  • 多言語ウィキペディア版における概念とその記述の多様性の程度を定量化すること。
  • ウィキペディアを世界知識のソースとして利用するアプリケーションに、この多様性が及ぼす影響を評価すること。
  • 言語的・文化的多様性をノイズと見なすのではなく、活用する応用設計の機会を探ること。
  • 「文化的に配慮した」および「ハイパーリングアラル」の新しいアプリケーションパラダイムを提言し、多言語知識の変動から利益を得られるようにすること。

提案手法

  • 複数の言語グループにまたがる25のウィキペディア言語版を体系的に比較すること。
  • 他の版に存在しないが、特定の版にのみ存在する独自の概念を同定・分析すること。
  • 共有概念の記述方法(構造、深さ、焦点など)の差異を検討すること。
  • 言語的・文化的メタデータを用いて、コンテンツの変動と社会的言語的要因の相関を分析すること。
  • 自然言語処理技術を応用し、表現的差異を検出し、分類すること。
  • システム設計における多言語知識多様性の同定および活用を可能にするフレームワークの開発。

実験結果

リサーチクエスチョン

  • RQ1異なるウィキペディア言語版が、どの程度異なる概念のセットをカバーしているか。
  • RQ2共有概念の記述は、コンテンツ、構造、焦点の観点から言語版ごとにどの程度異なるか。
  • RQ3この知識多様性が、ウィキペディアを知識ソースとして利用する多言語アプリケーションに及ぼす影響は何か。
  • RQ4言語的・文化的多様性を障害と見なさず、活用できるようにアプリケーションをどのように設計できるか。
  • RQ5多言語知識の変動を活用できる「ハイパーリングアラル」および「文化的に配慮した」アプリケーションを構築するための設計原則は何か。

主な発見

  • ウィキペディア言語版間でカバーされる概念のセットに顕著な乖離が認められ、多くの概念が1つまたは数つの言語でのみ存在する。
  • 共有概念に対しても、言語版ごとに記述の深さ、構造、文化的フレーミングの面で顕著な差異が生じる。
  • 多言語NLPアプリケーションで通常想定されているよりも、知識表現の多様性が顕著である。
  • この多様性は、特に跨言語タスクにおいて、ウィキペディアを包括的知識ソースとして利用するアプリケーションにとって課題をもたらす。
  • この変動は、複数の言語的視点を統合するハイパーリングアラルシステムを構築するために体系的に活用可能である。
  • 言語固有の知識表現を統合することで、関連性と包括性を高めた文化的に配慮したアプリケーションを構築できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。