[論文レビュー] Architecture for a multilingual Wikipedia
本論文は、言語に依存しない知識リポジトリ「アブストラクト・ウィキペディア」を核とする多言語ウィキペディアのアーキテクチャを提案する。また、抽象的コンテンツから自然言語を生成する関数を共同で編集可能なウィキとして提供する「ウィキラムダ」も提案する。コンテンツ作成と言語別レンダリングを分離することで、世界中の人々が多言語で知識を共有・貢献できる仕組みを実現し、英語など主要言語に堪能でない人々が知識に貢献・アクセスする障壁を著しく低減する。
Wikipedia's vision is a world in which everyone can share in the sum of all knowledge. In its first two decades, this vision has been very unevenly achieved. One of the largest hindrances is the sheer number of languages Wikipedia needs to cover in order to achieve that goal. We argue that we need a new approach to tackle this problem more effectively, a multilingual Wikipedia where content can be shared between language editions. This paper proposes an architecture for a system that fulfills this goal. It separates the goal in two parts: creating and maintaining content in an abstract notation within a project called Abstract Wikipedia, and creating an infrastructure called Wikilambda that can translate this notation to natural language. Both parts are fully owned and maintained by the community, as is the integration of the results in the existing Wikipedia editions. This architecture will make more encyclopedic content available to more people in their own language, and at the same time allow more people to contribute knowledge and reach more people with their contributions, no matter what their respective language backgrounds. Additionally, Wikilambda will unlock a new type of knowledge asset people can share in through the Wikimedia projects, functions, which will vastly expand what people can do with knowledge from Wikimedia, and provide a new venue to collaborate and to engage the creativity of contributors from all around the world. These two projects will considerably expand the capabilities of the Wikimedia platform to enable every single human being to freely share in the sum of all knowledge.
研究の動機と目的
- ウィキペディアの言語版間で知識の分布が不均一である問題に取り組むこと。特に、少数の主要言語が支配的である状況を改善すること。
- 英語や他の主要言語に堪能でない、あらゆる言語的背景を持つ貢献者が、英語を必要とせずにコンテンツの作成・維持が可能になる仕組みを提供すること。
- 自然言語から離れた抽象的コンテンツにすることで、知識作成へのアクセスと参加を民主化すること。
- 共有関数を通じて多言語コンテンツ生成を支援する、スケーラブルでコミュニティ所有のインfra構築を実現すること。
- ウィキメディアエコシステム内において関数を第一級の編集可能な資産として扱うことで、新たな形の協働的知識作業を可能にすること。
提案手法
- アブストラクト・ウィキペディアは、言語に依存しない意味的記法を用いてエントリを保存し、知識と自然言語を分離する。
- ウィキラムダは、抽象的コンテンツを自然言語に変換するアルゴリズムや関数を共同で編集可能なウィキとして提供する。
- ウィキラムダの関数は、抽象的知識表現を入力とし、任意のターゲット言語で人間が読めるテキストを出力するように設計されている。
- 関数内に豊富な言語的・意味的知識を埋め込むことで、正確で文脈に適切な自然言語生成を実現する。
- 本システムは段階的貢献をサポートする。開発者としての完全なプログラミング技術や翻訳パイプラインの習得が不要である。
- 未検証の画期的技術に依存せず、既存の自然言語生成技術、語彙的知識表現、協働システムの進歩を活用する。
実験結果
リサーチクエスチョン
- RQ1複数の言語版間で知識を共有できる多言語ウィキペディアのアーキテクチャは、どのように設計できるか? ただし、コミュニティ所有の維持を前提とする。
- RQ2技術的素養のない貢献者が、言語を越えて知識作成に意味的に参加できる技術的・社会的メカニズムは何か?
- RQ3ウィキベースのシステム(例:ウィキラムダ)において、関数を共同で編集可能な資産としてどのようにモデル化・維持できるか?
- RQ4抽象的知識表現から高品質な自然言語を生成するための、最小限の要件とは何か?
- RQ5現在のウィキペディアにおける言語別コンテンツ分布の不均衡を、どのように是正できるか?
主な発見
- 提案されたアーキテクチャにより、ウィキラムダの共有関数を通じて、1つの抽象的知識ソースが複数の自然言語にレンダリング可能になる。
- アブストラクト・ウィキペディアのおかげで、貢献者の言語能力にかかわらずコンテンツの編集・維持が可能となり、貢献の障壁が著しく低下する。
- ウィキラムダは、アブストラクト・ウィキペディアとは独立して機能するプロジェクトとしての価値を持ち、再利用可能な関数のコミュニティ所有リポジトリとして機能する。
- 本システムは、1言語あたり1人の貢献者が自然言語生成テンプレートを生成・維持できる規模のスケーラビリティを備えている。
- 自然言語生成と協働システム分野の最先端技術を活用しているため、画期的な技術的飛躍を必要とせず、実現可能である。
- ビジョンの部分的実装(例:ボットが作成した記事を複数言語に翻訳)ですら、コンテンツのアクセシビリティと保守性の面で顕著な利点をもたらす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。