Skip to main content
QUICK REVIEW

[논문 리뷰] Architecture for a multilingual Wikipedia

Denny Vrandečić|arXiv (Cornell University)|2020. 04. 08.
Wikis in Education and Collaboration인용 수 3
한 줄 요약

이 논문은 언어에 구애받지 않는 지식 저장소인 추상 위키백과(abstract Wikipedia)와 추상적 내용에서 자연어를 생성하는 기능을 공동으로 관리하는 위키백과 람다(Wikilambda)를 중심으로 하는 다국어 위키백과 아키텍처를 제안한다. 내용 생성과 언어 렌더링을 분리함으로써, 전 세계적으로 다국어 지식 공유와 기여를 가능하게 하여 영어가 아닌 언어를 모국어로 쓰는 사용자가 기여하고 지식에 접근하는 데 있어 훨씬 낮은 장벽을 제공한다.

ABSTRACT

Wikipedia's vision is a world in which everyone can share in the sum of all knowledge. In its first two decades, this vision has been very unevenly achieved. One of the largest hindrances is the sheer number of languages Wikipedia needs to cover in order to achieve that goal. We argue that we need a new approach to tackle this problem more effectively, a multilingual Wikipedia where content can be shared between language editions. This paper proposes an architecture for a system that fulfills this goal. It separates the goal in two parts: creating and maintaining content in an abstract notation within a project called Abstract Wikipedia, and creating an infrastructure called Wikilambda that can translate this notation to natural language. Both parts are fully owned and maintained by the community, as is the integration of the results in the existing Wikipedia editions. This architecture will make more encyclopedic content available to more people in their own language, and at the same time allow more people to contribute knowledge and reach more people with their contributions, no matter what their respective language backgrounds. Additionally, Wikilambda will unlock a new type of knowledge asset people can share in through the Wikimedia projects, functions, which will vastly expand what people can do with knowledge from Wikimedia, and provide a new venue to collaborate and to engage the creativity of contributors from all around the world. These two projects will considerably expand the capabilities of the Wikimedia platform to enable every single human being to freely share in the sum of all knowledge.

연구 동기 및 목표

  • 위키백과의 여러 언어 버전 간 지식 분포의 불균형 문제를 해결하기 위해.
  • 영어나 다른 주요 언어에 능숙하지 않은 모든 언어 배경을 가진 기여자가 영어나 다른 주요 언어를 구사하지 않아도 내용을 생성하고 유지보수할 수 있도록 하기 위해.
  • 자연어에서 내용을 추상화함으로써 지식 창출에 대한 접근성과 참여를 민주화하기 위해.
  • 공동 소유의 기반을 지닌 확장 가능한 인프라로서, 공유 기능을 통한 다국어 콘텐츠 생성을 지원하는 아키텍처를 개발하기 위해.
  • 위키미디어 생태계 내에서 기능을 첫 번째로 다루고 편집 가능한 자산으로 간주함으로써 새로운 형태의 협업 지식 작업을 가능하게 하기 위해.

제안 방법

  • 추상 위키백과는 언어에 중립적인 의미적 표기법을 사용해 백과사전 콘텐츠를 저장함으로써 지식과 자연어를 분리한다.
  • 위키백스 람다(Wikilambda)는 추상적 콘텐츠를 자연어로 변환하는 알고리즘과 기능을 공동으로 관리하는 위키 기반의 시스템이다.
  • 위키백스 람다의 기능은 추상적 지식 표현을 입력으로 받아 목표 언어로 인간이 읽을 수 있는 텍스트를 생성하도록 설계되어 있다.
  • 정확하고 맥락에 적절한 자연어 생성을 보장하기 위해, 기능 내부에 풍부한 언어학적 및 의미적 지식이 통합되어 있다.
  • 시스템은 점진적 기여를 지원한다: 기여자는 전체 프로그래밍이나 번역 파이프라인을 숙지하지 않아도 기능을 추가하거나 개선할 수 있다.
  • 시스템은 자연어 생성, 어휘 지식 표현, 협업 시스템 분야의 기존 기술 발전을 활용하여, 검증되지 않은 돌파구에 의존하지 않도록 설계되어 있다.

실험 결과

연구 질문

  • RQ1다국어 위키백과 아키텍처는 어떻게 설계되어야 하며, 언어 간 콘텐츠 공유를 가능하게 하면서도 커뮤니티의 소유권을 유지할 수 있는가?
  • RQ2비기술적 기여자가 언어 간 지식 창출에 의미 있게 참여할 수 있도록 하는 기술적 및 사회적 메커니즘은 무엇인가?
  • RQ3위키백스 람다와 같은 위키 기반 시스템 내에서 기능을 어떻게 모델링하고 유지보수할 수 있는가?
  • RQ4추상적 지식 표현에서 고품질의 자연어를 생성하는 데 필요한 최소한의 요구사항은 무엇인가?
  • RQ5이러한 시스템은 현재 위키백과의 언어 간 콘텐츠 분포 불균형 문제를 어떻게 해결할 수 있는가?

주요 결과

  • 제안된 아키텍처는 위키백스 람다의 공유 기능을 통해 한 개의 추상적 지식 소스를 여러 자연어로 렌더링할 수 있다.
  • 추상 위키백과를 통해 기여자는 언어 능력에 관계없이 콘텐츠를 편집하고 유지보수할 수 있어 기여 장벽이 크게 낮아진다.
  • 위키백스 람다 자체가 추상 위키백과와 별개로도 기능할 수 있으며, 재사용 가능한 기능의 커뮤니티 소유 저장소로서 가치를 지닌다.
  • 시스템은 수천 명의 기여자(언어당 한 명)가 자연어 생성 템플릿을 생성하고 유지보수할 수 있도록 설계되어 있다.
  • 이 접근법은 현재 자연어 생성 및 협업 시스템 분야의 최첨단 기술을 활용하고 있어, 주요 기술적 돌파구 없이도 실현 가능하다.
  • 비록 시각화의 일부분만 실현된 경우라도(예: 봇이 생성한 기사들을 여러 언어로 렌더링하는 것), 콘텐츠 접근성과 유지보수성 향상에 상당한 이점을 가져올 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.