Skip to main content
QUICK REVIEW

[論文レビュー] A Modular and Flexible Architecture for an Integrated Corpus Query System

Oliver Christ|arXiv (Cornell University)|Aug 2, 1994
Natural Language Processing Techniques被引用数 208
ひとこと要約

本論文は、物理的データストレージを抽象化する論理的アクセスレイヤーを通じて、タグ付きテキスト、データベース、オンラインの類義語辞書など、多様な知識ソースを統合するモジュラーで拡張可能なコーパスクエリアーキテクチャを提示する。静的および動的計算された言語情報への宣言的で柔軟なアクセスを可能にすることで、再インデックス化や特定のストレージ形式への密結合を必要とせずに、複数のデータ型にわたる正確でインタラクティブなコーパスクエリを実現する。

ABSTRACT

The paper describes the architecture of an integrated and extensible corpus query system developed at the University of Stuttgart and gives examples of some of the modules realized within this architecture. The modules form the core of a corpus workbench. Within the proposed architecture, information required for the evaluation of queries may be derived from different knowledge sources (the corpus text, databases, on-line thesauri) and by different means: either through direct lookup in a database or by calling external tools which may infer the necessary information at the time of query evaluation. The information available and the method of information access can be stated declaratively and individually for each corpus, leading to a flexible, extensible and modular corpus workbench.

研究の動機と目的

  • 新しい知識ソースを追加しても再インデックス化を必要とせず、さまざまな言語的知識ソース(例:品詞タグ、WordNet、CELEX)をサポートするコーパスクエリシステムを設計すること。
  • 事前に計算して保存するのではなく、クエリ実行時に動的計算された言語情報(例:ビグラムテーブル、品詞タグ)を処理できること。
  • データアクセス、評価、表示を独立したモジュールに分離することで、使用シナリオに応じた柔軟な適応を可能にすること。
  • パーサーやジェネレータなどの自動化ツールと人間ユーザーの両方をサポートするため、一様で汎用的なクエリインターフェースを提供すること。
  • 対応する並列コーパスを統合し、元言語および対象言語の両方でクエリ結果を双方向に表示できること。

提案手法

  • ファイル、データベース、外部ツールへの低レベルアクセスを処理する物理的データアクセスレイヤーと、ストレージの詳細を抽象化する論理的アクセスレイヤーにシステムを分離すること。
  • すべての宣言済みの知識ソース(保存済みでも計算済みでも)をコーパスの第一級コンポonentとして扱う宣言的クエリ言語を採用すること。
  • キーワードインコンテキスト(KWIC)形式でクエリ結果を表示するモジュラーな表示ツール(例:Xkwic)を実装し、クエリ履歴やソートなどのインタラクティブ機能を提供すること。
  • 並列コーパス間のアライメント情報をサポートして、言語間をまたがる結果のリンクを可能にし、二か国語の表示を可能にすること。
  • ツールが物理レイヤーを直接アクセスするか論理レイヤー経由でアクセスできるようにし、直接的なデータ取得と複雑なクエリ評価の両方を可能にすること。
  • インクリメンタルな更新をサポートするアーキテクチャを設計し、既存データの再インデックス化なしに新しい知識ソースを追加できること。

実験結果

リサーチクエスチョン

  • RQ1物理的ストレージやアクセス方法が異なる多様で異種の言語的知識ソースをサポートするコーパスクエリシステムを、どのようにアーキテクチャ設計すればよいか?
  • RQ2クエリ実行時に事前に計算しないで、言語情報(例:品詞タグ、ビグラムテーブル)を動的計算するための設計パターンは何か?
  • RQ3モジュラーなシステムが、インタラクティブな人間の利用とパーサーやジェネレータなどのツールによるプログラム的アクセスの両方をどのようにサポートできるか?
  • RQ4データアクセス、クエリ評価、結果表示の責任の分離が、システムの拡張性と保守性をどのように向上させるか?
  • RQ5対応する並列コーパスを効果的にクエリし、統一的で二か国語対応のインターフェースで結果を提示する方法は何か?

主な発見

  • モジュラーなアーキテクチャにより、データアクセスとクエリ論理が明確に分離され、既存データの再インデックス化なしに新しい知識ソースをシームレスに統合できる。
  • 論理的アクセスレイヤーにより、物理的ストレージやアクセス方法に関係なく、複数の知識ソースを含む複雑なクエリを表現できる汎用クエリ言語が実現された。
  • Xkwic表示モジュールは、クエリ履歴、ソート、ファイルエクスポートなどの機能を備えたインタラクティブで使いやすいインターフェースを提供し、言語学者や語彙学者の利用性を向上させた。
  • 対応する並列コーパスのサポートにより、二か国語のクエリ結果を並行して表示でき、言語間分析の能力が向上した。
  • WordNet や CELEX などの外部言語リソースを活用することで、より正確なクエリが可能になり、手動でのデータブラウジングの量が削減された。
  • 論理レイヤーへの計画的な拡張により、解析木や集合演算(例:和集合、差集合)などの高度なクエリ結果操作や、将来的な拡張(例:パーサー統合)をサポートするアーキテクチャが実現された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。