[論文レビュー] OntoSenseNet: A Verb-Centric Ontological Resource for Indian Languages
OntoSenseNetは、形式的オントロジーとインドの言語的伝統に基づき、動詞中心の概念的リソースをヒンディ語およびテルグ語に提供する。意味タイプと意味クラスを用いて、語の内面的・外縁的意味をモデル化する。手動アノテーション、単語埋め込み、コーパスベースのプロファイリングを通じて意味的分析を可能にし、ニュースコーパスと小説コーパスの間で動詞の意味タイプおよび副詞的意味クラスの分布に顕著な差異が示された。
Following approaches for understanding lexical meaning developed by Yaska, Patanjali and Bhartrihari from Indian linguistic traditions and extending approaches developed by Leibniz and Brentano in the modern times, a framework of formal ontology of language was developed. This framework proposes that meaning of words are in-formed by intrinsic and extrinsic ontological structures. The paper aims to capture such intrinsic and extrinsic meanings of words for two major Indian languages, namely, Hindi and Telugu. Parts-of-speech have been rendered into sense-types and sense-classes. Using them we have developed a gold- standard annotated lexical resource to support semantic understanding of a language. The resource has collection of Hindi and Telugu lexicons, which has been manually annotated by native speakers of the languages following our annotation guidelines. Further, the resource was utilised to derive adverbial sense-class distribution of verbs and karaka-verb sense- type distribution. Different corpora (news, novels) were compared using verb sense-types distribution. Word Embedding was used as an aid for the enrichment of the resource. This is a work in progress that aims at lexical coverage of language extensively.
研究の動機と目的
- 古代インドの言語的伝統と現代の形式的オントロジーを基盤として、インドの言語における語彙的意味論の形式的オントロジー枠組みを構築すること。
- 意味タイプと意味クラスを通じて内面的・外縁的意味を捉えた、ヒンディ語およびテルグ語のゴールドスタンダード手動アノテーション語彙リソースの作成。
- コーパスデータを用いた副詞的意味クラス分布とkāraka-動詞意味タイプマッピングを通じて、動詞の意味的分析を可能にすること。
- ニュースと小説のコーパスを比較し、動詞意味タイプ頻度プロファイリングと対数尤度推定を用いて、オントロジカルな差異を同定すること。
- 単語埋め込みを用いたリソースの拡張および、著者間での副詞的使用における社会言語的変異の探求。
提案手法
- 言語の形式的オントロジー(Otra)を採用し、言語に依存しない原始的オントロジカルタイプとして内面的意味を定義した。
- 品詞を意味タイプと意味クラスとして定義し、インドの言語理論(ヤーシカ、パタンジャリ、バールフヒャリ)を踏まえて、動詞を中心的な意味的単位とした。
- ネイティブスピーカーのガイドラインに従い、ヒンディ語およびテルグ語の語彙を収集・手動アノテーションし、ゴールドスタンダードの意味アノテーションを確立した。
- 依存構文解析と意味クラスラベル付けを用いて、解析済みのヒンディ語コーパスからkāraka-動詞意味タイプ関係を抽出した。
- 単語埋め込み(Word2vec)を用いて意味特定を支援し、特にテルグ語のリソース拡張を図った。
- 2×2の連関表を用いた対数尤度推定を適用し、ニュースコーパスと小説コーパス間での動詞意味タイプ分布の比較を行った。
実験結果
リサーチクエスチョン
- RQ1形式的オントロジーをどのようにしてインドの言語における語の内面的・外縁的意味をモデル化するために適用できるか?
- RQ2ヒンディ語において、ニュースコーパスと小説コーパスの間で動詞意味タイプの分布にどの程度の差が見られるか?
- RQ3ヒンディ語の著者ごとの小説において、副詞的意味クラスの分布にどのような差が生じるか?
- RQ4単語埋め込みは、低リソース言語のオントロジーの意味特定と拡張に効果的に機能するか?
- RQ5文学的コーパスにおける副詞的使用の差異から、どのような社会言語的知見が得られるか?
主な発見
- 動詞の『手段|目的』意味タイプが、ニュースコーパスにおいて最も顕著で、対数尤度は+38,523.04であった。
- 『場所|所在』意味タイプはニュースコーパス(23.946%)において小説(30.817%)よりも強く好まれており、対数尤度は+14,911.13であった。
- karwānā(~にさせること)やchaunk(驚くこと)といった動詞は空間副詞によって修飾されないことが判明し、副詞的修飾における意味的制約が示された。
- 著者間で副詞的意味クラスの分布に顕著な差が認められた。例えば、likhnā(書くこと)は1人の著者では主に『測定』に関連し、別の著者では『時間的』に関連していた。
- 意味アノテーションにおけるカッパ評価は高く、ゴールドスタンダードアノテーションプロセスの信頼性が裏付けられた。
- リソースはコーパス比較において実用的であり、動詞意味タイプと副詞的意味クラスの頻度プロファイリングを通じて、オントロジカルな差異が明らかになった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。