[論文レビュー] SQUINKY! A Corpus of Sentence-level Formality, Informativeness, and Implicature
本稿では、フォーマルさ、情報量、含意の3つの次元について、1〜7段階のリッカート尺度で人間の評価者によってアノテートされた7,032文の大型コーパス、SQUINKY! を紹介する。研究では、フォーマルさと情報量について高い評価者間信頼性が確認され、スタイルの変化に関するジャンル特有のパターンが明らかになり、文単位の実用的特徴の自動予測の基盤が提供される。
We introduce a corpus of 7,032 sentences rated by human annotators for formality, informativeness, and implicature on a 1-7 scale. The corpus was annotated using Amazon Mechanical Turk. Reliability in the obtained judgments was examined by comparing mean ratings across two MTurk experiments, and correlation with pilot annotations (on sentence formality) conducted in a more controlled setting. Despite the subjectivity and inherent difficulty of the annotation task, correlations between mean ratings were quite encouraging, especially on formality and informativeness. We further explored correlation between the three linguistic variables, genre-wise variation of ratings and correlations within genres, compatibility with automatic stylistic scoring, and sentential make-up of a document in terms of style. To date, our corpus is the largest sentence-level annotated corpus released for formality, informativeness, and implicature.
研究の動機と目的
- 計算的実用的言語学とスタイルの変化に関する研究を支援するため、フォーマルさ、情報量、含意について文単位でアノテートされた大規模コーパスの構築を目的とする。
- Mechanical Turkを用いた人間によるアノテーションの信頼性を、制御された環境下でのパイロットアノテーションと照合することで評価する。
- ニュース、ブログ、フォーラムといったジャンルごとのフォーマルさ、情報量、含意の違いを分析し、文書内の文の位置に応じた特徴の変化を検討する。
- アノテートされた3つの次元と他のスタイル的要因との相関関係を調査し、既存の自動スタイルスコアリング手法との適合性を評価する。
- 将来的な文単位のフォーマルさと情報量の自動予測モデルの構築に足場を築くとともに、含意アノテーションの信頼性向上に寄与することを目的とする。
提案手法
- Amazon Mechanical Turkのヒトアノテーターが、フォーマルさ、情報量、含意について1〜7段階の尺度で7,032文を評価した。
- 評価者間信頼性を評価するために、2回の独立したアノテーションラウンドを実施し、平均スコアの相関分析を実施した。
- フォーマルさの評価に関しては、制御された環境下でのパイロットアノテーション(Lahiri and Lu, 2011)を用いてMechanical Turkの評価を検証した。
- ニュース、ブログ、フォーラムのジャンルごとに分析を実施し、平均スコアとトレンドを文の位置に応じて比較した。
- 文書内の文の位置に応じて文を10分位に分け、フォーマルさ、情報量、含意が文の開始部から終了部にかけてどのように変化するかを分析した。
- アノテートされた3つの変数と、Fスコア、CFスコア、語彙レベルのフォーマルさなど5つの他のスタイル的特徴との相関を計算し、既存の指標との適合性を評価した。
実験結果
リサーチクエスチョン
- RQ11〜7段階の尺度によるクラウドソーシング評価を用いて、文単位のフォーマルさ、情報量、含意をどれほど信頼性高くアノテートできるか。
- RQ2ニュース、ブログ、フォーラムといった異なるジャンルにおいて、フォーマルさ、情報量、含意はどのように変化するか。
- RQ3文書内の文の位置(例:冒頭、中盤、終盤)に応じて、フォーマルさ、情報量、含意のパターンはどのように変化するか。
- RQ4人間によるアノテートスコアと、Fスコア、CFスコア、語彙レベルのフォーマルさスコアといった既存の自動スタイル指標との相関はどの程度か。
- RQ5このコーパスは、文単位のフォーマルさと情報量の自動予測モデルの開発を支援できるか。また、含意アノテーションにおいて残された課題は何か。
主な発見
- フォーマルさと情報量については、評価者間信頼性が高く、2回の独立したMechanical Turkアノテーションラウンド間で高い相関が確認され、これらの次元における人間の判断の信頼性が裏付けられた。
- 制御された環境下でのパイロットアノテーションとの相関は前向きであり、特にフォーマルさに関しては、その主観性を考慮してもMechanical Turkの手法が妥当であると検証された。
- ニュース記事は、フォーマルさと情報量の平均値が最も高く、次にブログ、その後にフォーラムが続いた。ニュース記事では、時間の経過に従いフォーマルさと情報量が低下した。
- ブログの文は、フォーマルさと情報量にU字型の傾向を示し、中盤でピークに達し、終盤にかけて低下した。これは、明確な修辞的構造があることを示唆している。
- フォーラムの文は、全体的に低いフォーマルさと情報量を維持しており、わずかな変動を除いて安定した非公式かつ情報量の少ないスタイルを示した。
- 含意スコアには文の位置に応じた明確なトレンドがなく、信頼性が最も低く、この実用的次元における一貫した人間のアノテーションに大きな課題があることが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。