QUICK REVIEW

[論文レビュー] Stylistic Fingerprints, POS-tags and Inflected Languages: A Case Study in Polish

Maciej Eder, Rafał L. Górski|arXiv (Cornell University)|Jun 5, 2022

Authorship Attribution and Profiling参考文献 20被引用数 23

ひとこと要約

本研究は、屈曲語の一つであるポーランド語におけるスタイル的特徴を、語形未規定語、語彙素形式、品詞タグn-gramを比較することで、著者識別に用いる。ポーランド語小説のコーパスを用いた教師あり分類の結果、最も頻出語（MFWs）が語彙素形式や品詞タグよりも優れているが、後者は依然として顕著な寄与を示しており、著者固有の信号が文法構造に安定して内蔵されていることが示された。これは、全体的な性能は低いものの、文法的構造が著者固有の信号を保持していることを裏付けている。

ABSTRACT

In stylometric investigations, frequencies of the most frequent words (MFWs) and character n-grams outperform other style-markers, even if their performance varies significantly across languages. In inflected languages, word endings play a prominent role, and hence different word forms cannot be recognized using generic text tokenization. Countless inflected word forms make frequencies sparse, making most statistical procedures complicated. Presumably, applying one of the NLP techniques, such as lemmatization and/or parsing, might increase the performance of classification. The aim of this paper is to examine the usefulness of grammatical features (as assessed via POS-tag n-grams) and lemmatized forms in recognizing authorial profiles, in order to address the underlying issue of the degree of freedom of choice within lexis and grammar. Using a corpus of Polish novels, we performed a series of supervised authorship attribution benchmarks, in order to compare the classification accuracy for different types of lexical and syntactic style-markers. Even if the performance of POS-tags as well as lemmatized forms was notoriously worse than that of lexical markers, the difference was not substantial and never exceeded ca. 15%.

研究の動機と目的

ポーランド語のような高度に屈曲的な言語における語彙素形式と品詞タグn-gramが、著者識別に用いるスタイル的特徴として効果的であるかを評価すること。
屈曲的言語における語形の多様性に起因するデータスパarsity（希少性）の問題に対処すること。これは、語形が急増し、頻度が希薄化するためである。
文法的特徴（品詞タグを介して）と語彙素形式が、従来の語彙的マーカー（例：MFWs）よりも著者固有のスタイル的特徴を捉えるのに優れているかどうかを調査すること。
文法的構造が全体的な性能は低いものの、屈曲的言語において、著者固有の安定した信号を保持しているかどうかを検証すること。
語彙素形式化が、語彙的豊富な言語（例：ポーランド語）における著者識別正確性を向上させるのか、それとも低下させるのかを特定すること。

提案手法

189部のポーランド語小説から成るコーパスを構築し、データセットサイズを変化させるために189、99、30部のサブセットに分割した。
3種類のスタイル的特徴を抽出した：(1) 最も頻出語（MFWs）、(2) NLPによる語彙素形式化を用いた語彙素形式、(3) 品詞タギングから得た品詞タグn-gram（1-から3-gramまで）。
著者識別正確性を評価するために、コサインデルタ、SVM、NSC、および距離ベースの分類器（デルタ）の4つの教師あり分類手法を適用した。
データセットおよび分類器ごとに特徴タイプ間の性能差の統計的有意性を評価するために、ウィルコクソン符号順位検定を用いた。
F1スコアを用いて性能を評価し、特徴ベクトルサイズの関数としてのF1スコアの変化を可視化するための曲線を作成した。
完全な品詞タグ、最初のセグメント品詞タグ（厳密な品詞タグ）、および長さが異なる（1-から3-gramまで）品詞タグn-gramの性能を比較した。

実験結果

リサーチクエスチョン

RQ1語彙素形式化は、ポーランド語のような高度に屈曲的な言語における著者識別正確性を向上させるのか、それとも形態的変動を除去することで信号を損なうのか？
RQ2MFWs や語彙素形式と比較して、品詞タグn-gramはポーランド語における著者識別分類正確性においてどのように異なるか？
RQ3特定のn-gram長（例：1-gram、2-gram、3-gram）が、著者固有のスタイル的差を捉えるのに最適な性能を示すのか？
RQ4文法的特徴（品詞タグの系列として反映される）は、絶対的性能が低いにもかかわらず、著者固有の安定した特徴をどれほど維持しているのか？
RQ5語彙的特徴と文法的特徴の相対的寄与度は、語彙的豊富な言語における著者識別にどの程度寄与しているのか？

主な発見

語形未規定の最も頻出語（MFWs）は、すべてのデータセットおよび分類器で語彙素形式よりも顕著に優れており、統計的に有意な差（189および99部の場合、p < 0.00001）を示した。
語彙素形式はMFWsと比較して最大で約15％の性能差を示しており、これは語彙素形式化がポーランド語において関連するスタイル的情報を取り除く可能性があることを示唆している。
品詞タグn-gramは全体的に語彙的マーカーほど性能が良くないが、強力で安定した信号を保持しており、最悪の特徴設定でも最大F1スコアの約75％に達した。
品詞タグでは、3-gramが1-および2-gramよりも優れた性能を示すことが多く、特に厳密な品詞タグバージョンでは、文法的系列が個々のタグよりもより高い識別力を持つことが示された。
完全な品詞タグの性能はn-gram長にかかわらず比較的平坦であり、これは耐性は高いがハイパーパramータチューニングへの感受性は低いことを示している。
最も効果の薄い品詞タグ設定でもF1スコアが約0.75に達しており、文法的特徴がポーランド語における著者識別に非常に情報的であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。