Skip to main content
QUICK REVIEW

[論文レビュー] Unsupervised Context-Sensitive Spelling Correction of English and Dutch Clinical Free-Text with Word and Character N-Gram Embeddings

Pieter Fivez, Simon Šuster|arXiv (Cornell University)|Jan 1, 2017
Natural Language Processing Techniques被引用数 2
ひとこと要約

本稿では、語と文字n-gram埋め込みを用いた、英語およびオランダ語の臨床自由記述文のための教師なしで文脈に敏感な綴り直し補正手法を提案する。誤り候補は文脈ベクトルとの重み付きコサイン類似度によって順位付けされ、MIMIC-III(英語)では既存のツールを上回り、オランダ語臨床記録では最先端の結果を達成したが、頻度バイアスの低減は英語でのみ経験的に確認された。

ABSTRACT

We present an unsupervised context-sensitive spelling correction method for clinical free-text that uses word and character n-gram embeddings. Our method generates misspelling replacement candidates and ranks them according to their semantic fit, by calculating a weighted cosine similarity between the vectorized representation of a candidate and the misspelling context. To tune the parameters of this model, we generate self-induced spelling error corpora. We perform our experiments for two languages. For English, we greatly outperform off-the-shelf spelling correction tools on a manually annotated MIMIC-III test set, and counter the frequency bias of a noisy channel model, showing that neural embeddings can be successfully exploited to improve upon the state-of-the-art. For Dutch, we also outperform an off-the-shelf spelling correction tool on manually annotated clinical records from the Antwerp University Hospital, but can offer no empirical evidence that our method counters the frequency bias of a noisy channel model in this case as well. However, both our context-sensitive model and our implementation of the noisy channel model obtain high scores on the test set, establishing a state-of-the-art for Dutch clinical spelling correction with the noisy channel model.

研究の動機と目的

  • 臨床NLPタスクを妨げる綴りの誤りを解消する挑戦に取り組む。
  • 並列のゴールスタンダードトレーニングデータに依存しない文脈に敏感な綴り直し補正手法を開発する。
  • 綴り直し補正のノイジーチャネルモデルで一般的に見られる頻度バイアスを克服する。
  • この分野における低リソース言語であるオランダ語臨床記録に対しても最先端の綴り直し補正パフォーマンスを拡張する。
  • 神経系の語と文字n-gram埋め込みが、補正のための意味的文脈をモデル化する上で有効であることを示す。

提案手法

  • ゴールスタンダード誤りアノテーションを必要としないように、自己誘発誤りコーパスを生成してモデルハイパーパrameterのチューニングを行う。
  • 語と文字n-gram埋め込みを用いて、誤りとその周辺文脈の両方を表現する。
  • 文脈ベクトルと補正候補ベクトルとの間の重み付きコサイン類似度を計算し、置換の順位を付ける。
  • 意味的に妥当な補正を頻度ベースのものよりも優先する文脈に敏感なスコアリング機構を適用する。
  • モノリンガルな臨床テキストにのみ依存して、教師なしの方法でモデルをトレーニングおよび評価する。
  • 同じ評価設定を用いて比較のためのベースラインノイジーチャネルモデルを実装する。

実験結果

リサーチクエスチョン

  • RQ1語と文字n-gram埋め込みは、並列トレーニングデータが存在しない臨床テキストにおいて、文脈に敏感な綴り直し補正を効果的に改善できるか?
  • RQ2提案手法は、従来のノイジーチャネルモデルで観察される頻度バイアスを低減するか?
  • RQ3この手法は、オランダ語のような低リソース臨床言語設定にもどの程度一般化可能か?
  • RQ4手動アノテーション付き臨床データセット上で、このモデルは既存のオフザシェル綴り補正ツールと比べてどの程度の性能を示すか?
  • RQ5このモデルは、英語およびオランダ語の臨床綴り補正タスクの両方で最先端のパフォーマンスを達成できるか?

主な発見

  • 提案手法は、手動アノテーション付きMIMIC-III英語テストセットにおいて、オフザシェル綴り補正ツールを著しく上回った。
  • 英語において、ノイジーチャネルモデルの頻度バイアスを効果的に是正した。これは意味的文脈モデリングの利点を示している。
  • オランダ語では、オフザシェルツールを上回り、アンツェルト大学病院データセットで新たな最先端の結果を樹立した。
  • 強力なパフォーマンスにもかかわらず、オランダ語設定においては、この手法が頻度バイアスを低減しているという経験的証拠は得られなかった。
  • 文脈に敏感なモデルとノイジーチャネルモデルの両方が、オランダ語テストセットで高いスコアを達成しており、強力なベースラインパフォーマンスであることが示された。
  • 自己誘発誤りコーパスの使用により、ゴールスタンダード誤りアノテーションが欠如する状況下でも、効果的なハイパーパrameterチューニングが可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。