Skip to main content
QUICK REVIEW

[論文レビュー] Thunder-KoNUBench: A Corpus-Aligned Benchmark for Korean Negation Understanding

Sungmok Jung, Yeonkyoung So|arXiv (Cornell University)|Jan 8, 2026
Topic Modeling被引用数 0
ひとこと要約

本論文はコーパス分布に基づく韓国語文レベルの否定ベンチマーク Thunder-KoNUBench を提案し、このベンチマークでのファインチューニングが47のLLMの否定理解を改善し、クロージョン型の監督信号がシンボル型より優れていることを示す。

ABSTRACT

Although negation is known to challenge large language models (LLMs), benchmarks for evaluating negation understanding, especially in Korean, are scarce. We conduct a corpus-based analysis of Korean negation and show that LLM performance degrades under negation. We then introduce Thunder-KoNUBench, a sentence-level benchmark that reflects the empirical distribution of Korean negation phenomena. Evaluating 47 LLMs, we analyze the effects of model size and instruction tuning, and show that fine-tuning on Thunder-KoNUBench improves negation understanding and broader contextual comprehension in Korean.

研究の動機と目的

  • 韓国語の否定がLLMの性能に与える影響を動機づけ、韓国語否定分布を反映するベンチマークを構築する。
  • 韓国語の否定タイプと文構造を特徴づけ、ベンチマーク設計を inform する。
  • 否定理解を評価するために広範なLLMを評価し、モデルサイズと指示適合の影響を分析する。
  • 韓国語否定理解と文脈理解を改善するための監督付きファインチューニング戦略を調査する。

提案手法

  • 韓国語否定のコーパスベース分析を実施し、否定タイプと文構造の分布を特徴づける。
  • 韓国語の標準否定と局所否定を定義し、否定現象を標準否定、局所否定、矛盾、言い換えに分類する。
  • Thunder-KoNUBench を実世界の韓国語否定分布とカテゴリを反映した4,784項目の多肢選択データセットとして構築する。
  • LM Evaluation Harness を用いて、47 のLLMをクロージョン(cloze)およびシンボル(symbol)MCQA設定、ゼロショットおよび少数ショットで評価する。
  • Thunder-KoNUBench のトレーニングデータに対して Low-Rank Adaptation (LoRA) を用いた監督付きファインチューニングを適用し、SFT の影響を研究する。
  • 否定学習の学習信号の豊かさを評価するため、クロージョン形式とシンボル形式の比較を行う。

実験結果

リサーチクエスチョン

  • RQ1韓国語コーパスでは否定はどのように分布し、主節と従属節を横断した文構造にはどう現れるか。
  • RQ2LLMは韓国語の否定を処理する際に性能低下を示すか、モデルサイズとチューニングはそれにどう影響するか。
  • RQ3Thunder-KoNUBench は韓国語否定理解を効果的に測定し、監督付きファインチューニングによって改善を導けるか。
  • RQ4クロージョン型生成ベースの監督信号は、学習時の否定学習においてシンボル型選択監督より有効か。

主な発見

  • LLMs(韓国語モデル・非韓国語モデルを含む)は、韓国語で否定を推論する必要がある場合に性能が低下することがある。
  • より大きなモデルは一般に Thunder-KoNUBench での性能が良いが、8–12B パラメータ域で非単調な挙動が現れることがある。
  • 指示適合はシンボル形式で全体的な性能を向上させることがある一方、韓国語のクロージョンベースの性能を低下させる可能性があり、フォーマットバイアスを示す。
  • Thunder-KoNUBench に対する監督付きファインチューニングは韓国語の否定理解と広範な文脈理解を改善する。
  • 否定タスクにおいて、クロージョン型ファインチューニングはシンボル型ファインチューニングより大きな改善をもたらし、生成ベースの監督がより効果的である可能性を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。