QUICK REVIEW

[논문 리뷰] Thunder-KoNUBench: A Corpus-Aligned Benchmark for Korean Negation Understanding

Sungmok Jung, Yeonkyoung So|arXiv (Cornell University)|2026. 01. 08.

Topic Modeling인용 수 0

한 줄 요약

이 논문은 Thunder-KoNUBench를 한국어 문장 수준 부정 벤치마크로 제시하고, 코퍼스 분포에서 구성되며, 이 벤치마크로 미세 조정을 수행하면 47개의 LLM에서 부정 이해가 향상되고, cloze-style 감독이 symbol-style 감독보다 더 우수하다는 것을 보여준다.

ABSTRACT

Although negation is known to challenge large language models (LLMs), benchmarks for evaluating negation understanding, especially in Korean, are scarce. We conduct a corpus-based analysis of Korean negation and show that LLM performance degrades under negation. We then introduce Thunder-KoNUBench, a sentence-level benchmark that reflects the empirical distribution of Korean negation phenomena. Evaluating 47 LLMs, we analyze the effects of model size and instruction tuning, and show that fine-tuning on Thunder-KoNUBench improves negation understanding and broader contextual comprehension in Korean.

연구 동기 및 목표

한국어 부정이 LLM 성능에 어떤 영향을 주는지 동기를 부여하고 정량화하며 한국어 부정 분포를 반영하는 벤치마크를 확립한다.
한국어 부정 유형과 문장 구조를 특징지어 벤치마크 설계를 알린다.
다양한 LLM의 부정 이해를 평가하고 모델 크기 및 지시 학습의 효과를 분석한다.
한국어 부정 이해와 맥락 이해를 향상시키기 위한 감독 학습 미세 조정 전략을 조사한다.

제안 방법

한국어 부정의 분포와 문장 구조를 특징지우기 위한 코퍼스 기반 분석을 수행한다.
한국어의 표준 부정과 지역 부정을 정의하고 부정 현상(표준 부정, 지역 부정, 모순, 의역)을 분류한다.
경험적 한국어 부정 분포와 분류를 반영하는 4,784-item 다지선다형 데이터셋으로 Thunder-KoNUBench를 구성한다.
LM Evaluation Harness를 사용하여 47개 LLM을 cloze 및 symbol MCQA 설정에서 제로샷 및 소수샷으로 평가한다.
Thunder-KoNUBench 학습 데이터에 대해 저차원 적응(LoRA)을 활용한 감독 미세 조정을 적용하여 SFT 효과를 연구한다.
학습 부정 신호의 학습 효과를 평가하기 위해 cloze 대 symbol 형식 간의 감독 신호의 풍부성을 비교한다.

실험 결과

연구 질문

RQ1한국어 코퍼스에서 부정은 어떻게 분포하며 주요 절 및 종속절의 문장 구조에서 어떻게 나타나는가?
RQ2한국어에서 부정을 다룰 때 LLM이 성능 저하를 보이는가, 모델 크기와 미세 조정이 이를 어떻게 좌우하는가?
RQ3Thunder-KoNUBench가 한국어 부정 이해를 효과적으로 측정하고 감독 학습을 통해 개선을 이끌 수 있는가?
RQ4클로즈 스타일 생성 기반 감독이 기호 기반 선택 감독보다 한국어 부정 학습에 더 효과적인가?

주요 결과

한국어 및 비한국어 모델을 포함한 LLM은 한국어 부정을 이해하고 추론해야 할 때 성능 저하를 보인다.
더 큰 모델은 일반적으로 Thunder-KoNUBench에서 더 잘 수행하지만 8–12B 파라미터 주변에서 일부 비단조적 현상이 나타난다.
지시 학습은 기호 형식의 전반적 성능을 향상시킬 수 있지만 한국어 클로즈 기반 성능은 저하될 수 있어 형식 편향을 시사한다.
Thunder-KoNUBench에서의 감독 미세 조정은 한국어 부정 이해와 맥락적 이해를 개선한다.
클로즈 스타일 미세 조정은 부정 작업에서 기호 스타일 미세 조정보다 더 큰 이득을 가져오며, 생성 기반 감독이 더 효과적임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.