Skip to main content
QUICK REVIEW

[논문 리뷰] Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

Ruchira Dhar, Qiwei Peng|arXiv (Cornell University)|2026. 02. 14.
Topic Modeling인용 수 0
한 줄 요약

이 논문은 LLM에서 형용사-명사 구성성에 대한 기능적 작업 기반 평가와 표현적 분석을 대조하여 내부 구성 신호는 강하지만 모델 변형 간 작업 성공으로의 번역은 일관되지 않음을 발견한다.

ABSTRACT

Compositionality is considered central to language abilities. As performant language systems, how do large language models (LLMs) do on compositional tasks? We evaluate adjective-noun compositionality in LLMs using two complementary setups: prompt-based functional assessment and a representational analysis of internal model states. Our results reveal a striking divergence between task performance and internal states. While LLMs reliably develop compositional representations, they fail to translate consistently into functional task success across model variants. Consequently, we highlight the importance of contrastive evaluation for obtaining a more complete understanding of model capabilities.

연구 동기 및 목표

  • 통합된 기능적 및 표현적 프레임워크를 사용하여 LLM에서 형용사-명사 구성성을 조사한다.
  • 스케일링과 인스트럭션 튜닝을 통해 학습된 구성 지식이 작업 성공으로 번역되는지 평가한다.
  • 다양한 모델 변형에서 내부 표현이 구성 구조를 어떻게 인코딩하는지 평가한다.
  • 모델 능력에 대한 더 포괄적 이해를 얻기 위한 대조적 평가의 필요성을 강조한다.

제안 방법

  • 세 가지 AN 작업(Substitutivity, Systematicity, Overgeneralization)에 걸친 프롬프트 기반 기능 평가.
  • 내부 상태에 대한 계층별 탐색을 통한 표현 분석(AddOne/PLANE에는 선형 분류기, COMPCOMB에는 코사인 유사도).
  • 기본(Base), 지시 학습, 대형 변형을 포함한 네 가지 모델 계열(LLaMA-2, CodeLlama, Qwen2.5-Coder, Gemma2)에서 평가.
  • 구성 작업 성능에 대한 스케일링과 지시 학습 효과 분석.
  • 기능적 성능 경향과 표현에서의 중간 계층 구성 신호를 비교.
Figure 1: The average performance across different model category (Base, Instruction Tuning, and Large model size) on three tasks. We report the weighted F1 score on AddOne and PLANE, and Accuracy on COMPCOMB.
Figure 1: The average performance across different model category (Base, Instruction Tuning, and Large model size) on three tasks. We report the weighted F1 score on AddOne and PLANE, and Accuracy on COMPCOMB.

실험 결과

연구 질문

  • RQ1LLM에서 AN 구성성을 평가할 때 기능적 작업 평가와 표현 분석이 수렴하는가, 아니면 발산하는가?
  • RQ2다양한 모델 변형에서 구성적 표현이 내부 상태에 신뢰성 있게 인코딩되는가?
  • RQ3모델 스케일링과 지시 학습이 구성 작업 성능 및 내부 표현에 어떤 영향을 미치는가?
  • RQ4내부 구성 신호와 외부 작업 결과 간의 관계는 무엇인가?

주요 결과

  • AN 구성성의 표현 신호가 모델과 계층 전반에 일관되게 나타난다.
  • AN 구성성에 대한 작업 성능은 이질적이며 스케일링이나 지시 학습으로 보편적으로 개선되지 않는다.
  • 표현 패턴은 중간 계층에서 정점에 도달하는 경향이 있으며 모델 변형에서 안정적으로 유지된다.
  • 기능적 작업 성공과 내부 표현 신호 사이에 체계적 차이가 있어 대조적 평가의 필요성을 강조한다.
  • 기능적 및 표현 분석을 결합한 포괄적 평가는 구성 능력에 대해 더 미묘한 시각을 제공한다.
Figure 2: Layer-wise results (weighted F1 score) on AddOne dataset.
Figure 2: Layer-wise results (weighted F1 score) on AddOne dataset.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.