Skip to main content
QUICK REVIEW

[논문 리뷰] PROMPT2BOX: Uncovering Entailment Structure among LLM Prompts

Neeladri Bhuiya, Shib Sankar Dasgupta|arXiv (Cornell University)|2026. 03. 22.
Topic Modeling인용 수 0
한 줄 요약

Prompt2Box는 프롬프트를 박스(box)로 임베딩하여 의미적 유사성과 프롬프트 특이성 모두를 포착하고, 함의 인식 기반 분석과 LLM의 약점에 대한 계층적 클러스터링을 개선합니다.

ABSTRACT

To discover the weaknesses of LLMs, researchers often embed prompts into a vector space and cluster them to extract insightful patterns. However, vector embeddings primarily capture topical similarity. As a result, prompts that share a topic but differ in specificity, and consequently in difficulty, are often represented similarly, making fine-grained weakness analysis difficult. To address this limitation, we propose PROMPT2BOX, which embeds prompts into a box embedding space using a trained encoder. The encoder, trained on existing and synthesized datasets, outputs box embeddings that capture not only semantic similarity but also specificity relations between prompts (e.g., "writing an adventure story" is more specific than "writing a story"). We further develop a novel dimension reduction technique for box embeddings to facilitate dataset visualization and comparison. Our experiments demonstrate that box embeddings consistently capture prompt specificity better than vector baselines. On the downstream task of creating hierarchical clustering trees for 17 LLMs from the UltraFeedback dataset, PROMPT2BOX can identify 8.9\% more LLM weaknesses than vector baselines and achieves an approximately 33\% stronger correlation between hierarchical depth and instruction specificity.

연구 동기 및 목표

  • LLM의 약점을 진단하기 위해 주제적 유사성뿐 아니라 프롬프트 특이성을 모델링할 필요성을 제안한다.
  • 프롬프트 간의 포함 관계를 통해 함의를 모델링하는 박스 임베딩 표현을 제안한다.
  • 프롬프트를 박스 임베딩으로 매핑하기 위한 학습 데이터 합성 및 학습 목표를 개발한다.
  • 박스 임베딩에 맞춘 차원 축소와 계층적 클러스터링 방법인 Box-SNE를 도입한다.
  • 박스 임베딩이 프롬프트 특이성을 더 잘 포착하고 벡터 기초법보다 더 정보에 근거한 약점 분석을 가능하게 함을 보여준다.

제안 방법

  • 각 프롬프트를 중심 벡터와 너비 벡터로 정의된 고차원 축 정렬 박스(box)로 표현한다.
  • 함의를 포함 관계로 정의하고, p(b|a) = VolInt(a,b)/Vol(Box(a))를 사용한다.
  • 프롬프트로부터 Box(a)를 예측하기 위해 두 개의 MLP 헤드를 갖는 인코더(Sentence Transformer에서 가져옴)를 학습시키고, 유사성과 함의를 위한 대조적 목표를 사용한다.
  • 모델 학습을 위해 Infinity Instruct, MultiNLI, WildChat(SURI를 통한 계층적 및 형제 관계 포함), 그리고 연결 데이터셋으로부터 함의 및 관련 데이터의 합성 및 선별.
  • Box-SNE를 도입한다. 이는 박스 인지 차원 축소 기법으로, 2D 표현에서 교차(intersection)와 함의 신호를 보존한다.
  • 프롬프트를 대상으로 트리를 구성하기 위해 부피 기반의 조인 거리(volume-based join distance)를 사용하여 박스 임베딩에 대한 계층적 클러스터링 프레임워크를 개발한다.
Figure 1 : Comparison between the widely-used vector representation and our box representation for analyzing the performance of an LLM on four prompts. Blue means that the LLM achieves a high performance on the prompt while red means the opposite. Our approach correctly highlights that a weakness of
Figure 1 : Comparison between the widely-used vector representation and our box representation for analyzing the performance of an LLM on four prompts. Blue means that the LLM achieves a high performance on the prompt while red means the opposite. Our approach correctly highlights that a weakness of

실험 결과

연구 질문

  • RQ1박스 임베딩이 벡터 기초법에 비해 프롬프트 간의 함의성과 특이성을 더 잘 포착할 수 있는가?
  • RQ2제안된 함의 인식 표현이 LLM 전반의 프롬프트에 대한 약점 분석 및 계층적 클러스터링에 어떤 영향을 미치는가?
  • RQ3합성된 함의 데이터가 프롬프트 표현의 질을 어느 정도까지 향상시키는가?
  • RQ4Box-SNE가 부피, 교차, 함의 관계를 보존하는 충실한 저차원 시각화를 제공할 수 있는가?
  • RQ5계층적 프롬프트 분석에서 박스 임베딩이 LLM 약점의 발견과 포함에 어떤 영향을 미치는가?

주요 결과

  • 박스 임베딩은 함의 관련 작업(FollowBench 및 SURI)에서 벡터 기초법을 능가하고, 의미적 유사성 성능에서도 경쟁력을 보인다.
  • 검색 기반 평가(FollowBench)에서 박스 기반 모델이 벡터 기초법보다 더 높은 정확도를 달성하며, 특히 함의 데이터가 사용될 때 그렇다.
  • 박스 임베딩은 프롬프트의 계층적 클러스터링을 더 정확하게 가능하게 하여 벡터 방법에 비해 지역 점수 일관성과 특이성 정렬을 향상시킨다.
  • 박스 기반 계층은 벡터 기초법보다 더 나은 특이성 정렬(70% 이상 정확도)을 제공하여 지시 특성의 포착이 더 강함을 시사한다.
  • Box-SNE는 2D 시각화에서 부피, 교차 및 함의 관계를 보존하여 데이터세트와 모델 규모 전반에 걸친 프롬프트 난이도와 특이성의 구별을 더 명확하게 한다.
Figure 2 : Illustration of our encoder training method. White $\Rightarrow$ means entailment and $\bigotimes$ means intersection. (a) An encoder is trained to take a prompt and output a box. Our loss function encourages its output box to overlap with the box of its corresponding response and being c
Figure 2 : Illustration of our encoder training method. White $\Rightarrow$ means entailment and $\bigotimes$ means intersection. (a) An encoder is trained to take a prompt and output a box. Our loss function encourages its output box to overlap with the box of its corresponding response and being c

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.