[论文解读] PROMPT2BOX: Uncovering Entailment Structure among LLM Prompts
Prompt2Box 将提示以盒子形式嵌入,以捕捉语义相似性与提示特异性,支持 entailment 感知分析与改进的 LLM 弱点分层聚类。
To discover the weaknesses of LLMs, researchers often embed prompts into a vector space and cluster them to extract insightful patterns. However, vector embeddings primarily capture topical similarity. As a result, prompts that share a topic but differ in specificity, and consequently in difficulty, are often represented similarly, making fine-grained weakness analysis difficult. To address this limitation, we propose PROMPT2BOX, which embeds prompts into a box embedding space using a trained encoder. The encoder, trained on existing and synthesized datasets, outputs box embeddings that capture not only semantic similarity but also specificity relations between prompts (e.g., "writing an adventure story" is more specific than "writing a story"). We further develop a novel dimension reduction technique for box embeddings to facilitate dataset visualization and comparison. Our experiments demonstrate that box embeddings consistently capture prompt specificity better than vector baselines. On the downstream task of creating hierarchical clustering trees for 17 LLMs from the UltraFeedback dataset, PROMPT2BOX can identify 8.9\% more LLM weaknesses than vector baselines and achieves an approximately 33\% stronger correlation between hierarchical depth and instruction specificity.
研究动机与目标
- 需要将提示特异性建模,而不仅仅是主题相似性,以诊断 LLM 弱点的动机。
- 提出一种盒嵌入表示,通过提示之间的包容关系建模蕴含。
- 开发训练数据合成和学习目标,将提示映射到盒嵌入。
- 引入 Box-SNE,用于降维并为盒嵌入量身定制的分层聚类方法。
- 证明盒嵌入更好地捕捉提示特异性,并比向量基线进行更有信息量的弱点分析。
提出的方法
- 将每个提示表示为由中心向量和宽度向量定义的高维轴对齐盒子。
- 将蕴含定义为包容关系,使用条件概率 p(b|a) = VolInt(a,b)/Vol(Box(a))。
- 使用来自 Sentence Transformer 的编码器并有两个 MLP 头,训练以从提示预测 Box(a),对比目标用于相似性与蕴含。
- 从 Infinity Instruct、MultiNLI、WildChat(通过 SURI 的层级与兄弟关系)以及一个链接数据集合成并筛选蕴含与相关性数据,以训练模型。
- 引入 Box-SNE,一种盒子感知的降维技术,在二维表示中保留相交和蕴含信号。
- 为盒嵌入开发分层聚类框架,使用体积为基础的连接距离在提示之间构建树。

实验结果
研究问题
- RQ1相比向量基线,盒嵌入能否更好地捕捉提示之间的蕴含与特异性?
- RQ2所提出的蕴含感知表示在下游的弱点分析和跨 LLM 的提示分层聚类中有何影响?
- RQ3合成的蕴含数据对提示表示质量的提升程度如何?
- RQ4Box-SNE 能否提供忠实的低维可视化,保留体积、交集与蕴含关系?
- RQ5盒嵌入如何影响在分层提示分析中对 LLM 弱点的发现与包容?
主要发现
- 盒嵌入在蕴含相关任务(FollowBench 与 SURI)上优于向量基线,并在语义相似性上提供具有竞争力的表现。
- 在基于检索的评估(FollowBench)中,基于盒子的模型在蕴含数据使用时的准确率高于向量基线。
- 盒嵌入能够更准确地对提示进行分层聚类,提高局部分数一致性和特异性排序,相比向量方法。
- 基于盒子的层次结构在特异性对齐方面表现更好(准确性超过 70%),表明更强的指令特异性捕捉。
- Box-SNE 在二维可视化中保留了体积、交集与蕴含关系,使不同数据集和模型规模的提示难度与特异性区分更清晰。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。