QUICK REVIEW

[论文解读] exBERT: A Visual Analysis Tool to Explore Learned Representations in Transformers Models

Benjamin Hoover, Hendrik Strobelt|arXiv (Cornell University)|Oct 11, 2019

Topic Modeling参考文献 18被引用 47

一句话总结

exBERT 是一个交互式可视化工具，分析 Transformer 模型中的注意力模式和标记嵌入，使用户能够通过将输入上下文与大量带注释的语料库匹配来检查学习到的表示所编码的内容。它将注意力视图与基于语料库的最近邻搜索相结合，以揭示头部和嵌入所捕获的语言信息。

ABSTRACT

Large language models can produce powerful contextual representations that lead to improvements across many NLP tasks. Since these models are typically guided by a sequence of learned self attention mechanisms and may comprise undesired inductive biases, it is paramount to be able to explore what the attention has learned. While static analyses of these models lead to targeted insights, interactive tools are more dynamic and can help humans better gain an intuition for the model-internal reasoning process. We present exBERT, an interactive tool named after the popular BERT language model, that provides insights into the meaning of the contextual representations by matching a human-specified input to similar contexts in a large annotated dataset. By aggregating the annotations of the matching similar contexts, exBERT helps intuitively explain what each attention-head has learned.

研究动机与目标

提供一个交互式、模型无关的可视化，用于检查 Transformer 模型中的注意力和标记嵌入。
通过基于语料库的最近邻搜索，探索学习到的表示编码的语言信息和位置信息。
允许用户比较注意力模式和嵌入相似性，以揭示头部和层如何捕获元数据（POS、DEP、NER 等）。
通过对 Wizard of Oz 语料库的 BERT 案例研究来展示跨层的语言特征编码进展。

提出的方法

三个主要组件：Attention View（交互式层/头部选择与屏蔽）、Corpus View（对带注释的参考语料库进行最近邻搜索）、Summary View（元数据直方图）。
最近邻搜索对标记嵌入和拼接的头部嵌入使用余弦相似度，以在带语言注释的语料库中找到顶部匹配。
头部嵌入通过在一个层内将规范化的头部表示连接起来来定义，使得可以在头部子集上进行选择性搜索。
参考语料库按句子分割并带有语言学元数据注释（POS、DEP、NER），为匹配提供有意义的上下文。
搜索结果显示带元数据的顶部匹配，鼠标悬停时显示元数据，并提供摘要以说明嵌入所捕获的语言特征。
通过调整标记化和元数据分配，该方法可以应用于除了 BERT 之外的不同 Transformer 模型和语料库。

实验结果

研究问题

RQ1在 Transformer 模型的不同层中，学习的标记嵌入编码了哪些语言学和结构信息？
RQ2注意力头如何有助于编码语言特征，是否可以通过基于语料库的最近邻搜索来解释它们的作用？
RQ3交互式可视化能否揭示语言特征编码（如 POS、DEP、NER）在模型层和头部中的进展？
RQ4该工具在通过将嵌入和注意力与带注释的语料库上下文联系起来来解释被屏蔽的标记所表示的内容方面是否有效？

主要发现

注意力与嵌入分析显示随着层数的增加，语言特征逐步被编码（在被屏蔽标记情境中，早期层从标点/DET，到后续层的动词）。
按头部嵌入进行搜索可以暴露依存结构（例如 DOBJ、ROOT、AUX），这些结构可能依赖头部的组合而非单一头部。
位置头对后续词显示出系统性的注意力，并揭示相应的 POS/DEP 模式，说明某些头部如何编码位置信息。
该工具表明，某些语言关系是由头部的组合而非单一头部检测到的，突出学习到的表征的分布式特性。
exBERT 提供了一种实用的、模型无关的方式，通过将注意力可视化与基于语料的元数据注释结合起来，检查上下文表示学到的内容。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。