Skip to main content
QUICK REVIEW

[论文解读] Tsetlin Machine Embedding: Representing Words Using Logical Expressions

Bimal Bhattarai, Ole‐Christoffer Granmo|arXiv (Cornell University)|Jan 2, 2023
Topic Modeling被引用 8
一句话总结

论文提出一种 Tsetlin Machine 自动编码器,以学习稀疏、易于人类理解的单词逻辑嵌入,并在下游任务上表现与 GloVe 相当,包含将其与神经嵌入结合的混合方法时的有利结果。

ABSTRACT

Embedding words in vector space is a fundamental first step in state-of-the-art natural language processing (NLP). Typical NLP solutions employ pre-defined vector representations to improve generalization by co-locating similar words in vector space. For instance, Word2Vec is a self-supervised predictive model that captures the context of words using a neural network. Similarly, GLoVe is a popular unsupervised model incorporating corpus-wide word co-occurrence statistics. Such word embedding has significantly boosted important NLP tasks, including sentiment analysis, document classification, and machine translation. However, the embeddings are dense floating-point vectors, making them expensive to compute and difficult to interpret. In this paper, we instead propose to represent the semantics of words with a few defining words that are related using propositional logic. To produce such logical embeddings, we introduce a Tsetlin Machine-based autoencoder that learns logical clauses self-supervised. The clauses consist of contextual words like "black," "cup," and "hot" to define other words like "coffee," thus being human-understandable. We evaluate our embedding approach on several intrinsic and extrinsic benchmarks, outperforming GLoVe on six classification tasks. Furthermore, we investigate the interpretability of our embedding using the logical representations acquired during training. We also visualize word clusters in vector space, demonstrating how our logical embedding co-locate similar words.

研究动机与目标

  • 激发可解释的单词嵌入,使其基于人类可理解的逻辑而非密集向量。
  • 提出基于 TM 的自编码器来学习表示单词上下文的命题逻辑子句。
  • 证明 TM 嵌入在内在和外在的 NLP 任务中可超越或匹配 GloVe。
  • 探索学习到的子句的可解释性,并可视化 TM 嵌入空间中的单词簇。

提出的方法

  • 将单词表示为指示单词在文档中出现的命题变量。
  • 构造一组 conjunction 子句 Cj,作为预测目标单词发生的特征。
  • 使用权重矩阵 W 将子句连接到输出,允许通过对子句评估的加权求和进行推断。
  • 通过 TM 专用的反馈(Type Ia、Type Ib、Type II)进行训练,以自监督方式调整子句记忆和权重。
  • 从学习到的子句中同时产生加权嵌入 E 和纯粹逻辑嵌入 B,以便进行相似性和可解释性分析。
  • 在内在任务(单词相似性与分类)上评估嵌入,在外在任务(使用 BiLSTM 的文本分类)上与基线如 Word2Vec、FastText、GloVe 进行比较。

实验结果

研究问题

  • RQ1 TM 基于自编码器是否能从未标注文本中学习紧凑、便于人类理解的单词语义逻辑表示?
  • RQ2 TM 嵌入在内在的单词相似性与分类任务上是否具有与传统神经嵌入相竞争的性能?
  • RQ3 TM 嵌入是否能像 GloVe 一样有效地支撑下游 NLP 分类任务,且与神经嵌入的混合是否能带来改进?
  • RQ4 学得的子句的可解释性如何,是否能揭示有意义的单词-上下文关系?
  • RQ5 该方法能否扩展到大词汇表,甚至扩展到句子/文档表示?

主要发现

  • TM 嵌入使用一组稀疏子句(大约 10% 的子句连接到一个单词)来通过上下文文本字面量描述单词意义。
  • 在内在相似性任务中,TM 嵌入在余弦相似性评估上与 GloVe 竞争,并在多个数据集上优于 Word2Vec 和 FastText。
  • 在使用 BiLSTM 分类器的外在下游任务中,TM 嵌入与 GloVe 接近匹配,而 TM 混合(80% TM + 20% GloVe)在若干数据集(如 R52、SST-2、SST-5)上可超越 GloVe 的显著边界。
  • 该方法通过基于子句的规则提供可解释的单词表示,可视化基于上下文驱动的单词簇(如健康相关与天气/地理簇)。
  • 子句级可解释性通过单词之间的共享与不同上下文来呈现(例如手术与心脏共享健康相关子句,但在其他上下文中有所不同)。
  • 采用 600 条子句、边距与特异性设置,TM 自动编码器在大语料(One Billion Word)上通过自监督学习展示了有竞争力的性能,并对未来工作中的可扩展硬件考虑提供了思路。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。