Skip to main content
QUICK REVIEW

[论文解读] Semantic categories of artifacts and animals reflect efficient coding

Noga Zaslavsky, Terry Regier|arXiv (Cornell University)|May 11, 2019
Language and cultural evolution参考文献 19被引用 53
一句话总结

本论文在色彩命名之外测试信息瓶颈(IB) 效率原则,显示荷兰语/法语容器命名的近似最优 IB 效率,并从 IB 轨迹推导动物类别层级。

ABSTRACT

It has been argued that semantic categories across languages reflect pressure for efficient communication. Recently, this idea has been cast in terms of a general information-theoretic principle of efficiency, the Information Bottleneck (IB) principle, and it has been shown that this principle accounts for the emergence and evolution of named color categories across languages, including soft structure and patterns of inconsistent naming. However, it is not yet clear to what extent this account generalizes to semantic domains other than color. Here we show that it generalizes to two qualitatively different semantic domains: names for containers, and for animals. First, we show that container naming in Dutch and French is near-optimal in the IB sense, and that IB broadly accounts for soft categories and inconsistent naming patterns in both languages. Second, we show that a hierarchy of animal categories derived from IB captures cross-linguistic tendencies in the growth of animal taxonomies. Taken together, these findings suggest that fundamental information-theoretic principles of efficient coding may shape semantic categories across languages and across domains.

研究动机与目标

  • 测试 IB 效率原则是否从颜色命名推广到其他语义领域(工件与动物)。
  • 考察荷兰语和法语的容器命名,包括单语和双语说话者,是否表现出接近最优的 IB 效率。
  • 基于 IB 推导动物命名的轨迹,并与 Brown 的动物术语隐含层级进行比较。
  • 评估在这些领域中观察到的软类别和不一致命名是否与 IB 预测一致。
  • 探索语义学中的跨语言和跨领域的高效编码的一般性。

提出的方法

  • 使用领域特定数据定义意义空间和先验(容器:基于相似性的表示;动物:基于特征、熟悉度先验)。
  • 通过在 beta 值阶梯下优化 F_beta[q] = I(M;W) - beta I(W;U) 来计算 IB 权衡。
  • 评估每种命名条件下的复杂性 I_q(M;W) 与准确性 I_q(W;U)(通过基于 KL 的差异)。
  • 将经验命名系统与 IB 最优解以及一组假设的置换系统进行比较,以评估接近最优性。
  • 使用非度量 MDS 可视化容器嵌入,并与 IB 推导的类别进行比较。
  • 对于动物,生成 2–4 个类别的 IB 轨迹,并与 Brown 的阶段进行比较。

实验结果

研究问题

  • RQ1IB 原则是否能解释荷兰语和法语的容器命名中的接近最优效率,包括双语趋同?
  • RQ2在 IB 模型下,动物命名系统是否能够再现跨语言的动物分类层级趋向?
  • RQ3软类别与容器和动物中的不一致命名是否可被 IB 的效率约束所解释?
  • RQ4双语命名模式与单语模式在效率和趋同方面在 IB 下有何差异?

主要发现

  • 荷兰语和法语的容器命名(单语与双语)在广泛 stimulus 集上接近理论 IB 极限。
  • 双语者在语言之间显示出更相似的效率-准确性权衡,表明在效率压力下趋同。
  • 假设性随机置换的命名系统在效率性和与 IB 系统的相似性方面都较低,支持观察到命名的接近最优性。
  • IB 推导的动物类别层级捕捉了跨语言的趋向,并反映了感知特征与功能特征的混合。
  • 动物的 IB 轨迹类似于 Brown 的隐含阶段,尽管数据集偏差导致一些差异,但总体支持高效性塑造分类。
  • 总体而言,跨域的高效编码似乎在色彩之外的语义范畴中也在塑造语义类别。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。