QUICK REVIEW

[논문 리뷰] The emergence of numerical representations in communicating artificial agents

Daniela Mihai, Lucas Weber|arXiv (Cornell University)|2026. 02. 11.

Cognitive and developmental aspects of mathematical skills인용 수 0

한 줄 요약

이 논문은 순수하게 의사소통 압력이 두 신경 에이전트가 수치 표현을 개발하게 할 수 있는지 여부를, 이산 토큰과 연속 스케치 방식으로 탐구하고, emergent 코드의 정밀도, 일반화, 자의성을 평가한다.

ABSTRACT

Human languages provide efficient systems for expressing numerosities, but whether the sheer pressure to communicate is enough for numerical representations to arise in artificial agents, and whether the emergent codes resemble human numerals at all, remains an open question. We study two neural network-based agents that must communicate numerosities in a referential game using either discrete tokens or continuous sketches, thus exploring both symbolic and iconic representations. Without any pre-defined numeric concepts, the agents achieve high in-distribution communication accuracy in both communication channels and converge on high-precision symbol-meaning mappings. However, the emergent code is non-compositional: the agents fail to derive systematic messages for unseen numerosities, typically reusing the symbol of the highest trained numerosity (discrete), or collapsing extrapolated values onto a single sketch (continuous). We conclude that the communication pressure alone suffices for precise transmission of learned numerosities, but additional pressures are needed to yield compositional codes and generalisation abilities.

연구 동기 및 목표

의사소통 압력만으로 사전 정의된 개념 없이 신경 에이전트에서 수치 표현이 생겨날 수 있는지 평가한다.
심볼릭(이산 토큰)과 아이코닉(스케치) 의사소통 채널이 수 Numerosity 참조 과제를 해결하는 데 있어 비슷한가 혹은 다른 emergent numerical codes를 생성하는지 비교한다.
Emergent 코드의 특성(정밀도, 효율성, 자의성, 일반화, 잠재적 구성 가능성)을 평가한다.
코드 구조와 일반화에 미치는 학습 데이터 빈도와 학습 전략의 영향을 조사한다.

제안 방법

숫자 이미지를 보내는 발신자가 수신자에게 점의 수를 의사소통해야 하고 수신자는 방해물 중에서 일치하는 대상물을 선택하는 참조 게임을 사용한다.
두 가지 의사소통 채널을 테스트한다: LSTM 인코더가 생성하는 이산 토큰과 같은 연속적인 스케치를 빈 화면에 그려 같은 이미지 인코더가 읽는 채널.
두 에이전트 모두 점 이미지 처리를 위한 사전 학습된 ViT 인코더를 공유하고, 올바른 타깃 식별을 최대화하기 위해 다항식 힌지 손실을 사용한다.
훈련 및 일반화 단계에서 범위 내 숫자와 보지 못한 숫자를 평가하여 일반화 및 외삽을 연구한다.
평가지표는 작업 정확도, 메시지 길이 또는 스케치 길이, 메시지에 주어진 수의 조건부 엔트로피, 정규화가 효율성에 미치는 영향을 포함한다.
자극은 정보 특징으로서 숫자 수를 고립시켜 시각적 특성으로 인한 교란을 제한한다.

실험 결과

연구 질문

RQ1순수한 의사소통 상호작용만으로 사전 정의된 개념 없이도 정확한 수치 표현이 생겨날 수 있는가?
RQ2의사소통 압력 하에서 이산 채널과 연속 채널은 유사한 emergent 수치 코드를 생성하는가, 아니면 다른가?
RQ3Emergent 코드는 보지 못한 수치에 일반화되는가, 그리고 구성적(compo sitional)인가 아니면 전체적(holistic)인가?
RQ4빈도 분포와 학습 전략이 코드의 효율성과 구조에 어떤 영향을 미치는가?

주요 결과

에이전트들은 이산 채널과 연속 채널 모두에서 훈련된 수에 대해 높은 정확도의 의사소통을 학습한다.
정규화 압력 하에서 메시지는 정확도 손실이 최소화되고 엔트로피가 낮아지며 더 짧아져 효율적인 쌍대 인코딩이 나타난다.
학습 빈도(Uniform/Increase/Decrease)를 조작해도 자주 등장하는 수에 대해 더 짧은 코드를 안정적으로 생성하지 못하며 자의성은 여전히 남아 있다.
보지 못한 수에 대한 일반화는 약하다: 에이전트는 외삽에서 가장 큰 훈련 숫자의 기호를 재사용하는 경향이 있어 체계적 구조의 결여를 보인다.
스케치 기반 의사소통은 외삽이 기회보다 낫지만 구성적 스케치를 낳지 못하고 두 채널 모두 여전히 대부분은 전체적이다.
전반적으로 의사소통 압력은 학습된 수를 정확하게 전달하게 하지만 구성성 및 강력한 일반화를 위해서는 추가적인 압력이 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.