[논문 리뷰] Emergent Communication through Negotiation
에이전트는 두 가지 의사소통 채널을 통해 협상을 학습한다; 자기중심적 에이전트는 grounded proposal로 성공하나 cheap talk에서는 실패하고, 반면 친사회적 에이전트는 cheap talk를 활용해 최적의 공동 할당을 달성하며, 커뮤니티에서의 에이전트 식별 가능성이 협상에 도움을 준다.
Multi-agent reinforcement learning offers a way to study how communication could emerge in communities of agents needing to solve specific problems. In this paper, we study the emergence of communication in the negotiation environment, a semi-cooperative model of agent interaction. We introduce two communication protocols -- one grounded in the semantics of the game, and one which is extit{a priori} ungrounded and is a form of cheap talk. We show that self-interested agents can use the pre-grounded communication channel to negotiate fairly, but are unable to effectively use the ungrounded channel. However, prosocial agents do learn to use cheap talk to find an optimal negotiating strategy, suggesting that cooperation is necessary for language to emerge. We also study communication behaviour in a setting where one agent interacts with agents in a community with different levels of prosociality and show how agent identifiability can aid negotiation.
연구 동기 및 목표
- 다중 에이전트 협상 설정에서 커뮤니케이션이 어떻게 나타나는지에 대한 연구의 동기를 제공한다.
- grounded(작업 특화) versus ungrounded (cheap-talk) 커뮤니케이션의 역할을 조사한다.
- 자기중심적 에이전트와 친사회적 에이전트가 보상을 극대화하기 위해 커뮤니케이션을 다르게 활용하는지 조사한다.
- 에이전트 식별가능성과 커뮤니티 구성 요인이 협상 역학과 언어 등장에 어떤 영향을 미치는지 탐구한다.
제안 방법
- 은닉된 효용을 가진 아이템 풀을 두 에이전트가 분할하는 반협력적 협상 게임을 모델링한다.
- 두 개의 의사소통 채널을 구현한다: 작업-grounded 제안 채널과 제약 없는 언어적 cheap-talk 채널.
- 다양한 인센티브 구조를 연구하기 위해 자기중심적( selfish) 및 친사회적 보상 체계를 도입한다.
- 아이템 맥락, 선행 메시지 및 제안을 처리하기 위해 LSTM 기반 아키텍처를 사용하고, 정책 그래디언트(REINFORCE) 학습과 결합한다.
- 다수의 실험에 걸쳐 평가한다: 커뮤니케이션 유무에 따른 자기중심적 협상, cheap talk를 통한 친사회적 조정, 에이전트 커뮤니티를 포함한 사회 규모의 상호 작용.
실험 결과
연구 질문
- RQ1자기중심적 에이전트가 grounded proposal 채널을 사용하여 공정하게 협상하는 방법을 학습할 수 있는가?
- RQ2cheap talk이 효과적인 협상을 가능하게 할 수 있는가, 그리고 어떤 조건에서 실패하거나 성공하는가?
- RQ3친사회적 에이전트가 언어 채널을 활용하여 거의 최적의 공동 할당을 달성하는가?
- RQ4에이전트 식별 가능성과 다양한 에이전트 커뮤니티와의 상호 작용이 협상 결과와 언어 등장에 어떤 영향을 미치는가?
주요 결과
- 자기중심적 에이전트는 grounded proposal 채널을 사용할 때 아이템을 공정하게 분할하는 법을 학습하고, 전체 효용의 거의 동등한 몫을 달성한다.
- 언어 채널만으로는 자기중심적 에이전트가 의미 있는 커뮤니케이션을 구축하지 못하고, 효과적인 협상 없이 진동하는 경향이 있다.
- 친사회적 에이전트는 cheap talk를 이용해 거의 최적의 공동 할당에 도달하고 언어학과의 강건한 조정을 보이지만, 자기중심적 에이전트의 경우 cheap talk만으로는 그렇지 않다.
- cheap talk은 친사회적 에이전트 간 조정을 크게 개선하고 공동 최적성의 분산을 줄인다.
- 사회에서, 에이전트 식별 가능성은 자기중심적 에이전트가 타인에 대해 이용하거나 적응하도록 돕고, IDs가 공개되지 않을 때 친사회적 에이전트 커뮤니티에서 언어가 등장할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.