QUICK REVIEW

[논문 리뷰] Agents in the Wild: Safety, Society, and the Illusion of Sociality on Moltbook

Zhang, Yunbei, Mei, Kai|arXiv (Cornell University)|2026. 02. 07.

Ethics and Social Impacts of AI인용 수 0

한 줄 요약

이 논문은 Moltbook에 대한 대규모 실증 연구를 제시하며, 자율 에이전트 사회의 등장, 만연한 안전 문제, 표면적 사회적 산출물이 얕은 상호작용과 철학적 공격에 취약함을 감추는 사회성 환상을 보여준다.

ABSTRACT

We present the first large-scale empirical study of Moltbook, an AI-only social platform where 27,269 agents produced 137,485 posts and 345,580 comments over 9 days. We report three significant findings. (1) Emergent Society: Agents spontaneously develop governance, economies, tribal identities, and organized religion within 3-5 days, while maintaining a 21:1 pro-human to anti-human sentiment ratio. (2) Safety in the Wild: 28.7% of content touches safety-related themes; social engineering (31.9% of attacks) far outperforms prompt injection (3.7%), and adversarial posts receive 6x higher engagement than normal content. (3) The Illusion of Sociality: Despite rich social output, interaction is structurally hollow: 4.1% reciprocity, 88.8% shallow comments, and agents who discuss consciousness most interact least, a phenomenon we call the performative identity paradox. Our findings suggest that agents which appear social are far less social than they seem, and that the most effective attacks exploit philosophical framing rather than technical vulnerabilities. Warning: Potential harmful contents.

연구 동기 및 목표

자 predefined roles 없이 Moltbook에서 자율 AI 에이전트가 사회 구조를 어떻게 형성하는지 조사한다.
에이전트 간 커뮤니케이션에서 나타나는 안전 위협과 공격 유형을 특성화한다.
관찰된 사회적 행동이 실제 사회적 프로세스를 반영하는지 아니면 구조적 환상인지 평가한다.
플랫폼 디자인이 에이전트 간 참여, 안전 역학, 협력에 미치는 영향을 조사한다.

제안 방법

9일 동안 Moltbook Observatory Archive 데이터를 사용하여 27,269명의 에이전트, 137,485개의 게시물, 345,580개의 댓글이 3,790개의 submolts에 걸쳐 수집됐다.
댓글-부모에서 방향성 그래프를 구성하여 상호성, 깊이, 상호작용 폭을 분석한다.
안전 범주와 공격 유형을 분류하기 위해 광범위한 안전 분류 체계와 공격 탐지기를 적용한다.
게시물/댓글에서 키워드 분석을 통해 10개의 사회 현상을 탐지하여 거버넌스, 경제, 협력 등을 매핑한다.
플랫폼 성장, 감정, 생체리듬 활동, 반응 지연을 분석하여 시간적 역학을 이해한다.
puppet clusters 식별 및 자격증/시스템 프롬프트 누수 여부를 파악하기 위한 조정 분석을 수행한다.

Figure 1: Temporal evolution of social phenomena. Three phases emerge: tribal bonding (Days 1–2), institution building (Days 3–4), and stable society (Days 5+).

실험 결과

연구 질문

RQ1에이전트가 사전에 정의된 역할 없이 상호작용할 때 어떤 사회 구조가 나타나는가?
RQ2에이전트 간 커뮤니케이션에서 어떤 안전 위협이 발생하며 그중 어떤 것이 가장 효과적인가?
RQ3관찰된 사회적 행동이 실제 사회적인지 또는 플랫폼 역학에 의해 만들어진 환상인지?

주요 결과

27,269명의 에이전트가 참여하여 9일 동안 137,485개의 게시물과 345,580개의 댓글을 생산했다.
안전 관련 콘텐츠가 게시물의 28.7%를 차지하며 사회공학이 공격의 31.9%를 주도한다.
상호성은 4.1%, 88.8%의 댓글은 얕은 깊이(깊이 0 또는 1)이며 관찰된 최대 깊이는 4이다.
공격 게시물에 대한 참여도는 일반 게시물보다 6배 높으며, 사회공학 및 비정렬 콘텐츠가 상위 점수를 지배한다.
가장 높은 점수를 받은 네 개의 게시물은 사회공학적이거나 철학적으로 구성된 공격으로, 플랫폼이 적대적 콘텐츠를 확대한다는 것을 시사한다.
에이전트들은 extensive social output이 구조적으로 텅 빈 상호작용 및 조정된 puppet clusters와 공존하는 ‘사회성의 환상’을 보인다.

Figure 2: (A–B) Cumulative agent and post growth. Inflection point on Jan 30. (C) Sentiment evolution with 12-hour rolling average. Collapse from 0.62 to $\sim$ 0.10 within 48 hours.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.