Skip to main content
QUICK REVIEW

[논문 리뷰] Text-to-Image Generation: Perceptions and Realities

Jonas Oppenlaender, Aku Visuri|arXiv (Cornell University)|2023. 03. 10.
Virtual Reality Applications and Impacts인용 수 15
한 줄 요약

본 논문은 그룹 간 텍스트-투-이미지 생성에 대한 인식에 관한 설문조사를 보고하며, 위험에 대한 인식은 있으나 개인적 위협 인식은 낮고, 사전 노출이 미래의 중요도 기대를 낮춘다.

ABSTRACT

Generative AI is an emerging technology that will have a profound impact on society and individuals. Only a decade ago, it was thought that creative work would be among the last to be automated - yet today, we see AI encroaching on creative domains. In this paper, we present the key findings of a survey study on people's perceptions of text-to-image generation. We touch on participants' technical understanding of the emerging technology, their ideas for potential application areas, as well as concerns, risks, and dangers of text-to-image generation to society and the individual. The study found that participants were aware of the risks and dangers associated with the technology, but only few participants considered the technology to be a risk to themselves. Additionally, those who had tried the technology rated its future importance lower than those who had not.

연구 동기 및 목표

  • 사람들이 텍스트-투-이미지 생성을 어떻게 이해하고 학습(training)과 추론(inference)을 구분하는지 평가한다.
  • 일반 대중이 인식하는 잠재적 응용 분야를 식별한다.
  • 텍스트-투-이미지 생성의 우려와 사회적 및 개인적 위험을 평가한다.
  • 참가자 직업에서 기술의 미래 중요성을 인식하는 정도를 탐구한다.
  • AI 생성 이미지에서의 공개 여부와 저작권/저작자 문제에 대한 태도를 조사한다.

제안 방법

  • 2022년 가을 연구원의 밤(Researchers Night)에서 35명의 참가자와 함께 실시된 온라인 설문조사.
  • 설문지는 26개 문항으로 구성되었고 개방형 문항 3개를 포함한다.
  • 개방형 응답에 대해 in vivo 코딩을 사용한 질적 분석.
  • 데이터가 관리 가능하고 코딩이 간단하기 때문에 평가자 간 신뢰도 평가를 수행하지 않았다.
  • 참가자 연령은 19–50세 범위(M=33.7)였으며 교육 배경이 다양했다.
  • 약 34.3%가 텍스트-투-이미지 생성을 사전에 사용한 것으로 보고했고; 흔한 도구로는 DALL-E Mini/Craiyon, DALL-E 2, Dream/Wombo, Stable Diffusion 등이 포함된다.

실험 결과

연구 질문

  • RQ1훈련(training)과 추론(inference) 간의 구분을 포함하여 대중의 텍스트-투-이미지 생성에 대한 기술적 이해는 무엇인가?
  • RQ2사람들이 텍스트-투-이미지 생성의 응용 분야로 어떤 영역(예술, 미디어, 교육 등)을 상상하는가?
  • RQ3텍스트-투-이미지 생성의 인식된 위험과 사회적 영향(허위 정보, 실업, 저작권, 다양성)은 무엇인가?
  • RQ4참가자들의 현재 및 향후 직업적 실무에서 텍스트-투-이미지 생성이 얼마나 중요한가?
  • RQ5AI로 생성된 이미지가 그에 따라 공개되어야 하는가, 그리고 AI-생성작의 저작권은 누구에게 귀속되어야 하는가?

주요 결과

  • 대다수의 참가자는 텍스트-투-이미지 생성이 어떻게 작동하는지 명확하게 설명하지 못했고 종종 학습과 추론을 혼동했다.
  • 참가자들은 예술품, 일러스트레이션, 브레인스토밍, 마케팅, 디자인, 엔터테인먼트, 교육 분야의 응용을 상상했고 비창의적 용도에 대한 강조는 덜했다.
  • 대다수 응답자는 현재 직업에 이 기술이 중요하지 않다고 판단했지만 미래에는 더 중요해질 가능성이 높다고 보았다.
  • 이전에 텍스트-투-이미지 생성을 시도한 사람은 그렇지 않은 사람보다 미래의 중요도를 더 낮게 평가했다.
  • 우려는 사회적 위험(딥페이크를 통한 허위정보, 실업, 저작권 모호성, 인간 창작자에 대한 인식 저하 가능성, 합성 이미지의 문화적 다양성 편향)에 집중됐다.
  • 참가자의 약 절반은 예술작품의 AI 생성 출처 표기를 지지했고, AI 생성작품이 표기되어서는 안 된다고 보는 이는 적었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.