[논문 리뷰] Understanding Place Identity with Generative AI
이 연구는 ChatGPT와 DALL·E2와 같은 생성형 AI 모델이 도시 전용 프롬프트를 기반으로 텍스트 및 이미지 출력을 생성함으로써 31개의 세계 도시들의 집단적 장소 정체성을 얼마나 잘 포착할 수 있는지 평가한다. 위키백과 텍스트 및 구글 이미지 검색 결과와의 교차 검증을 통해 두 모델이 실제 도시 표현과 의미적·지각적으로 유사한 출력을 생성하는 것으로 나타났으며, 이는 스케일러블하고 데이터 기반의 도시 인식 연구에 대한 타당성을 입증한다.
Researchers are constantly leveraging new forms of data with the goal of understanding how people perceive the built environment and build the collective place identity of cities. Latest advancements in generative artificial intelligence (AI) models have enabled the production of realistic representations learned from vast amounts of data. In this study, we aim to test the potential of generative AI as the source of textual and visual information in capturing the place identity of cities assessed by filtered descriptions and images. We asked questions on the place identity of a set of 31 global cities to two generative AI models, ChatGPT and DALL-E2. Since generative AI has raised ethical concerns regarding its trustworthiness, we performed cross-validation to examine whether the results show similar patterns to real urban settings. In particular, we compared the outputs with Wikipedia data for text and images searched from Google for image. Our results indicate that generative AI models have the potential to capture the collective image of cities that can make them distinguishable. This study is among the first attempts to explore the capabilities of generative AI in understanding human perceptions of the built environment. It contributes to urban design literature by discussing future research opportunities and potential limitations.
연구 동기 및 목표
- 생성형 AI 모델이 텍스트 및 시각적 출력을 기반으로 도시의 집단적 장소 정체성을 효과적으로 표현할 수 있는지 조사하는 것.
- 위키백과 및 구글 이미지와 같은 실제 데이터 소스와의 비교를 통해 생성형 AI 출력의 신뢰성 평가.
- 문화적 가치 및 도시 형태학적 특성과 같은 미세한 장소 특성의 포착 능력에 대한 생성형 AI의 한계 규명.
- 프롬프트 엔지니어링 및 유사도 메트릭과 같은 방법론적 개선을 통해 AI 생성 도시 표현의 신뢰성과 정밀도 향상 탐색.
제안 방법
- 표준화된 프롬프트를 사용해 ChatGPT를 활용해 텍스트 기반 데이터셋 생성: '{도시}의 장소 정체성은 무엇인가요? 열 개의 항목으로 요약해 주세요.'
- 프롬프트: '{도시}의 스트리트스케이프 장소 정체성은 무엇인가요?'; 도시당 10장의 이미지, 해상도 256×256 픽셀로 DALL·E2를 사용해 이미지 기반 데이터셋 제작.
- 교차 검증을 위해 위키백과에서 텍스트 기반 지표 데이터를 수집하고, 구글 이미지 검색을 통해 이미지 데이터 확보.
- 텍스트 유사도 측정을 위해 미세조정된 MiniLM-BERT 모델을 활용한 문장 임베딩을 사용하고, ChatGPT와 위키백과 문장 간 코사인 유사도 계산.
- 이미지의 지각적 유사도 평가를 위해 LPIPS 메트릭을 사용하고, DALL·E2 출력과 매칭되는 상위 3개의 구글 이미지 식별.
- 워드 클라우드를 활용한 시각적 분석을 통해 ChatGPT 응답과 위키백과 텍스트 간 주제적 콘텐츠 비교.
실험 결과
연구 질문
- RQ1ChatGPT와 DALL·E2와 같은 생성형 AI 모델이 텍스트 및 이미지 생성을 통해 도시의 장소 정체성을 정확히 표현할 수 있는가?
- RQ2의미적 콘텐츠와 시각적 지각 측면에서 생성형 AI 출력은 실제 도시 표현과 얼마나 유사한가?
- RQ3문화적 가치 및 도시 형태학적 특성과 같은 비물질적이고 장소 특화된 속성을 포착하는 데 있어 생성형 AI의 한계는 무엇인가?
- RQ4프롬프트 엔지니어링 및 유사도 메트릭을 어떻게 개선하여 AI 생성 도시 표현의 신뢰성과 특이성 향상을 이룰 수 있는가?
주요 결과
- ChatGPT의 텍스트 응답은 위키백과 소개문과 높은 의미적 유사성을 보였으며, 마드리드 기후 기술의 경우 코사인 유사도 점수 0.94를 기록함.
- 워드 클라우드 분석 결과, ChatGPT는 서울의 경우 문화, 활기, 현대성과 같은 비물질적 특성을 효과적으로 포착했고, 싱가포르의 경우 '정부', '한 국가'와 같은 거버넌스 관련 용어를 잘 반영함.
- 리스본에 대해 생성된 DALL·E2 이미지의 LPIPS 점수는 0.65~0.82로 낮아 실제 구글 이미지와 강한 지각적 유사성을 보였으며, 특히 노란색의 저층 주거 건물 포착에 뛰어남.
- 알마티, 블란타이어, 리스본, 시드니 등 일부 도시는 LPIPS ≈ 0.65로 가장 높은 지각적 유사도를 기록해 DALL·E2가 특정 도시 유형에 대해 잘 작동함을 시사함.
- 일부 사례에서 뛰어난 성능을 보였음에도 불구하고, DALL·E2 출력은 종종 장소 특화된 특성보다 일반적인 도시 요소(예: 가로등, 보도)를 포함함.
- LPIPS 점수는 일관성 없는 해석을 보였으며, 유사한 풍경에서도 유사도 점수가 다양하게 나타나, 이미지 신뢰도 평가에 대한 메트릭 기반 평가의 불확실성을 드러냄.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.