QUICK REVIEW

[論文レビュー] Understanding Place Identity with Generative AI

Kee Moon Jang, Jun‐Da Chen|arXiv (Cornell University)|Jan 1, 2023

Human Mobility and Location-Based Analysis被引用数 3

ひとこと要約

本研究では、ChatGPT および DALL·E2 という生成AIモデルが、都市固有のプロンプトに基づいてテキストおよび画像出力を生成することで、31か国の都市の集団的場所アイデンティティを捉える可能性を評価している。WikipediaのテキストおよびGoogle画像検索結果と照合したクロスバリデーションの結果、両モデルは現実の都市表現と意味的・知覚的に類似した出力を生成しており、スケーラブルでデータ駆動型の都市認識研究の有効性が示された。

ABSTRACT

Researchers are constantly leveraging new forms of data with the goal of understanding how people perceive the built environment and build the collective place identity of cities. Latest advancements in generative artificial intelligence (AI) models have enabled the production of realistic representations learned from vast amounts of data. In this study, we aim to test the potential of generative AI as the source of textual and visual information in capturing the place identity of cities assessed by filtered descriptions and images. We asked questions on the place identity of a set of 31 global cities to two generative AI models, ChatGPT and DALL-E2. Since generative AI has raised ethical concerns regarding its trustworthiness, we performed cross-validation to examine whether the results show similar patterns to real urban settings. In particular, we compared the outputs with Wikipedia data for text and images searched from Google for image. Our results indicate that generative AI models have the potential to capture the collective image of cities that can make them distinguishable. This study is among the first attempts to explore the capabilities of generative AI in understanding human perceptions of the built environment. It contributes to urban design literature by discussing future research opportunities and potential limitations.

研究の動機と目的

生成AIモデルがテキストおよび画像出力に基づいて都市の集団的場所アイデンティティを効果的に表現できるかどうかを調査すること。
Wikipedia や Google イメージなどの現実のデータソースと照合することで、生成AI出力の信頼性を評価すること。
文化的価値や都市形態といった、微細で場所特有の特性を捉える際の生成AIの限界を特定すること。
プロンプト工学や類似性メトリクスなどの手法的改善策を検討し、AI生成都市表現の信頼性を高めること。

提案手法

標準化されたプロンプト「{都市}の場所アイデンティティは何か？10の箇条書きで教えてください。」を用いて、ChatGPTを用いてテキストベースのデータセットを生成した。
プロンプト「{都市}のストリートスケープの場所アイデンティティは何か？」を用いて、DALL·E2を用いて画像ベースのデータセットを生成した。1都市あたり256×256ピクセルの画像を10枚生成した。
クロスバリデーションのため、Wikipediaから本物のテキストデータを収集し、Google画像検索を用いて画像データを取得した。
テキスト類似度を測定するために、微調整済みの MiniLM-BERT モデルから得られる文の埋め込みを用い、ChatGPTとWikipediaの文との間でコサイン類似度を計算した。
画像の知覚的類似度を評価するために、LPIPS メトリクスを用い、DALL·E2の出力ごとに上位3つのGoogle画像を特定した。
語のクラウドを用いた視覚的分析を通じて、ChatGPTの回答とWikipediaのテキストとの間でテーマ的コンテンツを比較した。

実験結果

リサーチクエスチョン

RQ1ChatGPT や DALL·E2 といった生成AIモデルは、テキストおよび画像生成によって都市の場所アイデンティティを正確に表現できるのか？
RQ2意味的コンテンツおよび視覚的知覚の観点から、生成AIの出力は現実の都市表現とどの程度類似しているのか？
RQ3文化的価値や都市形態といった、無形で場所特有の属性を捉える際、生成AIにどのような限界があるのか？
RQ4プロンプト工学や類似性メトリクスをどのように改善すれば、AI生成都市表現の信頼性と特異性を高められるのか？

主な発見

ChatGPT が生成したテキスト出力は、Wikipediaの紹介文と高い意味的類似度を示し、マドリードの気候記述ではコサイン類似度スコアが 0.94 を記録した。
語のクラウド分析から、ChatGPT はソウルに関しては文化、活気、近代性といった無形的特徴を効果的に捉えており、シンガポールに関しては「政府」「1つの国」といった統治関連用語を的確に抽出していた。
リスボンの DALL·E2 が生成した画像は、LPIPS スコアが 0.65～0.82 と低く、特にイエローカラーの低層住宅地帯を的確に再現しており、現実の Google 画像と強い知覚的類似性を示した。
アラマティ、ブランタイア、リスボン、シドニーといった都市では、LPIPS ≈ 0.65 の高い知覚的類似度を示し、DALL·E2 が特定の都市タイプに対して優れた性能を発揮していることが示された。
一部の事例で優れた性能を示したものの、DALL·E2 の出力は一般的な都市的特徴（例：街灯、歩道）が多く含まれており、場所特有の属性を的確に捉えていない場合が多かった。
LPIPS スコアは一貫性に欠け、類似した光景でも異なる類似度スコアが得られることがあり、画像の信頼性をメトリクスに基づいて評価する際の不確実性を示唆していた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。