[论文解读] Understanding Place Identity with Generative AI
本研究评估了生成式AI模型——ChatGPT与DALL·E2——通过基于城市特定提示生成文本和图像输出,捕捉31个全球城市集体地方认同的潜力。通过与维基百科文本及谷歌图片搜索结果进行交叉验证,发现两种模型生成的输出在语义和感知上均与现实中的城市表征高度相似,证明其在可扩展、数据驱动的城市感知研究中的可行性。
Researchers are constantly leveraging new forms of data with the goal of understanding how people perceive the built environment and build the collective place identity of cities. Latest advancements in generative artificial intelligence (AI) models have enabled the production of realistic representations learned from vast amounts of data. In this study, we aim to test the potential of generative AI as the source of textual and visual information in capturing the place identity of cities assessed by filtered descriptions and images. We asked questions on the place identity of a set of 31 global cities to two generative AI models, ChatGPT and DALL-E2. Since generative AI has raised ethical concerns regarding its trustworthiness, we performed cross-validation to examine whether the results show similar patterns to real urban settings. In particular, we compared the outputs with Wikipedia data for text and images searched from Google for image. Our results indicate that generative AI models have the potential to capture the collective image of cities that can make them distinguishable. This study is among the first attempts to explore the capabilities of generative AI in understanding human perceptions of the built environment. It contributes to urban design literature by discussing future research opportunities and potential limitations.
研究动机与目标
- 探究生成式AI模型是否能通过文本和视觉输出有效表征城市的集体地方认同。
- 通过与维基百科和谷歌图片等真实世界数据源对比,评估生成式AI输出的可靠性。
- 识别生成式AI在捕捉文化价值观和城市形态等细微、地方特异性特征方面的局限性。
- 探索方法论改进措施(如提示工程与相似性度量)以提升AI生成城市表征的可信度。
提出的方法
- 使用ChatGPT生成基于标准提示的文本数据集:'{城市}的地方认同是什么?请用十个项目符号列出。'
- 使用DALL·E2生成基于提示的图像数据集:'{城市}街道景观的地方认同是什么?';每座城市生成10张256×256像素的图像。
- 通过维基百科收集真实世界文本数据,并通过谷歌图片搜索获取图像数据以进行交叉验证。
- 使用微调后的MiniLM-BERT模型生成句子嵌入,并计算ChatGPT与维基百科句子之间的余弦相似度,以度量文本相似性。
- 使用LPIPS度量评估图像感知相似性,每张DALL·E2生成图像均与谷歌图片搜索中前三张匹配图像进行比对。
- 通过词云进行视觉分析,比较ChatGPT回复与维基百科文本之间的主题内容。
实验结果
研究问题
- RQ1生成式AI模型(如ChatGPT与DALL·E2)是否能通过文本与图像生成准确表征城市的地方认同?
- RQ2在语义内容与视觉感知方面,生成式AI输出与真实世界城市表征的相似度如何?
- RQ3生成式AI在捕捉文化价值观与城市形态等无形及地方特异性属性方面存在哪些局限性?
- RQ4如何通过改进提示工程与相似性度量,提升AI生成城市表征的可靠性与具体性?
主要发现
- ChatGPT生成的文本回应与维基百科引言在语义上高度相似,例如马德里的气候描述余弦相似度达0.94。
- 词云分析显示,ChatGPT有效捕捉了首尔的无形特征(如文化、活力与现代性),以及新加坡的治理相关术语(如'政府'与'一国')。
- Lisbon的DALL·E2生成图像LPIPS得分较低(0.65–0.82),表明其与真实谷歌图片在感知上高度相似,尤其在捕捉黄色低层住宅建筑方面表现突出。
- 阿斯塔纳、布兰特雷、里斯本与悉尼等城市在感知相似性上达到最高水平(LPIPS ≈ 0.65),表明DALL·E2对特定城市类型表现优异。
- 尽管在部分案例中表现良好,DALL·E2输出常包含通用城市特征(如路灯、人行道),而非独特的地方特异性属性。
- LPIPS得分存在解释不一致现象,相似场景可能产生差异较大的相似度评分,表明基于度量的图像可靠性评估存在不确定性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。