[论文解读] A Sign That Spells: DALL-E 2, Invisual Images and The Racial Politics of Feature Space
本文分析 DALL-E 2 与类似模型如何通过特征提取和语义压缩来编码并再现“白人性”,并论证去偏见多为客户端层面,且基础模型以带有种族色彩的方式重塑视觉文化。
In this paper, we examine how generative machine learning systems produce a new politics of visual culture. We focus on DALL-E 2 and related models as an emergent approach to image-making that operates through the cultural techniques of feature extraction and semantic compression. These techniques, we argue, are inhuman, invisual, and opaque, yet are still caught in a paradox that is ironically all too human: the consistent reproduction of whiteness as a latent feature of dominant visual culture. We use Open AI's failed efforts to 'debias' their system as a critical opening to interrogate how systems like DALL-E 2 dissolve and reconstitute politically salient human concepts like race. This example vividly illustrates the stakes of this moment of transformation, when so-called foundation models reconfigure the boundaries of visual culture and when 'doing' anti-racism means deploying quick technical fixes to mitigate personal discomfort, or more importantly, potential commercial loss.
研究动机与目标
- 探究像 DALL·E 2 这样的大型视觉模型如何通过特征提取和语义压缩重新配置视觉文化。
- 检查表面上看似中立的表征如何再现白人中心与被种族化的概念。
- 批判性评估 OpenAI 的去偏见努力及其政治与商业影响。
- 主张对基础模型的新的以人为本批评,超越数据或表征缺陷的讨论。
提出的方法
- 分析 OpenAI 关于 DALL·E 2 与去偏见的发布说明与公开声明。
- 检视用户报告与实验(如提示语“a sign that spells”)以揭示偏见如何从用户互动中产生。
- 在大型视觉模型背景下讨论特征空间、不可视性与白人性等理论概念。
- 借鉴批判性种族理论与后人类主义文献来界定机器学习系统中视觉文化的政治性。
实验结果
研究问题
- RQ1大型视觉模型如何通过特征提取和语义压缩重新塑造视觉文化的边界?
- RQ2在何种程度上,DALL·E 2 将白人性作为主导视觉文化的潜在特征进行再现或稳定?
- RQ3基础模型去偏见努力的政治与商业含义是什么?
- RQ4批判性、以人为本的机器学习批评如何更好地处理语言与提示在塑造输出中的作用?
主要发现
- OpenAI 的去偏见主张被揭示为面向用户的关键词添加,而非系统性模型变更。
- 生成模型中的特征空间以强化白人性为目的的方式瓦解又再现了诸如种族之类的概念。
- 去偏见与商业利益及自由主义多元文化主义相关联,而非直面种族不公。
- 该批评主张采用方法,将机器性白人性视为技术与文化现象来审视,而不仅仅是数据缺口。
- 用户提示可以揭示偏见与输出机制,而不需要完全访问专有模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。