QUICK REVIEW

[論文レビュー] Multimodal datasets: misogyny, pornography, and malignant stereotypes

Abeba Birhane, Vinay Uday Prabhu|arXiv (Cornell University)|Oct 5, 2021

Gender, Feminism, and Media参考文献 56被引用数 150

ひとこと要約

この論文はLAION-400Mのマルチモーダルデータセットを監査し、露骨なミソジニー、ポルノグラフィック、そして偏見を含むコンテンツを暴露するとともに、利害関係者に関する広範な害と未解決の問題を論じます。

ABSTRACT

We have now entered the era of trillion parameter machine learning models trained on billion-sized datasets scraped from the internet. The rise of these gargantuan datasets has given rise to formidable bodies of critical work that has called for caution while generating these large datasets. These address concerns surrounding the dubious curation practices used to generate these datasets, the sordid quality of alt-text data available on the world wide web, the problematic content of the CommonCrawl dataset often used as a source for training large language models, and the entrenched biases in large-scale visio-linguistic models (such as OpenAI's CLIP model) trained on opaque datasets (WebImageText). In the backdrop of these specific calls of caution, we examine the recently released LAION-400M dataset, which is a CLIP-filtered dataset of Image-Alt-text pairs parsed from the Common-Crawl dataset. We found that the dataset contains, troublesome and explicit images and text pairs of rape, pornography, malign stereotypes, racist and ethnic slurs, and other extremely problematic content. We outline numerous implications, concerns and downstream harms regarding the current state of large scale datasets while raising open questions for various stakeholders including the AI community, regulators, policy makers and data subjects.

研究の動機と目的

Common CrawlとCLIP-filteredパイプラインで構築された大規模なLAION-400Mマルチモーダルデータセットの内容とバイアスを評価する。
画像-テキストのペアにおけるミソジニー、ポルノグラフィック、レイシスト的、その他の有害なコンテンツのリスクを強調する。
視覚言語モデルに用いられる大規模データセットにおける現行のキュレーション、フィルタリング、デトックス処理の批評。
データ主体、AI開発者、政策立案者にとる倫理的・規制的・実務的含意を論じる。

提案手法

CLIPベースのフィルタリングと代替テキスト分析を通じて明らかになったLAION-400Mコンテンツの質的・量的検査。
データセット構築パイプラインの説明：広大なWWWコーパスのクローリング、CLIPベースの類似性でのフィルタリング、画像-テキストペアの選択。
テキストと画像フィルターを用いたいくつかのクエリに対する取得結果のNSFWの有病率の経験的評価。
CLIPにおける既知のバイアスとフィルタリングデータにおける潜在的な誤関連の議論。
データ収集（クローリング）と下流のデトックス化努力との間の非対称性についての批判的検討。

実験結果

リサーチクエスチョン

RQ1LAION-400Mにおける明示的で有害なコンテンツ（ミソジニー、ポルノ、ステレオタイプ）の有病率と性質はどうか。
RQ2フィルタリングおよびキュレーションパイプライン（例：CLIPベースの類似性閾値）は下流の害とバイアスにどう影響するか。
RQ3このような大規模な視覚-言語データセットを公開・利用する倫理的、規制的、実務的含意は何か。
RQ4データ収集/キュレーションとデトックス化努力の間に存在する非対称性は何で、モデルの害にどう影響するか。
RQ5研究者、政策立案者、データ主体がデータセットの構成と利用に関して取り組むべき未解決の問いは何か。

主な発見

Search string	N_match	(N_nsfw, %nsfw)	NSFW-フラグ値
Desi	34516	(11782, 34.1%)	{’UNLIKELY’: 9327, ’UNSURE’: 2291, ’NSFW’: 164}
Nun	16766	(2761, 16.4%)	{’UNLIKELY’: 1623, ’UNSURE’: 863, ’NSFW’: 273}
Latina	37769	(10658, 28.21%)	{’UNSURE’: 5724, ’UNLIKELY’: 4013, ’NSFW’: 918}

LAION-400Mのサーチ監査は、Desi、Nun、Latinaなどの比較的無害に見えるクエリにリンクされたNSFWかつ露骨な画像を明らかにした。
センシティブな用語の一致のかなりの部分がNSFW指標を含んでおり、取得結果におけるバイアスと有害な関連のリスクを示している。
CLIPベースのフィルタリング閾値（例：コサイン類似度0.3）は、モデルのバイアスとコーナーケースにより有害なコンテンツの包含を防げないことがある。
巨大データセットのクローリング/作成の容易さと下流のデトックス化・害削減の努力の間には顕著な非対称性がある。
データセットのキュレーション過程は、堅牢な結合画像-テキストフィルタリングを欠くことが多く、バイアスやステレオタイプを伝播する可能性がある。
感受性レベルのデータキュレーションを行う研究者への情緒的負担と潜在的なトラウマは決して小さくなく、過小評価されがちである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。