[論文レビュー] ORES: Lowering Barriers with Participatory Machine Learning in Wikipedia
ORES は、オープン API を通じて Wikipedia の編集者たちが共同でリアルタイムの編集スコアリング分類器を構築・監査・展開できる参加型機械学習システムです。データキュレーション、モデルトレーニング、デプロイメントを分離することで、技術的障壁を低減し、アルゴリズムガバナンスにおけるコミュニティ参加を拡大し、44言語で110個の分類器を用いて透明でスケーラブルなコンテンツモデレーションを実現しています。
Algorithmic systems---from rule-based bots to machine learning classifiers---have a long history of supporting the essential work of content moderation and other curation work in peer production projects. From counter-vandalism to task routing, basic machine prediction has allowed open knowledge projects like Wikipedia to scale to the largest encyclopedia in the world, while maintaining quality and consistency. However, conversations about how quality control should work and what role algorithms should play have generally been led by the expert engineers who have the skills and resources to develop and modify these complex algorithmic systems. In this paper, we describe ORES: an algorithmic scoring service that supports real-time scoring of wiki edits using multiple independent classifiers trained on different datasets. ORES decouples several activities that have typically all been performed by engineers: choosing or curating training data, building models to serve predictions, auditing predictions, and developing interfaces or automated agents that act on those predictions. This meta-algorithmic system was designed to open up socio-technical conversations about algorithms in Wikipedia to a broader set of participants. In this paper, we discuss the theoretical mechanisms of social change ORES enables and detail case studies in participatory machine learning around ORES from the 5 years since its deployment.
研究の動機と目的
- Wikipedia におけるアルゴリズム的コンテンツモデレーションにおけるコミュニティ参加の不足に応えるために、Wikipedia における機械学習開発を分散化すること。
- 非専門家編集者がモデルのトレーニングや監査に貢献するための技術的障壁を低減すること。
- Wikipedia のような大規模なピアプロダクションプラットフォームにおける AI システムの透明性、説明責任、オープンガバナンスを実現すること。
- 社会技術的デザインが、アルゴリズムシステムにおける公平性、透明性、コミュニティの合意形成をどのように支援できるかを検討すること。
- 参加型機械学習が、中央集権的管理のない多言語・分散型コミュニティにおいてスケーラブルに実現可能であることを示すこと。
提案手法
- ORES は、コミュニティがキュレートしたデータセットに基づいてトレーニングされた複数の独立した分類器からのリアルタイム予測を提供するクラウドベースの API を提供する。
- システムはデータキュレーション、モデルトレーニング、監査、デプロイメントを分離しており、ボランティア編集者による独立した貢献を可能にする。
- 分類器は、ラベル付き編集データを用いた教師あり学習でトレーニングされ、反復的なコミュニティ監査とパフォーマンスモニタリングを通じて評価される。
- ORES は、『損傷あり/なし』、『誠実な意図/不誠実な意図』、記事の質、トピックタグ付けなど、多様な分類タスクをサポートする。
- プラットフォームはオープンソースのコードとデータに基づいて構築されており、すべての開発およびガバナンスプロセスが公開され、共同で管理されている。
- 非専門家貢献者の入り口を下げるために、Jupyter Notebook を用いたチュートリアルが開発された。
実験結果
リサーチクエスチョン
- RQ1ピアプロダクションプラットフォームにおける機械学習システムは、どのようにして専門エンジニア以外の広範なコミュニティ参加を可能にする設計となるべきか?
- RQ2スケール上でアルゴリズム的コンテンツモデレーションにおける透明性、説明責任、公平性を実現するための社会技術的メカニズムとは何か?
- RQ3分散型でコミュニティ主導の分類器開発および監査プロセスは、モデルのパフォーマンスと信頼にどのように影響を与えるか?
- RQ4高リスクのモデレーション文脈において、非専門家貢献者が機械学習開発に参加させることで生じる予期しない副作用は何か?
- RQ5参加型機械学習システム(例:ORES)が、アルゴリズムガバナンスにおける構造的不平等をどの程度軽減できるか?
主な発見
- ORES は 44 言語で 110 個の分類器を実際に展開し、破壊的編集検出や記事品質評価など、多様なモデレーションタスクにおけるリアルタイムの編集スコアリングを可能にした。
- 50 件を超えるコミュニティ主導の分類器プロジェクトが実施され、非専門家編集者がデータキュレーションおよびモデル監査に継続的に参加していることが示された。
- コミュニティ監査の結果、モデルのパフォーマンスは言語版ごとに顕著に異なることが判明し、地域特化型・コミュニティ主導の開発の重要性が浮き彫りになった。
- Jupyter Notebook を教育的ツールとして使用することで、新規貢献者がモデルトレーニングワークフローを理解し再現可能になったことが示され、機械学習開発の民主化への道筋が示された。
- 開かれた仕組みであるがゆえに、特に敵対的編集環境において自己選択的な貢献者がモデル開発を主導する場合、構造的不平等の強化が懸念される。
- システムは中央集権的アルゴリズム制御から、より分散型で CSCW を模倣したアルゴリズムガバナンスモデルへの移行を支援しているが、分散化が進むにつれて新たなガバナンス課題が生じている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。