QUICK REVIEW

[論文レビュー] SWAN: A Generic Framework for Auditing Textual Conversational Systems

Tetsuya Sakai|arXiv (Cornell University)|May 15, 2023

Hate Speech and Cyberbullying Detection被引用数 9

ひとこと要約

SWAN は会話セッション内の nugget シーケンスから SWAN スコアを計算する汎用監査フレームワーク。criterion schema と位置認識 nugget 重み付けを用いた平準化評価で、スコアを算出する。

ABSTRACT

We present a simple and generic framework for auditing a given textual conversational system, given some samples of its conversation sessions as its input. The framework computes a SWAN (Schematised Weighted Average Nugget) score based on nugget sequences extracted from the conversation sessions. Following the approaches of S-measure and U-measure, SWAN utilises nugget positions within the conversations to weight the nuggets based on a user model. We also present a schema of twenty (+1) criteria that may be worth incorporating in the SWAN framework. In our future work, we plan to devise conversation sampling methods that are suitable for the various criteria, construct seed user turns for comparing multiple systems, and validate specific instances of SWAN for the purpose of preventing negative impacts of conversational systems on users and society. This paper was written while preparing for the ICTIR 2023 keynote (to be given on July 23, 2023).

研究の動機と目的

大規模言語モデル主導の会話システムの監査を迅速かつ高再現性で実施し、潜在的な有害事象を検出しつつ利点を認識することを動機づける。
内部状態へのアクセスを必要としない汎用的で透明性のある評価フレームワークを提案する。
会話セッション内の位置に基づく nugget 重み付けを行う nugget ベースのスコアリング機構を導入する。
多面的評価を導く 20(+1) の評価基準のスキーマを提供する。
社会的影響の予防のためのサンプリング、シードユーザー発話、検証に関する今後の課題を概説する。

提案手法

nuggets を事実主張（Type F）または対話行為（Type O）からなる最小単位として定義する。
自動 nugget 抽出機を用いてサンプリングされた会話セッションから nugget を抽出する。
nugget を基準スキーマに対してスコア付けし、 nugget レベルまたは発話レベルの scoring の可能性を持つ。
位置認識 nugget 重み NW^c および nugget スコア S^c を用いて各基準の WAN を計算する。
基準 WAN スコアを基準重み {CW^c} と組み合わせて SWAN スコアを形成する。SWAN = sum_c CW^c WAN^c(U^c) / sum_c CW^c。
非決定的なパスへの対応として、グループ公正性（分配的類似性）や確率的 SWAN バリアントなどの拡張を議論する。

実験結果

リサーチクエスチョン

RQ1内部状態へのアクセスなしにテキスト会話システムを監査するにはどうすればよいか？
RQ2 nugget ベース・位置重み付けスコアリング枠組みは、複数の基準にわたるシステム挙動を信頼性高く要約できるか？
RQ3会話システムの安全性、有用性、公正性を捉えるためのスケーラブルな評価基準スキーマとは何か？
RQ4サンプリングとシードユーザー発話は SWAN フレームワーク内でシステム間の比較をどう支援できるか？
RQ5否定的な社会的影響の予防のために、SWAN を検証するために必要な今後の方向性は何か？

主な発見

SWAN は、会話内の nugget の位置付けに重みを置いて、基準ごとの nugget スコアを総合して formal なスコアを提供する。
20 個 (+1) の評価基準スキーマが、正確さ、無害性、公正性などを含む多面的な評価を導く。
nugget は Type F（事実）または Type O（対話行為）として分類され、 nugget レベルまたは発話レベルで評価できる。
フレームワークは個々の nugget/発話スコアを可視化して、会話の問題箇所を正確に特定できる。
SWAN は非決定的なユーザーシミュレーションを扱うための確率的経路へ拡張できる。
著者らは複数システムの比較のために seed-user 発話との統合を提案しており、システム間の正確な比較可能性には留意が必要である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。