QUICK REVIEW

[논문 리뷰] SWAN: A Generic Framework for Auditing Textual Conversational Systems

Tetsuya Sakai|arXiv (Cornell University)|2023. 05. 15.

Hate Speech and Cyberbullying Detection인용 수 9

한 줄 요약

SWAN은 대화 세션의 nugget 시퀀스로부터 Schematised Weighted Average Nugget (SWAN) score를 계산하는 일반적인 감사 프레임워크를 제시하며, 기준 스키마와 위치 인식 nugget 가중치를 사용합니다.

ABSTRACT

We present a simple and generic framework for auditing a given textual conversational system, given some samples of its conversation sessions as its input. The framework computes a SWAN (Schematised Weighted Average Nugget) score based on nugget sequences extracted from the conversation sessions. Following the approaches of S-measure and U-measure, SWAN utilises nugget positions within the conversations to weight the nuggets based on a user model. We also present a schema of twenty (+1) criteria that may be worth incorporating in the SWAN framework. In our future work, we plan to devise conversation sampling methods that are suitable for the various criteria, construct seed user turns for comparing multiple systems, and validate specific instances of SWAN for the purpose of preventing negative impacts of conversational systems on users and society. This paper was written while preparing for the ICTIR 2023 keynote (to be given on July 23, 2023).

연구 동기 및 목표

대형 언어 모델 주도 대화 시스템의 잠재적 해를 탐지하는 동시에 이점을 인식하기 위해 신속하고 높은 재현성의 감사를 촉진한다.
내부 시스템 상태에 대한 접근을 필요로하지 않는 일반적이고 투명한 평가 프레임워크를 제안한다.
대화 세션 내 위치에 따라 nugget에 가중치를 부여하는 nugget 기반 점수 매김 메커니즘을 도입한다.
다각적 평가를 안내하는 20(+1) 가지 기준의 스키마를 제공한다.
사회적 영향 예방을 위한 샘플링, 시드-사용자 턴, 및 검증에 대한 향후 연구를 개요한다.

제안 방법

nuggets를 사실적 주장(Type F)이나 대화 행위(Type O)로 구성된 원자 단위로 정의한다.
자동 nugget 추출기를 사용하여 샘플링된 대화 세션에서 nugget를 추출한다.
각 nugget를 기준 스키마에 대해 점수화하며, 턴 수준 또는 nugget 수준의 점수 부여가 가능하다.
각 기준에 대해 위치 인식 nugget 가중치 NW^c와 nugget 점수 S^c를 사용하여 WAN을 계산한다.
각 기준의 WAN 점수를 {CW^c} 가중치와 결합하여 SWAN 점수로 구성한다: SWAN = sum_c CW^c WAN^c(U^c) / sum_c CW^c.
비결정적 경로를 위한 그룹 공정성(분배적 유사성) 및 확률적 SWAN 변형과 같은 잠재적 확장을 논의한다.

실험 결과

연구 질문

RQ1내부 상태에 접근하지 않고 텍스트 대화 시스템을 어떻게 감사할 수 있는가?
RQ2 nugget 기반의 위치 가중 점수 프레임워크가 여러 기준에 걸친 시스템 동작을 신뢰성 있게 요약할 수 있는가?
RQ3안전성, 유용성, 공정성을 포착하기 위한 확장 가능한 기준 스키마는 무엇인가?
RQ4샘플링과 시드-사용자 턴이 SWAN 프레임워크 내에서 시스템 간 비교를 어떻게 지원하는가?
RQ5부정적 사회적 영향을 예방하기 위해 SWAN을 검증하기 위한 향후 방향은 무엇인가?

주요 결과

SWAN은 대화 내 nugget 위치에 따라 가중된 nugget별 기준 점수를 집계하는 형식적 점수를 제공한다.
정확성, 무해성, 공정성을 포함한 다각적 평가를 안내하는 20(+1) 기준의 스키마가 있다.
Nuggets는 Type F(사실) 또는 Type O(대화 행위)로 분류될 수 있으며 nugget 또는 턴 수준에서 평가될 수 있다.
프레임워크는 대화에서 문제를 정확히 위치시키기 위해 개별 nugget/턴 점수를 시각화하는 것을 가능하게 한다.
SWAN은 비결정적 사용자 시뮬레이션을 처리하기 위해 확률적 경로로 확장될 수 있다.
저자들은 여러 시스템 비교를 위해 시드-사용자 턴과의 통합을 제안하며, 시스템 간 정확한 비교 가능성은 보장되지 않음을 언급한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.