[論文レビュー] PolicyGPT: Automated Analysis of Privacy Policies with Large Language Models
PolicyGPT はゼロショットフレームワークで大規模言語モデルを用いてプライバシーポリシーのテキストを分類し、OPP-115(ウェブポリシー)で97%、PPGDPR(モバイルアプリポリシー)で87%の精度を達成し、ベースラインを上回る。
Privacy policies serve as the primary conduit through which online service providers inform users about their data collection and usage procedures. However, in a bid to be comprehensive and mitigate legal risks, these policy documents are often quite verbose. In practical use, users tend to click the Agree button directly rather than reading them carefully. This practice exposes users to risks of privacy leakage and legal issues. Recently, the advent of Large Language Models (LLM) such as ChatGPT and GPT-4 has opened new possibilities for text analysis, especially for lengthy documents like privacy policies. In this study, we investigate a privacy policy text analysis framework PolicyGPT based on the LLM. This framework was tested using two datasets. The first dataset comprises of privacy policies from 115 websites, which were meticulously annotated by legal experts, categorizing each segment into one of 10 classes. The second dataset consists of privacy policies from 304 popular mobile applications, with each sentence manually annotated and classified into one of another 10 categories. Under zero-shot learning conditions, PolicyGPT demonstrated robust performance. For the first dataset, it achieved an accuracy rate of 97%, while for the second dataset, it attained an 87% accuracy rate, surpassing that of the baseline machine learning and neural network models.
研究の動機と目的
- GDPR 時代にユーザーにとってプライバシーポリシーをよりアクセスしやすく、実用的にする必要性を動機づける。
- プライバシーポリシーテキストを分析・分類するための大規模言語モデルベースのフレームワーク(PolicyGPT)を提案する。
- ゼロショット条件下で OP P-115 と PPGDPR の2つの専門家が注釈したプライバシーポリシーデータセットで PolicyGPT を評価する。
- セグメントレベルの分類における LLM の性能を従来の機械学習ベースラインおよびニューラルモデルと比較する。
提案手法
- LLM のカテゴリ定義とタスク文脈を符号化する3セグメント前置プロンプトを導入する。
- 2段階プロセスを採用する: (1) タスク内容とカテゴリ定義を作成; (2) 対象テキストとプロンプトを LLM(ChatGPT、GPT-4、Claude2)に提供して分類する。
- ゼロショット prompting を使用する(Few-shot プロンプトは限定的な利点と高いトークンコストを示す A/B テストの結果より、ゼロショット prompting を採用する)。
- ウェブクローリングとテキスト抽出を通じてプライバシーポリシーを前処理し、文または段落に分割し、それぞれのデータセットごとに10のカテゴリのいずれかにマッピングする。
- 結果を人間の注釈と比較し、主指標として正確さを用い、適用可能な場合にはマクロ平均・ミクロ平均の性能を報告する。
実験結果
リサーチクエスチョン
- RQ1大規模言語モデルはタスク特化の訓練なしでプライバシーポリシーのセグメントを事前定義されたカテゴリに正確に分類できるか?
- RQ2ゼロショットの LLM の性能は、従来のベースライン(例: SVM、LR、HMM、LSTM、BERT)によるプライバシーポリシー分類と比較してどうか?
- RQ3データセットのタイプ(ウェブベースの OPP-115 対 モバイルアプリベースの PPGDPR)が分類性能にどのような影響を与えるか?
- RQ4このタスクには Few-shot prompting が有利か、それとも LLM のスケールを考えるとゼロショット prompting で十分か?
主な発見
- ゼロショット PolicyGPT は、OPP-115 のプライバシーポリシーセグメント分類で97%、PPGDPR で87%の正確さを達成。
- PolicyGPT は、それぞれのデータセットで Polisis や従来の ML/DNN アプローチを含むベースラインモデルを上回る。
- Few-shot プロンプトは正確さを著しく改善せず、トークンコストが高くなるため、ゼロショット prompting の採用につながった。
- プレフィックスプロンプトと明示的なカテゴリ説明を含むプロンプト設計により、LLM がプライバシーカテゴリと対象テキストに関する意味情報を吸収できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。