[論文レビュー] A Comparison of DeepSeek and Other LLMs
この論文は、著者性と引用分類において DeepSeek を Claude、Gemini、GPT、Llama と比較し、Claude がしばしば精度で勝つ一方、DeepSeek は競争力があり安価だが遅いことを示している。MadStatAI および CitaStat データセットを導入し、ベンチマークを提供。
Recently, DeepSeek has been the focus of attention in and beyond the AI community. An interesting problem is how DeepSeek compares to other large language models (LLMs). There are many tasks an LLM can do, and in this paper, we use the task of "predicting an outcome using a short text" for comparison. We consider two settings, an authorship classification setting and a citation classification setting. In the first one, the goal is to determine whether a short text is written by human or AI. In the second one, the goal is to classify a citation to one of four types using the textual content. For each experiment, we compare DeepSeek with $4$ popular LLMs: Claude, Gemini, GPT, and Llama. We find that, in terms of classification accuracy, DeepSeek outperforms Gemini, GPT, and Llama in most cases, but underperforms Claude. We also find that DeepSeek is comparably slower than others but with a low cost to use, while Claude is much more expensive than all the others. Finally, we find that in terms of similarity, the output of DeepSeek is most similar to those of Gemini and Claude (and among all $5$ LLMs, Claude and Gemini have the most similar outputs). In this paper, we also present a fully-labeled dataset collected by ourselves, and propose a recipe where we can use the LLMs and a recent data set, MADStat, to generate new data sets. The datasets in our paper can be used as benchmarks for future study on LLMs.
研究の動機と目的
- 短文分類タスクにおける DeepSeek の予測精度を他の人気 LLM と比較評価する。
- AI生成テキスト検出と引用タイプラベリングのために MADStatAI および CitaStat のデータセットを導入・活用する。
- MADStat と LLM プロンプトを用いてベンチマークデータセットを再現可能な手順で生成する。
提案手法
- 2つの分類設定を使用する: Authorship Classification (人間 vs AI; human vs humAI) および Citation Classification (4クラスおよび 2つの集約クラス)。
- MADStatAI を GPT-4o-mini でAI要約を生成し人間の要約を編集して作成する; 15人の著者に対する582要約で5つのLLMを比較。
- CitaStat を 4つの統計学ジャーナルからラベル付き引用事例3000件を編纂し FI, TB, BG, CP に分類する (Significance vs Incidental を含む)。
- Claude、DeepSeek、Gemini、GPT、Llama の5つのLLMを固定プロンプトで適用して分類タスクを実行する。
- 誤差率、実行時間、コストを分析する; 出力の類似性と著者別の変動を評価する。
- ラベル付きの表で結果を提示し、性能と効率の差を論じる。
実験結果
リサーチクエスチョン
- RQ1DeepSeek の分類精度は著者性および引用タスクで Claude、Gemini、GPT、Llama とどう比較されるか?
- RQ2これらのタスクに対する5モデルの速度とコストのトレードオフは?
- RQ3MADStatAI および CitaStat はAI生成テキスト検出と引用分類の信頼できるベンチマークとなるか?
- RQ4これらのタスクに対する異なるLLMの出力はどれくらい類似しているか?
- RQ5著者ごとおよびグループ別(容易/中等度/難しい)の性能変動はどの程度か?
主な発見
| モデル | AC1 エラー(人間対 AI) | AC2 エラー(人間対 humAI) | CC1 エラー(4クラス) | CC2 エラー(2クラス) | 実行時間(概算) | コスト(USD) |
|---|---|---|---|---|---|---|
| Claude-3.5-sonnet | 0.218 | 0.435 | 0.327 | 0.261 | 7 min | 12.30 |
| DeepSeek-R1 | 0.286 | 0.405 | 0.403 | 0.275 | 235 min | 0.05 |
| Gemini-1.5-flash | 0.468 | 0.500 | 0.347 | 0.313 | 6 min | 0.10 |
| GPT-4o-mini | 0.511 | 0.502 | 0.363 | 0.371 | 7 min | 0.10 |
| Llama-3.1-8b | 0.511 | 0.501 | 0.576 | 0.457 | 11-12 min | 0.20 |
- Claude は実験全体で一貫して最も低い誤差率を達成する。
- DeepSeek はほとんどの場合で Gemini、GPT、Llama よりも優れているが Claude には及ばない。
- DeepSeek は他のモデルより遅く、Claude ははるかに高価である。
- 出力の予測は Claude と Gemini の間での一致度が高い一方、DeepSeek と Claude は互いに頻繁に一致する。
- 著者性分類では Claude-3.5-sonnet が AC1 および AC2 で最良の誤差率を達成、DeepSeek-R1 が AC1 および AC2 で2番目。
- 引用分類では Claude-3.5-sonnet が CC1 および CC2 の4クラスおよび2クラス設定で最も低い誤差を示し、DeepSeek-V3 は変動的でしばしば遅いまたは安価。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。