Skip to main content
QUICK REVIEW

[論文レビュー] ChatGPT: A Meta-Analysis after 2.5 Months

Christoph Leiter, Ran Zhang|arXiv (Cornell University)|Feb 20, 2023
Artificial Intelligence in Healthcare and Education被引用数 23
ひとこと要約

本論文は、リリース後の2.5か月間にわたり、over 300k のツイートと more than 150 の科学論文を分析してChatGPTの公的認識、感情の推移、研究テーマを評価しており、全体として認識品質は高いが言語とトピックに基づく差異があり、学術界には機会と脅威の混在がある。

ABSTRACT

ChatGPT, a chatbot developed by OpenAI, has gained widespread popularity and media attention since its release in November 2022. However, little hard evidence is available regarding its perception in various sources. In this paper, we analyze over 300,000 tweets and more than 150 scientific papers to investigate how ChatGPT is perceived and discussed. Our findings show that ChatGPT is generally viewed as of high quality, with positive sentiment and emotions of joy dominating in social media. Its perception has slightly decreased since its debut, however, with joy decreasing and (negative) surprise on the rise, and it is perceived more negatively in languages other than English. In recent scientific papers, ChatGPT is characterized as a great opportunity across various fields including the medical domain, but also as a threat concerning ethics and receives mixed assessments for education. Our comprehensive meta-analysis of ChatGPT's current perception after 2.5 months since its release can contribute to shaping the public debate and informing its future development. We make our data available.

研究の動機と目的

  • ChatGPT がソーシャルメディアと科学文献全体でどのように認識されているかを評価する。
  • リリース後の時間経過に伴う感情とトピック分布を定量化する。
  • 言語ベースおよびトピックベースの認識差を特定する。
  • 研究者がさまざまな分野で ChatGPT を機会として捉えるのか脅威として捉えるのかを特徴づける。
  • 公衆の議論および開発方針に情報を提供するためのデータと注釈を提供する。

提案手法

  • #ChatGPT ハッシュタグを用いて、334,808件を超えるツイートを収集し、ロボットアカウントを重複排除します。
  • 非英語ツイートを英語に翻訳するにはFacebookの多言語モデルを用いる。
  • 英語でのF1=71%を示す 198 million tweets で訓練された multilingual XLM-Roberta モデルを用いてツイートの感情を分類する。
  • 124 million tweets、19クラスの英語トピック分類器で訓練された英語トピック分類器を用いて、週次の感情、言語別トレンド、およびトピック分布を推定する。
  • GoEmotionsベースの分類器と手動検査を用いて、ツイートの感情と情緒を注釈付けする。
  • 約150件のArxivとSemanticScholar論文を、要約ベースの注釈付けを通じて品質、トピック、社会的影響の観点で分析する。
Figure 1: Upper: weekly average of sentiment overall language (solid line), over English tweets (dotted line) and non-English tweets (dashed line). Lower: Tweet counts distribution and sentiment percentage change at weekly level aggregation.
Figure 1: Upper: weekly average of sentiment overall language (solid line), over English tweets (dotted line) and non-English tweets (dashed line). Lower: Tweet counts distribution and sentiment percentage change at weekly level aggregation.

実験結果

リサーチクエスチョン

  • RQ1リリース後の最初の2.5か月間において、ソーシャルメディア全体でのChatGPTに対する総体的な感情はどのように推移するか?
  • RQ2感情とトピックは言語ごとに、また時間とともにどのように異なるか?
  • RQ3議論を支配するテーマ(科学技術、教育、ニュース、日記、ビジネス)は何で、それらは感情とどのように関連するか?
  • RQ4科学論文は品質、トピック、社会的影響の観点からChatGPTをどのように記述しているか?
  • RQ5さまざまな分野の異なる情報源が指摘する顕著な制限と強みは何か?

主な発見

  • ソーシャルメディアの感情は、初期の上昇の後、全体として下降傾向を示し、英語ツイートは非英語ツイートよりもより肯定的である。
  • ポジティブな感情は初期にピークを迎え、わずかに減少する;中立的な感情は時間とともに増加する。
  • 喜びと驚きの感情が非中立ツイートを支配し、喜びは時間とともに低下し、驚きはアップデート後に一般に増加する。
  • 英語ツイートはドイツ語、フランス語、スペイン語、日本語よりもポジティブな感情を示し、トピック分布が言語差の一部を説明する。
  • ArxivとSemanticScholarの論文は多くの場合、ChatGPTを高品質(4-5)と評価し、いくつかの分野で機会と見なすが、倫理と教育は脅威または混合影響としてより議論の的となっている。
  • 教育関連の論文は機会と脅威の懸念の両方を表し、倫理の論文は脅威寄りに偏っていることを示唆する。全体として、ArxivとSemanticScholarの両方で研究関心が高まっている。)
Figure 2: Weekly sentiment distribution averaged per language
Figure 2: Weekly sentiment distribution averaged per language

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。