Skip to main content
QUICK REVIEW

[論文レビュー] How much is said in a microblog? A multilingual inquiry based on Weibo and Twitter

Han‐Teng Liao, King‐Wa Fu|arXiv (Cornell University)|Jun 1, 2015
Wikis in Education and Collaboration参考文献 21被引用数 2
ひとこと要約

本研究では、英語、中国語、日本語のTwitterおよびWeiboにおけるマイクロブログ投稿1件あたりに伝えられる情報量を調査した。平行コーパス(国際人権宣言およびTEDトークの字幕)を用いて、文字数、バイト数、情報量を測定した。中国語および日本語のマイクロブログは、情報密度が高く、プラットフォーム固有のバイト制限があるため、英語に比べて著しく多くの情報を1件あたり伝えていることが判明した。これは、異なる言語間で文字数制限が同等であるという仮定に疑問を呈するものである。

ABSTRACT

This paper presents a multilingual study on, per single post of microblog text, (a) how much can be said, (b) how much is written in terms of characters and bytes, and (c) how much is said in terms of information content in posts by different organizations in different languages. Focusing on three different languages (English, Chinese, and Japanese), this research analyses Weibo and Twitter accounts of major embassies and news agencies. We first establish our criterion for quantifying "how much can be said" in a digital text based on the openly available Universal Declaration of Human Rights and the translated subtitles from TED talks. These parallel corpora allow us to determine the number of characters and bits needed to represent the same content in different languages and character encodings. We then derive the amount of information that is actually contained in microblog posts authored by selected accounts on Weibo and Twitter. Our results confirm that languages with larger character sets such as Chinese and Japanese contain more information per character than English, but the actual information content contained within a microblog text varies depending on both the type of organization and the language of the post. We conclude with a discussion on the design implications of microblog text limits for different languages.

研究の動機と目的

  • 異なる言語間でマイクロブログ投稿1件あたりに伝えられる情報量を定量化すること。
  • TwitterやWeiboのようなプラットフォームにおける文字数制限、バイト制限、情報量の違いを調査すること。
  • 言語固有の表現力がユーザーエクスペリエンスおよびプラットフォーム設計に与える影響を評価すること。
  • デジタルコミュニケーションにおいて、文字数ベースの制限がすべての言語で同等であるという仮定に疑問を呈すること。
  • 多言語マイクロブログプラットフォームおよびクロスリンガルコンテンツ戦略の設計に、データドリブンな知見を提供すること。

提案手法

  • 同等の内容を表すために必要な文字数およびビット要件を基準化するために、英語、中国語、日本語の国際人権宣言およびTEDトークの字幕という平行コーパスを用いた。
  • 言語ごとの文字数およびバイト数を測定し、1文字あたりの情報密度を特定した。
  • WeiboおよびTwitterの公式アカウント(大使館および報道機関)から収集した実際のマイクロブログ投稿を収集・分析した。
  • 情報理論的手法を用いて情報量を計算し、言語の表現力を比較した。
  • Twitterの140文字制限とWeiboの140バイト制限を対比し、プラットフォームレベルの設計がコンテンツ容量に与える影響を評価した。
  • 組織タイプを制御因子として、言語およびプラットフォームごとの情報量に差があるかを統計的分析で検証した。

実験結果

リサーチクエスチョン

  • RQ1マイクロブログ投稿1件あたりの情報量は、英語、中国語、日本語でどのように異なるか?
  • RQ2TwitterおよびWeiboにおける文字数制限とバイト制限は、実際に伝えられる情報量にどの程度の影響を及ぼすか?
  • RQ3組織タイプ(例:大使館、報道機関)は、異なる言語におけるマイクロブログ投稿の情報量にどのように影響を及けるか?
  • RQ41文字あたりのビット数としての言語の表現力は、マイクロブログ投稿の容量にどのように影響を及けるか?
  • RQ5プラットフォーム設計の選択(例:文字数制限対比バイト制限)は、言語間で不均等なユーザーエクスペリエンスを生み出す程度はどの程度か?

主な発見

  • 中国語および日本語のマイクロブログは、1文字あたりの情報密度が高いため、英語に比べて著しく多くの情報を1件あたり伝えている。
  • Weiboの140バイト制限は、中国語および日本語において、より効率的な文字エンコーディングのおかげで、Twitterの140文字制限よりも多くのコンテンツを収容できる。
  • 平均して、中国語および日本語のWeibo投稿1件あたりの情報量は、同等のTwitter投稿に比べて20〜30%多い。
  • マイクロブログ投稿の情報量は、言語および組織タイプの両方に依存しており、報道機関は大使館に比べてより多くの情報を伝えている傾向にある。
  • プラットフォーム設計の選択、特に文字数制限からバイト制限への移行は、言語間で顕著な有効情報容量の差を生じさせている。
  • 本研究の結果は、「最適なツイート長」がエンゲージメントに与える影響の一般化を疑問視するものであり、最適な長さは言語に依存する可能性が高い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。