[論文レビュー] TI-CNN: Convolutional Neural Networks for Fake News Detection
TI-CNN は、偽情報を検出するために、明示的な特徴と潜在的なテキストおよび画像特徴を二重CNNブランチで組み合わせ、実世界のデータセットでベースラインを上回る。
With the development of social networks, fake news for various commercial and political purposes has been appearing in large numbers and gotten widespread in the online world. With deceptive words, people can get infected by the fake news very easily and will share them without any fact-checking. For instance, during the 2016 US president election, various kinds of fake news about the candidates widely spread through both official news media and the online social networks. These fake news is usually released to either smear the opponents or support the candidate on their side. The erroneous information in the fake news is usually written to motivate the voters' irrational emotion and enthusiasm. Such kinds of fake news sometimes can bring about devastating effects, and an important goal in improving the credibility of online social networks is to identify the fake news timely. In this paper, we propose to study the fake news detection problem. Automatic fake news identification is extremely hard, since pure model based fact-checking for news is still an open problem, and few existing models can be applied to solve the problem. With a thorough investigation of a fake news data, lots of useful explicit features are identified from both the text words and images used in the fake news. Besides the explicit features, there also exist some hidden patterns in the words and images used in fake news, which can be captured with a set of latent features extracted via the multiple convolutional layers in our model. A model named as TI-CNN (Text and Image information based Convolutinal Neural Network) is proposed in this paper. By projecting the explicit and latent features into a unified feature space, TI-CNN is trained with both the text and image information simultaneously. Extensive experiments carried on the real-world fake news datasets have demonstrate the effectiveness of TI-CNN.
研究の動機と目的
- ソーシャルネットワークにおける偽情報検出の研究の動機付けと、情報の信頼性への影響。
- テキスト情報と画像情報の両方が偽情報検出を改善するかを調査する。
- 明示的および潜在的なテキストと画像特徴を統合する統一モデル(TI-CNN)を開発する。
- 偽ニュースと実ニュースの実世界データセットを対象に、TI-CNNをベースライン手法と比較評価する。
提案手法
- テキスト情報と画像情報のための二つの並列ブランチを備えた TI-CNN を提案する。
- テキストからは明示的特徴を抽出する(語数・句読点・大文字化などの統計情報)と、画像からは解像度・顔情報などを抽出する。
- テキスト(語嵌入に対する CNN)と画像(画像パッチに対する CNN)で潜在特徴を学習する。
- 明示的特徴と潜在特徴を統一空間に射影し、最終予測のためにテキストと画像の表現を融合する。
- RMSprop を用いた負の対数尤度でエンドツーエンド訓練し、標準的な正則化(ドロップアウト、L2、早期停止)を適用する。
実験結果
リサーチクエスチョン
- RQ1明示的なテキスト/画像特徴を、潜在的な CNN 派生特徴と効果的に組み合わせて偽ニュース検出を行えるか?
- RQ2テキスト情報と画像情報を結合することで、いずれのモダリティ単独より検出性能が向上するか?
- RQ3CNNで学習される潜在特徴と、手作業で設計された明示的特徴の寄与はどの程度か?
- RQ4実世界データで、TI-CNNは従来のテキストのみモデルおよび画像のみモデルと比較してどのように性能を示すか?
主な発見
- データセットには 20,015 件の記事が含まれており、偽情報が 11,941 件、実情報が 8,074 件。
- TI-CNN はテキストと画像情報の両方を使用した場合、ベースライン手法を上回る。
- 画像情報だけでは信頼性の高い偽情報検出は不充分。
- テキストベースの手法(例: ロジスティック回帰)はこのデータで弱く、深層テキストモデル(GRU/LSTM)は長い系列に制約がある。
- このモデルは、両モダリティの明示的特徴と潜在特徴を統合表現にブレンドし、ベースラインを上回る性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。