Skip to main content
QUICK REVIEW

[論文レビュー] Bengali Text Classification: An Evaluation of Large Language Model Approaches

Md Mahmudul Hoque, Md. Mehedi Hassain|arXiv (Cornell University)|Jan 17, 2026
Text and Document Classification Technologies被引用数 0
ひとこと要約

論文は3つの指示調整済みLLM(LLaMA 3.1 8B Instruct、LLaMA 3.2 3B Instruct、Qwen 2.5 7B Instruct)をベンガル語ニュース記事分類に適用し、9カテゴリでQwen 2.5が最高の正確度(72%)を達成したことを示す。

ABSTRACT

Bengali text classification is a Significant task in natural language processing (NLP), where text is categorized into predefined labels. Unlike English, Bengali faces challenges due to the lack of extensive annotated datasets and pre-trained language models. This study explores the effectiveness of large language models (LLMs) in classifying Bengali newspaper articles. The dataset used, obtained from Kaggle, consists of articles from Prothom Alo, a major Bangladeshi newspaper. Three instruction-tuned LLMs LLaMA 3.1 8B Instruct, LLaMA 3.2 3B Instruct, and Qwen 2.5 7B Instruct were evaluated for this task under the same classification framework. Among the evaluated models, Qwen 2.5 achieved the highest classification accuracy of 72%, showing particular strength in the "Sports" category. In comparison, LLaMA 3.1 and LLaMA 3.2 attained accuracies of 53% and 56%, respectively. The findings highlight the effectiveness of LLMs in Bengali text classification, despite the scarcity of resources for Bengali NLP. Future research will focus on exploring additional models, addressing class imbalance issues, and refining fine-tuning approaches to improve classification performance.

研究の動機と目的

  • ベンガル語NLPリソースの不足に対処するため、LLMベースのベンガル語ニュース分類を評価する。
  • 9つのターゲットカテゴリを含むKaggleの大規模ベンガル紙データセット(Prothom Alo)を利用する。
  • 複数のLLMアーキテクチャを微調整し、標準的な指標で性能を比較する。

提案手法

  • 437,948サンプルと9属性を含むKaggle Prothom Aloベンガル語ニュースデータセットを使用し、ContentとCategoryに焦点を当てる。
  • Random Under Samplerでクラス不均衡を是正し、近傍分析のためにKNNクラスタリングを適用する。
  • LoRA/QLoRAと4ビット量子化を用いてLLaMA 3.1(8B)とLLaMA 3.2(3B)を微調整し、九カテゴリで標準的プロンプティングを用いたQwen 2.5(7B)を微調整する。
  • 80/20の訓練/テスト分割を用い、精度、適合率、再現率、F1スコア、混同行列で評価する。
  • wandbで実験を追跡し、カテゴリ別の性能を含む結果を報告する。

実験結果

リサーチクエスチョン

  • RQ1異なる指示調整済みLLMはベンガル語ニューステキスト分類でどのように性能を示すか?
  • RQ2このモデルでパラメータ数が多いほどベンガル語分類の精度が高くなるか?
  • RQ3LLMベースのベンガル語テキスト分類でどのカテゴリが容易で、どれが困難か?理由は?

主な発見

ModelAccuracy(%)
LLaMA 3.153%
LLaMA 3.256%
Qwen 2.572%
  • Qwen 2.5は総合的な正確度で最高の72%を達成。
  • LLaMA 3.1とLLaMA 3.2はそれぞれ53%と56%の正確度を達成。
  • カテゴリ別の結果ではスポーツが最も高い正確度(81%)、教育が78.3%、意見は難易度が高く58.8%の正確度。
  • 混同行列は最も多くの誤分類が経済 vs 国際、ライフスタイル vs エンターテインメントのような意味的に関連するカテゴリ間で発生することを示す。
  • 量子化とアーキテクチャは性能に影響を与え、小さめのLLaMAバリアントが一部のケースで8Bモデルをわずかに上回った。
  • 全体として、本研究はLLMベースのベンガル語テキスト分類の実現可能性を支持し、今後の改善点を指摘する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。