[論文レビュー] Text Clustering with Large Language Model Embeddings
この論文は、従来の方法と大規模言語モデル(LLM)からのさまざまな埋め込みが、複数のデータセットとクラスタリングアルゴリズムにわたるテキストクラスタリングに与える影響を評価し、要約による次元削減と埋め込みサイズの分析を含む。
Text clustering is an important method for organising the increasing volume of digital content, aiding in the structuring and discovery of hidden patterns in uncategorised data. The effectiveness of text clustering largely depends on the selection of textual embeddings and clustering algorithms. This study argues that recent advancements in large language models (LLMs) have the potential to enhance this task. The research investigates how different textual embeddings, particularly those utilised in LLMs, and various clustering algorithms influence the clustering of text datasets. A series of experiments were conducted to evaluate the impact of embeddings on clustering results, the role of dimensionality reduction through summarisation, and the adjustment of model size. The findings indicate that LLM embeddings are superior at capturing subtleties in structured language. OpenAI's GPT-3.5 Turbo model yields better results in three out of five clustering metrics across most tested datasets. Most LLM embeddings show improvements in cluster purity and provide a more informative silhouette score, reflecting a refined structural understanding of text data compared to traditional methods. Among the more lightweight models, BERT demonstrates leading performance. Additionally, it was observed that increasing model dimensionality and employing summarisation techniques do not consistently enhance clustering efficiency, suggesting that these strategies require careful consideration for practical application. These results highlight a complex balance between the need for refined text representation and computational feasibility in text clustering applications. This study extends traditional text clustering frameworks by integrating embeddings from LLMs, offering improved methodologies and suggesting new avenues for future research in various types of textual analysis.
研究の動機と目的
- さまざまなテキスト埋め込みがクラスタリング品質に与える影響を評価する。
- クラスタリング性能における要約による次元削減の役割を評価する。
- 埋め込みサイズがクラスタリング結果と計算コストに及ぼす影響を調査する。
- 構造化テキストクラスタリングにおけるオープンソース埋め込みと OpenAI 埋め込みを比較する。
- 実務的なクラスタリング適用のための埋め込み選択に関するガイダンスを提供する。
提案手法
- 複数データセット(CSTR、SyskillWebert、20Newsgroups、MN-DS)を、クラスタリングアルゴリズム(K-means、K-means++、AHC、Fuzzy C-means、Spectral)で比較する。
- TF-IDF をベースラインとして使用し、Hugging Face から BERT、OpenAI、Falcon、LLaMA-2 の埋め込みを含める。
- データの前処理(メタデータ、HTML、非ラテン文字の削除)。
- 外部指標(F1S、ARI、HS)と内部指標(SS、CHI)で評価する。
- さまざまなモデルで要約実験を実施し、より大きな埋め込みモデルを分析する。PCA と t-SNE を用いて可視化する。
- 埋め込みサイズの影響を探索する(Falcon/LLaMA-2 ファミリー)クラスタリング性能への影響。

実験結果
リサーチクエスチョン
- RQ1どの埋め込みが、データセット全体で最高の外部クラスタリング品質(F1S、ARI、HS)をもたらすか?
- RQ2要約による次元削減は一貫してクラスタリング結果を改善するか?
- RQ3埋め込みサイズはクラスタリング性能にどのような影響を与え、どのモデルが最も恩恵を受けるか?
- RQ4オープンソース埋め込みと OpenAI 埋め込みは、構造化テキストクラスタリングでどのように比較されるか?
- RQ5大規模LLMの埋め込みを使用する際のクラスタリング品質と計算コストの実務的なトレードオフは何か?
主な発見
| データセット | 埋め込み | ベストアルゴリズム | F1S | ARI | HS | SS | CHI | 合計 |
|---|---|---|---|---|---|---|---|---|
| DS1 | TF-IDF | k-means | 0.67 | 0.38 | 0.46 | 0.016 | 4 | 0/5 |
| DS1 | BERT | Spectral | 0.85 | 0.60 | 0.63 | 0.118 | 25 | 3/5 |
| DS1 | OpenAI | k-means | 0.84 | 0.59 | 0.64 | 0.066 | 13 | 1/5 |
| DS1 | LLaMA-2 | k-means | 0.41 | 0.09 | 0.17 | 0.112 | 49 | 1/5 |
| DS1 | Falcon | k-means | 0.74 | 0.39 | 0.48 | 0.111 | 34 | 0/5 |
| DS2 | TF-IDF | Spectral | 0.82 | 0.63 | 0.58 | 0.028 | 8 | 0/5 |
| DS2 | BERT | AHC | 0.74 | 0.58 | 0.53 | 0.152 | 37 | 0/5 |
| DS2 | OpenAI | AHC | 0.90 | 0.79 | 0.75 | 0.070 | 19 | 3/5 |
| DS2 | LLaMA-2 | k-means | 0.51 | 0.21 | 0.25 | 0.137 | 69 | 0/5 |
| DS2 | Falcon | k-means++ | 0.45 | 0.26 | 0.30 | 0.170 | 85 | 2/5 |
| DS3 | TF-IDF | Spectral | 0.35 | 0.13 | 0.28 | -0.002 | 37 | 0/5 |
| DS3 | BERT | k-means | 0.43 | 0.25 | 0.44 | 0.048 | 412 | 0/5 |
| DS3 | OpenAI | k-means | 0.69 | 0.52 | 0.66 | 0.035 | 213 | 3/5 |
| DS3 | LLaMA-2 | AHC | 0.17 | 0.11 | 0.26 | 0.025 | 264 | 0/5 |
| DS3 | Falcon | k-means | 0.26 | 0.15 | 0.30 | 0.071 | 1120 | 2/5 |
| DS4 | TF-IDF | k-means | 0.29 | 0.13 | 0.48 | 0.034 | 17 | 0/5 |
| DS4 | BERT | k-means | 0.35 | 0.24 | 0.55 | 0.072 | 61 | 1/5 |
| DS4 | OpenAI | k-means | 0.38 | 0.26 | 0.58 | 0.053 | 42 | 3/5 |
| DS4 | LLaMA-2 | k-means | 0.21 | 0.11 | 0.40 | 0.053 | 88 | 0/5 |
| DS4 | Falcon | k-means++ | 0.27 | 0.16 | 0.48 | 0.071 | 92 | 1/5 |
| DS5 | TF-IDF | AHC | 0.31 | 0.09 | 0.29 | 0.010 | 37 | 0/5 |
| DS5 | BERT | k-means++ | 0.43 | 0.27 | 0.42 | 0.060 | 178 | 2/5 |
| DS5 | OpenAI | Spectral | 0.45 | 0.25 | 0.41 | 0.036 | 120 | 1/5 |
| DS5 | LLaMA-2 | AHC | 0.23 | 0.10 | 0.23 | 0.031 | 263 | 0/5 |
| DS5 | Falcon | k-means++ | 0.28 | 0.12 | 0.25 | 0.070 | 359 | 2/5 |
- OpenAI 埋め込みは、複数の指標で構造化されたフォーマルなテキストに対して一般的に優れたクラスタリング性能を示す。
- K-means は OpenAI 埋め込みと組み合わせると高い ARI、F1S、HS を達成することが多いが、Silhouette および CHI は低めになる場合があり、空間/形状の影響を示唆する。
- オープンソース埋め込み(Falcon、LLaMA-2)は成績が混在しており、BERT がオープンソースオプションの中でしばしば高いパフォーマンスを示し、Falcon-7b は多くのケースで LLaMA-2-7b を上回る。
- 要約は一貫してクラスタリングを改善するわけではなく、情報損失により小型モデルで性能が低下する場合がある。
- 埋め込みサイズを増やすと一部のモデル(例:Falcon-7b から Falcon-40b)でクラスタリング性能が向上する可能性がある一方で一様ではなく、より大きな埋め込みは計算コストが高くなる。
- 次元可視化(PCA/t-SNE)は、より大きなモデル(例:LLaMA-13b、Falcon-7b)で、より小さなモデルと比べてクラス分離が改善されることを示唆する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。