[논문 리뷰] Text Clustering with Large Language Model Embeddings
요지는: 이 논문은 전통 방법과 대형 언어 모델(LLM)에서 추출한 다양한 임베딩이 다수의 데이터셋과 클러스터링 알고리즘에서 텍스트 클러스터링에 어떻게 영향을 미치는지 평가하고, 요약을 통한 차원 축소 및 임베딩 크기에 대한 분석을 포함합니다.
Text clustering is an important method for organising the increasing volume of digital content, aiding in the structuring and discovery of hidden patterns in uncategorised data. The effectiveness of text clustering largely depends on the selection of textual embeddings and clustering algorithms. This study argues that recent advancements in large language models (LLMs) have the potential to enhance this task. The research investigates how different textual embeddings, particularly those utilised in LLMs, and various clustering algorithms influence the clustering of text datasets. A series of experiments were conducted to evaluate the impact of embeddings on clustering results, the role of dimensionality reduction through summarisation, and the adjustment of model size. The findings indicate that LLM embeddings are superior at capturing subtleties in structured language. OpenAI's GPT-3.5 Turbo model yields better results in three out of five clustering metrics across most tested datasets. Most LLM embeddings show improvements in cluster purity and provide a more informative silhouette score, reflecting a refined structural understanding of text data compared to traditional methods. Among the more lightweight models, BERT demonstrates leading performance. Additionally, it was observed that increasing model dimensionality and employing summarisation techniques do not consistently enhance clustering efficiency, suggesting that these strategies require careful consideration for practical application. These results highlight a complex balance between the need for refined text representation and computational feasibility in text clustering applications. This study extends traditional text clustering frameworks by integrating embeddings from LLMs, offering improved methodologies and suggesting new avenues for future research in various types of textual analysis.
연구 동기 및 목표
- 다양한 텍스트 임베딩이 클러스터링 품질에 미치는 영향을 평가한다.
- 클러스터링 성능에서 요약을 통한 차원 축소의 역할을 평가한다.
- 임베딩 크기가 클러스터링 결과와 계산 비용에 미치는 영향을 조사한다.
- 구성 텍스트 클러스터링에서 오픈 소스 임베딩과 OpenAI 임베딩을 비교한다.
- 실용적인 클러스터링 응용을 위한 임베딩 선택에 대한 지침을 제공한다.
제안 방법
- 다양한 데이터셋(CSTR, SyskillWebert, 20Newsgroups, MN-DS)을 클러스터링 알고리즘(K-means, K-means++, AHC, Fuzzy C-means, Spectral)으로 비교한다.
- 기준으로 TF-IDF를 사용하고 Hugging Face의 BERT, OpenAI, Falcon, LLaMA-2 임베딩을 포함한다.
- 메타데이터, HTML, 비라틴 문자 제거 등 데이터를 전처리한다.
- 외부 지표(F1S, ARI, HS)와 내부 지표(SS, CHI)로 평가한다.
- 다양한 모델로 요약 실험을 수행하고, 더 큰 임베딩 모델을 분석하며 PCA와 t-SNE를 시각화에 사용한다.
- 임베딩 크기 효과(Falcon/LLaMA-2 계열)를 클러스터링 성능에 대해 탐구한다.

실험 결과
연구 질문
- RQ1어떤 임베딩이 데이터셋 간 외부 클러스터링 품질(F1S, ARI, HS)을 가장 높게 제공하는가?
- RQ2요약을 통한 차원 축소가 일관되게 클러스터링 결과를 개선하는가?
- RQ3임베딩 크기가 클러스터링 성능에 어떤 영향을 미치며 어떤 모델이 가장 큰 혜택을 받는가?
- RQ4오픈 소스 임베딩과 OpenAI 임베딩이 구조적 텍스트 클러스터링에서 어떻게 비교되는가?
- RQ5더 큰 LLM 임베딩 사용 시 클러스터링 품질과 계산 비용 사이의 실제 트레이드오프는 무엇인가?
주요 결과
| 데이터셋 | 임베딩 | 최고 알고리즘 | F1S | ARI | HS | SS | CHI | 합계 |
|---|---|---|---|---|---|---|---|---|
| DS1 | TF-IDF | k-means | 0.67 | 0.38 | 0.46 | 0.016 | 4 | 0/5 |
| DS1 | BERT | Spectral | 0.85 | 0.60 | 0.63 | 0.118 | 25 | 3/5 |
| DS1 | OpenAI | k-means | 0.84 | 0.59 | 0.64 | 0.066 | 13 | 1/5 |
| DS1 | LLaMA-2 | k-means | 0.41 | 0.09 | 0.17 | 0.112 | 49 | 1/5 |
| DS1 | Falcon | k-means | 0.74 | 0.39 | 0.48 | 0.111 | 34 | 0/5 |
| DS2 | TF-IDF | Spectral | 0.82 | 0.63 | 0.58 | 0.028 | 8 | 0/5 |
| DS2 | BERT | AHC | 0.74 | 0.58 | 0.53 | 0.152 | 37 | 0/5 |
| DS2 | OpenAI | AHC | 0.90 | 0.79 | 0.75 | 0.070 | 19 | 3/5 |
| DS2 | LLaMA-2 | k-means | 0.51 | 0.21 | 0.25 | 0.137 | 69 | 0/5 |
| DS2 | Falcon | k-means++ | 0.45 | 0.26 | 0.30 | 0.170 | 85 | 2/5 |
| DS3 | TF-IDF | Spectral | 0.35 | 0.13 | 0.28 | -0.002 | 37 | 0/5 |
| DS3 | BERT | k-means | 0.43 | 0.25 | 0.44 | 0.048 | 412 | 0/5 |
| DS3 | OpenAI | k-means | 0.69 | 0.52 | 0.66 | 0.035 | 213 | 3/5 |
| DS3 | LLaMA-2 | AHC | 0.17 | 0.11 | 0.26 | 0.025 | 264 | 0/5 |
| DS3 | Falcon | k-means | 0.26 | 0.15 | 0.30 | 0.071 | 1120 | 2/5 |
| DS4 | TF-IDF | k-means | 0.29 | 0.13 | 0.48 | 0.034 | 17 | 0/5 |
| DS4 | BERT | k-means | 0.35 | 0.24 | 0.55 | 0.072 | 61 | 1/5 |
| DS4 | OpenAI | k-means | 0.38 | 0.26 | 0.58 | 0.053 | 42 | 3/5 |
| DS4 | LLaMA-2 | k-means | 0.21 | 0.11 | 0.40 | 0.053 | 88 | 0/5 |
| DS4 | Falcon | k-means++ | 0.27 | 0.16 | 0.48 | 0.071 | 92 | 1/5 |
| DS5 | TF-IDF | AHC | 0.31 | 0.09 | 0.29 | 0.010 | 37 | 0/5 |
| DS5 | BERT | k-means++ | 0.43 | 0.27 | 0.42 | 0.060 | 178 | 2/5 |
| DS5 | OpenAI | Spectral | 0.45 | 0.25 | 0.41 | 0.036 | 120 | 1/5 |
| DS5 | LLaMA-2 | AHC | 0.23 | 0.10 | 0.23 | 0.031 | 263 | 0/5 |
| DS5 | Falcon | k-means++ | 0.28 | 0.12 | 0.25 | 0.070 | 359 | 2/5 |
- OpenAI 임베딩은 여러 지표에서 구조화된 형식의 텍스트 클러스터링에서 일반적으로 우수한 성능을 발휘한다.
- OpenAI 임베딩으로의 k-means는 ARI, F1S, HS가 높게 나타나는 경향이 있지만, Silhouette 및 CHI는 낮을 수 있어 공간/형상 효과를 시사한다.
- 오픈 소스 임베딩(Falcon, LLaMA-2)은 혼합된 결과를 보이며, 오픈 소스 옵션 중 BERT가 종종 좋은 성능을 보이며 Falcon-7b가 여러 경우에서 LLaMA-2-7b를 능가한다.
- 요약은 일관되게 클러스터링을 개선하지 못했고, 일부 모델에서는 정보 손실로 인해 성능이 저하되었다(특히 더 작은 모델에서).
- 임베딩 크기를 늘리는 것이 일부 모델(예: Falcon-7b에서 Falcon-40b)에서 클러스터링을 개선할 수 있지만 보편적이지 않으며, 더 큰 임베딩은 계산 비용이 증가한다.
- 차원 시각화(PCA/t-SNE)는 특정 대형 모델(예: LLaMA-13b, Falcon-7b)에서 더 나은 클래스 분리를 시사한다(더 작은 대안에 비해).

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.