Skip to main content
QUICK REVIEW

[논문 리뷰] CitiLink-Summ: Summarization of Discussion Subjects in European Portuguese Municipal Meeting Minutes

Miguel Marques, A. Fernandes|arXiv (Cornell University)|2026. 02. 18.
Topic Modeling인용 수 0
한 줄 요약

CitiLink-Summ은 120개 문서와 2,880개의 수동 작성 토의 주제 요약본을 포함한 유럽 포르투갈어 지방자치 회의록 요약 코퍼스를 소개하며, 인코더-디코더 모델과 LLM을 사용한 베이스라인 결과를 제공합니다.

ABSTRACT

Municipal meeting minutes are formal records documenting the discussions and decisions of local government, yet their content is often lengthy, dense, and difficult for citizens to navigate. Automatic summarization can help address this challenge by producing concise summaries for each discussion subject. Despite its potential, research on summarizing discussion subjects in municipal meeting minutes remains largely unexplored, especially in low-resource languages, where the inherent complexity of these documents adds further challenges. A major bottleneck is the scarcity of datasets containing high-quality, manually crafted summaries, which limits the development and evaluation of effective summarization models for this domain. In this paper, we present CitiLink-Summ, a new corpus of European Portuguese municipal meeting minutes, comprising 100 documents and 2,322 manually hand-written summaries, each corresponding to a distinct discussion subject. Leveraging this dataset, we establish baseline results for automatic summarization in this domain, employing state-of-the-art generative models (e.g., BART, PRIMERA) as well as large language models (LLMs), evaluated with both lexical and semantic metrics such as ROUGE, BLEU, METEOR, and BERTScore. CitiLink-Summ provides the first benchmark for municipal-domain summarization in European Portuguese, offering a valuable resource for advancing NLP research on complex administrative texts.

연구 동기 및 목표

  • 유럽 포르투갈어 지방 의회 회의록에 대한 고품질 요약의 부족 문제를 해결한다.
  • 토의 주제 요약의 도메인 특화 코퍼스(유럽 포르투갈어)를 제공한다.
  • 이 도메인에 대해 최신 모델과 LLM으로 베이스라인을 확립한다.
  • 추가 연구를 촉진하기 위해 데이터셋, 가이드라인, 코드 등 공개 리소스를 제공한다.

제안 방법

  • 6개 지방자치단체(2021–2024)에서 120개의 회의록으로 새로운 코퍼스 구축.
  • 토의 주제로 수동 분할 및 언어학 훈련 평가자의 전문가 감독하에 요약을 수작업 작성.
  • Coverage와 Density 지표를 사용하여 추상화 평가.
  • 다양한 요약 모델(BART, BART Large, PTT5, LED, PRIMERA)과 대형 언어모델(Qwen2.5-1.5B, Gemini-2.5-flash)을 데이터셋에 대해 미세조정하고 벤치마크.
  • 평가에 어휘적 지표(ROUGE, BLEU, METEOR)와 의미적 지표(BERTScore)를 모두 사용.
  • 모델의 제한된 맥락 창을 처리하기 위해 계층적 청크 분할을 적용.
Figure 1. Dataset Statistics and JSON Schema.
Figure 1. Dataset Statistics and JSON Schema.

실험 결과

연구 질문

  • RQ1유럽 포르투갈어 지방 의회 회의록의 토의 주제 내용을 추상적으로 요약하는 것이 효과적일까?
  • RQ2이 도메인과 언어에서 현재 모델의 베이스라인 성능은 어느 수준인가?
  • RQ3다른 모델 군(인코더-디코더 대 대형 언어 모델)은 이 작업에서 어휘적 및 의미적 지표에 대해 어떻게 비교되는가?
  • RQ4CitiLink-Summ 데이터셋은 도시 행정 텍스트에서 요약의 추상화 수준(커버리지 vs. 밀도)에 대해 어떤 통찰을 제공하는가?

주요 결과

모형ROUGE-R1ROUGE-R2ROUGE-R-LBLEUMETEORBERTSCOREF1정밀도재현율
BART63.5249.2258.2036.0655.1583.8784.5983.37
BART Large68.9654.7863.6442.4361.6586.2886.5786.15
PTT552.3638.2145.2623.6546.4476.9076.1278.15
LED63.6350.5058.5929.8254.8884.1685.7082.91
PRIMERA66.1754.5761.9429.0657.0585.7987.1084.79
Qwen2.5-1.5B44.2431.0638.807.1631.7974.4977.7571.83
Gemini-2.5-flash64.1648.9455.9728.4054.3483.0982.9983.19
  • CitiLink-Summ 코퍼스는 120분 분량의 회의록과 2,880개의 수동 작성 토의 주제 요약본을 포함한다.
  • 요약은 중간에서 높은 커버리지와 낮은 밀도를 보이며 표면 텍스트 재사용을 넘어서는 추상화를 시사한다.
  • 더 큰 모델들(PRIMERA, BART Large, Gemini)이 메트릭 전반에서 가장 높은 점수를 달성한다.
  • 미세조정된 모델과 오픈소스 모델이 유럽 포르투갈어 지방 도메인 요약에 대해 실용적인 베이스라인을 제공한다.
  • 표 1은 BART Large가 ROUGE 68.96, BLEU+METEOR 54.78, BERTSCORE 63.64 등을 달성했음을 보고한다, 그 외 수치도 함께.
Figure 2. Overall relationship between coverage and density.
Figure 2. Overall relationship between coverage and density.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.