Skip to main content
QUICK REVIEW

[논문 리뷰] Leveraging BERT for Extractive Text Summarization on Lectures

Derek M. Miller|arXiv (Cornell University)|2019. 06. 07.
Topic Modeling참고 문헌 14인용 수 196
한 줄 요약

이 논문은 Lecture Summarization Service를 제시합니다. 이는 BERT 임베딩과 KMeans 클러스터링을 사용하여 강의 기록에서 사용자가 지정한 요약 길이에 맞는 핵심 문장을 추출하는 Python RESTful 시스템입니다.

ABSTRACT

In the last two decades, automatic extractive text summarization on lectures has demonstrated to be a useful tool for collecting key phrases and sentences that best represent the content. However, many current approaches utilize dated approaches, producing sub-par outputs or requiring several hours of manual tuning to produce meaningful results. Recently, new machine learning architectures have provided mechanisms for extractive summarization through the clustering of output embeddings from deep learning models. This paper reports on the project called Lecture Summarization Service, a python based RESTful service that utilizes the BERT model for text embeddings and KMeans clustering to identify sentences closes to the centroid for summary selection. The purpose of the service was to provide students a utility that could summarize lecture content, based on their desired number of sentences. On top of the summary work, the service also includes lecture and summary management, storing content on the cloud which can be used for collaboration. While the results of utilizing BERT for extractive summarization were promising, there were still areas where the model struggled, providing feature research opportunities for further improvement.

연구 동기 및 목표

  • 강의 내용을 자동 추출적 요약하도록 동기를 부여하고 이를 가능하게 한다.
  • 클러스터링 기반 요약을 위해 의미 있는 문장 임베딩을 생성하기 위해 BERT를 활용한다.
  • 강의 요약 및 콘텐츠 관리를 위한 확장 가능하고 클라우드 기반의 서비스를 제공한다.

제안 방법

  • 문장을 표현하기 위해 BERT 모델로 텍스트 임베딩을 계산한다.
  • 문장 임베딩에 KMeans 클러스터링을 적용하여 클러스터를 형성한다.
  • 클러스터 중심에 가장 가까운 문장을 선택하여 요약을 구성한다.
  • 사용자가 정의한 길이의 요약을 생성하기 위한 Python 기반 RESTful 서비스를 제공한다.
  • 협업을 위한 클라우드 스토리지와 함께 강의 및 요약 관리 기능을 포함한다.

실험 결과

연구 질문

  • RQ1BERT 기반 문장 임베딩이 강의의 추출적 요약 품질을 향상시킬 수 있는가?
  • RQ2군집 중심에 가까운 문장들로 구성된 클러스터링 기반 선택이 강의 내용의 간결하고 대표적인 요약을 생성하는 데 효과적인가?
  • RQ3클라우드 기반 RESTful 서비스가 사용자가 정의한 요약 길이와 협업 관리를 합리적으로 지원할 수 있는가?

주요 결과

  • BERT 임베딩 + KMeans 클러스터링은 요약에 대한 대표 문장을 식별할 수 있다.
  • 이 서비스는 사용자가 정의한 길이의 요약을 생성하기 위한 실용적인 워크플로를 제공한다.
  • 이 방법은 유망한 결과를 보이나 모델이 어려움을 겪는 영역과 개선의 기회도 제시한다.
  • 이 시스템은 협업 지원을 위한 클라우드 스토리지와 함께 강의 및 요약 관리 기능을 포함한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.