QUICK REVIEW

[논문 리뷰] The Recent Advances in Automatic Term Extraction: A survey

Hanh Thi Hong Tran, Matej Martinc|arXiv (Cornell University)|2023. 01. 17.

Advanced Text Analysis Techniques인용 수 7

한 줄 요약

신경망 및 Transformer 기반 모델에 중점을 두고 지도 학습 용어 추출에 대한 포괄적 고찰로, 전통적 특징 공학 접근 방식과의 비교 및 데이터셋, 평가 지표, 도전과제를 논의한다.

ABSTRACT

Automatic term extraction (ATE) is a Natural Language Processing (NLP) task that eases the effort of manually identifying terms from domain-specific corpora by providing a list of candidate terms. As units of knowledge in a specific field of expertise, extracted terms are not only beneficial for several terminographical tasks, but also support and improve several complex downstream tasks, e.g., information retrieval, machine translation, topic detection, and sentiment analysis. ATE systems, along with annotated datasets, have been studied and developed widely for decades, but recently we observed a surge in novel neural systems for the task at hand. Despite a large amount of new research on ATE, systematic survey studies covering novel neural approaches are lacking. We present a comprehensive survey of deep learning-based approaches to ATE, with a focus on Transformer-based neural models. The study also offers a comparison between these systems and previous ATE approaches, which were based on feature engineering and non-neural supervised learning algorithms.

연구 동기 및 목표

지난 30년간 용어 추출을 위한 자원과 공개적으로 이용 가능한 말뭉치를 조사한다.
트랜스포머 기반 모델에 중점을 두고 전통적인 특징 공학 접근법과 비교하면서 딥러닝 기반 ATE 방법을 체계적으로 검토한다.
ATE를 위한 평가 지표를 분류하고 직접 평가와 간접 평가 방법론을 분석한다.
다단어 및 중첩 용어 추출과 견고성에서의 도전 과제를 확인하고 향후 연구 방향을 제시한다.

제안 방법

학습 및 평가에 사용되는 공개적 단일언어 및 다국어 말뭉치를 조사하여 ATE 자원을 식별하고 분류한다.
전통적 특징 공학과 신경망 접근법을 대조하며 지도 학습 ATE 시스템을 체계적으로 검토한다.
ATE에 사용되는 임베딩 기반 표현(일반적, 도메인 특화 및 맥락적)을 논의하고 성능에 미치는 영향을 다룬다.
용어 추출을 위한 신경망 아키텍처를 기술한다. 시퀀스/분류 및 시퀀스-투-시퀀스 모델을 포함하고 전이 학습 패러다임에서의 위치를 설명한다.
기존 데이터셋과 시스템에서 얻은 통찰을 바탕으로 평가 방식의 요약과 방향성을 제안한다.

Figure 1. The combination of keywords to search for term datasets and systems.

실험 결과

연구 질문

RQ1단일언어 및 다국어 ATE에 공개적으로 이용 가능한 데이터셋과 말뭉치는 무엇이며, 시간이 지남에 따라 어떻게 진화해 왔는가?
RQ2Transformer 기반 및 기타 신경망 ATE 시스템은 성능과 견고성 면에서 전통적 특징 공학 방법과 어떻게 비교되는가?
RQ3ATE에 주로 사용되는 평가 지표와 방법론은 무엇이며, 이것들이 다운스트림 작업과 어떻게 관련되는가?
RQ4다단어 및 중첩 용어 추출과 같은 ATE의 주요 남은 과제는 무엇이며, 향후 연구가 이를 어떻게 해결할 수 있는가?

주요 결과

신경망 및 Transformer 기반 접근법이 ATE에서 점점 더 인기를 얻고 있으며, 손으로 설계된 특징에 의존하는 전통적 방법보다 종종 더 우수하다.
일반 지식과 도메인 특화 지식을 결합한 임베딩 전략 및 맥락적 임베딩이 ATE 성능을 향상시킨다.
ACTER와 같은 주석이 달린 다국어 말뭉치는 다국어 간 및 교차 도메인 ATE에 강력한 벤치마크를 제공하여 더 견고한 비교를 가능하게 한다.
단일언어 말뭉치의 주석 체계와 평가 프로토콜에 상당한 차이가 있어 데이터 간 비교를 복잡하게 한다.
평가 방식은 직접(골드 스탠다드, 인간 판단)과 간접(다운스트림 작업) 방법을 포함하며, 표준화된 벤치마크가 필요하다.
현재의 도전 과제에는 다단어 및 중첩 용어를 정확하게 포착하고 언어와 도메인 전반에 걸친 시스템 견고성을 향상시키는 것이 포함된다.

Figure 2. Feature group and subgroup for machine learning models based on (Rigouts Terryn et al . , 2021 ) ’s work.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.