[논문 리뷰] Deep Learning Based Named Entity Recognition Models for Recipes
논문은 수동 주석, 증강 및 기계 주석 데이터 세트를 사용하여 레시피 텍스트에 대한 NER 모델을 구축하고 평가하며, macro-F1이 약 96%인 spaCy-transformer를 최상 성능으로 확인했고, 소수-shot 프롬프팅을 사용하는 LLM들은 성능이 저조하게 나타났다.
Food touches our lives through various endeavors, including flavor, nourishment, health, and sustainability. Recipes are cultural capsules transmitted across generations via unstructured text. Automated protocols for recognizing named entities, the building blocks of recipe text, are of immense value for various applications ranging from information extraction to novel recipe generation. Named entity recognition is a technique for extracting information from unstructured or semi-structured data with known labels. Starting with manually-annotated data of 6,611 ingredient phrases, we created an augmented dataset of 26,445 phrases cumulatively. Simultaneously, we systematically cleaned and analyzed ingredient phrases from RecipeDB, the gold-standard recipe data repository, and annotated them using the Stanford NER. Based on the analysis, we sampled a subset of 88,526 phrases using a clustering-based approach while preserving the diversity to create the machine-annotated dataset. A thorough investigation of NER approaches on these three datasets involving statistical, fine-tuning of deep learning-based language models and few-shot prompting on large language models (LLMs) provides deep insights. We conclude that few-shot prompting on LLMs has abysmal performance, whereas the fine-tuned spaCy-transformer emerges as the best model with macro-F1 scores of 95.9%, 96.04%, and 95.71% for the manually-annotated, augmented, and machine-annotated datasets, respectively.
연구 동기 및 목표
- 강건한 NER 훈련을 위한 레시피 재료 구문(수동, 증강, 기계 주석)으로 구성된 크고 다양한 데이터셋을 생성한다.
- 레시피 데이터에서 전통적 NER 방법과 딥러닝 NER 방법을 벤치마킹하여 최첨단 성능을 확립한다.
- 데이터 증강 및 샘플링 전략을 평가하여 다양성과 모델 일반화를 극대화한다.
- 레시피 NER를 위한 대형 언어 모델의 소수-shot 프롬프트 가능성을 평가한다.
- 레시피 텍스트에서 어떤 엔티티 유형이 더 도전적인지 이해하기 위한 태그별 학습 가능성을分析한다.
제안 방법
- 데이터셋 구성: 6,611개의 재료 구문에 대한 수작업 주석, 26,445구문으로의 증강, 레시피DB에서 생성된 기계 주석 코퍼스 총 349,762구문 SEFS 클러스터링으로 조정.
- 토큰 정규화와 조리 전문가의 오류 패턴 수정으로 데이터 전처리.
- 모델 구성: Stanford NER(CRF) 재구현 및 인코더 기반 모델(BERT, DistilBERT, RoBERTa, DistilRoBERTa)과 NLP 프레임워크(spaCy, flair) 파인튜닝.
- 학습 설정: SGD로 파인튜닝된 기본 모델, 학습률 0.01, NVIDIA A100에서 배치 크기 44로 최대 12에폭.
- 평가: 세 가지 데이터셋(수동 주석, 증강, 기계 주석)에서 macro-F1, 정밀도, 재현율.
- LLM의 소수-shot 프롬프팅 실험(LLaMA, Mistral, Vicuna 등)으로 지도 학습 미세조정과의 비교.
실험 결과
연구 질문
- RQ1대규모의 다양하고 레시피 재료 구문 데이터 집합이 레시피 텍스트의 NER 성능을 향상시킬 수 있는가?
- RQ2어떤 NER 모델링 접근법(CRF 기준선 대 인코더 기반 트랜스포머 모델)이 레시피 데이터에서 가장 높은 macro-F1을 보이는가?
- RQ3데이터 증강 및 기계 주석 데이터가 NER 성능에 도움이 되는가, 아니면 해를 끼치는가?
- RQ4현재 LLM의 소수-shot 프롬프트가 미세조정 없이도 레시피 NER에 효과적인가?
- RQ5레시피 NER의 태그별 학습 가능성 패턴은 어떤가(예: 어떤 엔티티 유형이 더 쉽거나 어려운가)?
주요 결과
- spaCy-transformer가 세 가지 데이터셋 모두에서 최고의 macro-F1 점수를 달성: 수동 주석 95.9%, 증강 96.04%, 기계 주석 95.71%.
- 증강 데이터가 일부 모델에서 미미한 이점을 주는 반면, 기계 주석 데이터는 노이즈를 도입하고 성능을 약간 저하시킬 수 있다.
- Distil 변형은 종종 기본 BERT 모델과 경쟁하거나 이를 능가하며, 과적합 및 노이즈 민감도 감소 때문일 수 있다.
- 상태 최첨단 LLM에서의 소수-shot 프롬프팅은 매크로-F1 점수가 낮게 나타났으며(모델에 따라 5.88~32.90% 범위), 미세조정 없이는 도메인 적응이 제한적임을 시사한다.
- Quantity 태그는 빠르게 학습하는 반면 Temperature 태그는 뒤처지며, 데이터 빈도가 학습 가능성과 모델의 기억 의존성에 영향을 준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.