Skip to main content
QUICK REVIEW

[논문 리뷰] Data Programming: Creating Large Training Sets, Quickly

Alexander Ratner, Christopher De|arXiv (Cornell University)|2016. 05. 25.
Machine Learning and Data Classification참고 문헌 29인용 수 359
한 줄 요약

이 논문은 약한 감독 신호를 레이블 함수로 통해 결합하고 이를 소거하여 노이즈에 강한 손실로 구별 모델을 학습하는 생성 모델 기반의 데이터 프로그래밍(data programming)을 제시하며, 수작업으로 라벨링된 예제가 훨씬 적은 수에도 감독 학습과 유사한 학습 속도를 달성한다.

ABSTRACT

Large labeled training sets are the critical building blocks of supervised learning methods and are key enablers of deep learning techniques. For some applications, creating labeled training sets is the most time-consuming and expensive part of applying machine learning. We therefore propose a paradigm for the programmatic creation of training sets called data programming in which users express weak supervision strategies or domain heuristics as labeling functions, which are programs that label subsets of the data, but that are noisy and may conflict. We show that by explicitly representing this training set labeling process as a generative model, we can "denoise" the generated training set, and establish theoretically that we can recover the parameters of these generative models in a handful of settings. We then show how to modify a discriminative loss function to make it noise-aware, and demonstrate our method over a range of discriminative models including logistic regression and LSTMs. Experimentally, on the 2014 TAC-KBP Slot Filling challenge, we show that data programming would have led to a new winning score, and also show that applying data programming to an LSTM model leads to a TAC-KBP score almost 6 F1 points over a state-of-the-art LSTM baseline (and into second place in the competition). Additionally, in initial user studies we observed that data programming may be an easier way for non-experts to create machine learning models when training data is limited or unavailable.

연구 동기 및 목표

  • 수작업 라벨링 데이터의 높은 비용과 확장 가능한 약한 감독의 필요성을 동기화한다.
  • 레이블링 함수들을 프로그래머블한 약한 감독 소스として 제안하여 대규모 학습 세트를 생성한다.
  • 레이블링 과정을 생성 그래프/포커 그래프 프레임워크로 모델링하여 라벨을 노이즈 제거하고 함수의 정확도와 의존성을 학습한다.
  • O(1) 개의 레이블링 함수와 O(ε^{-2}) 개의 비라벨링 데이터가 있을 때 특정 조건에서 학습 성능이 감독 학습 방법과 일치하는지를 보인다.
  • 도메인 전문가를 위한 사용성 인사이트를 포함하여 실제 관계 추출 작업에서의 성능 향상을 보여준다.

제안 방법

  • 레이블링 함수 λ: X → {-1,0,1}를 약한 감독 신호로 정의한다.
  • 레이블링 출력 Λ와 실제 라벨 Y의 결합 분포를 매개변수 α(정확도)와 β(커버리지)를 가지는 생성 모델 μ_{α,β}로 모델링한다.
  • unlabeled 데이터에서 SGD를 통해 최대우도 추정으로 α, β를 추정한다(Eq. 2).
  • 관찰된 Λ에 조건부인 수정된 로지스틱 손실 L_{α̂, β̂}를 최소화하여 노이즈 인식 판별 모델을 학습한다(Eq. 3).
  • 정확도·커버리지에 대한 추정치를 기반으로 한 이론적 보장: m개의 레이블링 함수와 |S|개의 비라벨링 샘플이 있을 때, E[‖α̂−α*‖²], E[‖β̂−β*‖²], 및 E[L(ŵ)−min_w L(w)]가 바람직하게 스케일하며 특정 조건에서 감독 학습 속도에 대응하는 샘플 복잡도를 나타낸다.
  • 레이블링 함수의 의존성을 고려하기 위한 의존 그래프를 포커 그래프 표현으로 확장하고, 보강된 매개변수 θ를 학습한다(Eq. 7–9).
  • 의존성이 있는 경우 Gibbs 샘플링과 SGD를 사용하고 독립 케이스와 유사한 학습 속도 보장을 확립한다.

실험 결과

연구 질문

  • RQ1적은 수의 사용자 정의 레이블링 함수(약한 감독 신호)들이 probabilistic 모델에 의해 노이즈 제거될 때, 구별 모델이 완전한 감독 학습 방법에 비견될 만큼의 성능을 낼 수 있는가?
  • RQ2레이블링 함수 간의 의존성 도입이 매개변수 학습 및 예측 성능에 어떤 영향을 미치는가?
  • RQ3데이터 프로그래밍의 이론적 샘플 복잡도 및 일반화 보장은 전통적 감독 학습과 비교하여 어떻게 달라지는가?
  • RQ4데이터 프로그래밍이 실제 NLP 작업에 확장 가능하며 자동 특성 생성(LSTMs 등)과 시너지 효과를 낼 수 있는가?

주요 결과

  • 데이터 프로그래밍은 레이블링 함수의 정확도와 의존성을 학습하여 약한 감독 신호를 노이즈 제거할 수 있다.
  • 특정 조건에서 프레임워크는 감독 학습 방법과 동일한 점근적 학습 속도를 달성하며, O(1) 개의 레이블링 함수와 Õ(ε^{-2}) 개의 비라벨링 데이터에서 가능하다.
  • 데이터 프로그래밍을 실제 세계의 관계 추출 작업에 적용한 결과, distant supervision 대조군 대비 평균 F1이 향상되었으며 TAC-KBP 2014 벤치마크에서 상태의 예측 LSTM 대조군 대비 대략 +6 F1 포인트 수준의 개선을 보였다.
  • LSTM으로 생성된 특징을 데이터 프로그래밍과 함께 사용한 경우 큰 이점을 보였으며, TAC-KBP(N=News)에서 정밀도 9.79포인트 개선 및 F1 3.12포인트 이점이 나타났다.
  • 생물정보학 연구자들을 대상으로 한 사용성 연구에서 레이블링 함수 개발은 비전문가도 더 빠르게 수행 가능하고 데이터 라벨링이 없거나 적은 경우에도 경쟁력 있는 모델을 가능하게 한다고 제시되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.