[논문 리뷰] Machine Learning as a Tool (MLAT): A Framework for Integrating Statistical ML Models as Callable Tools within LLM Agent Workflows
MLAT는 사전 학습된 통계 ML 모델을 호출 가능한 도구로 LLM 에이전트 워크플로에 노출하여 맥락 기반의 근거 있는 예측을 구조화된 출력에 통합합니다; 작은 데이터 regime에서 듀얼 에이전트 제미니 설정으로 PitchCraft 가격 책정을 통해 시연.
We introduce Machine Learning as a Tool (MLAT), a design pattern in which pre-trained statistical machine learning models are exposed as callable tools within large language model (LLM) agent workflows. This allows an orchestrating agent to invoke quantitative predictions when needed and reason about their outputs in context. Unlike conventional pipelines that treat ML inference as a static preprocessing step, MLAT positions the model as a first-class tool alongside web search, database queries, and APIs, enabling the LLM to decide when and how to use it based on conversational context. To validate MLAT, we present PitchCraft, a pilot production system that converts discovery call recordings into professional proposals with ML-predicted pricing. The system uses two agents: a Research Agent that gathers prospect intelligence via parallel tool calls, and a Draft Agent that invokes an XGBoost pricing model as a tool call and generates a complete proposal through structured outputs. The pricing model, trained on 70 examples combining real and human-verified synthetic data, achieves R^2 = 0.807 on held-out data with a mean absolute error of 3688 USD. The system reduces proposal generation time from multiple hours to under 10 minutes. We describe the MLAT framework, structured output architecture, training methodology under extreme data scarcity, and sensitivity analysis demonstrating meaningful learned relationships. MLAT generalizes to domains requiring quantitative estimation combined with contextual reasoning.
연구 동기 및 목표
- 사전 학습된 ML 모델이 LLM 에이전트 레지스트리 내 도구로 노출되는 MLAT 설계 패턴을 정형화한다.
- PitchCraft와 같은 운영 환경을 모방한 시스템에서 엔드투엔드 MLAT 구현을 시연하여 ML 예측 가격이 반영된 제안을 생성한다.
- JSON 스키마를 활용하여 구조화된 출력 파싱이 LLM의 추론과 ML 피처 벡터를 연결하는 방법을 보여준다.
- 실제 데이터와 합성 데이터를 합쳐 소량의 데이터에서 그룹 인지 검증을 포함한 극심한 데이터 부족 환경에서 MLAT를 평가한다.
제안 방법
- MLAT를 에이전트 제어 도구 호출 패턴으로 정의하고, LLM이 구조화된 맥락에서 피처 벡터를 추출하고 훈련된 모델에 호출하여 예측을 얻는다.
- ML 모델을 무상태 REST 엔드포인트 도구로 등록하고 스키마 제약 추출 및 출력 스키마를 사용하여 LLM의 추론과 ML 입력을 연결한다.
- 제미니의 JSON 스키마 제약을 사용하여 신뢰할 수 있는 구조화된 출력 파싱과 연구/작성 에이전트 간의 계약을 가능하게 한다.
- 작은 데이터셋(N=70)에 대해 XGBoost 회귀 모델을 훈련하되 40개의 실제 레코드와 30개의 합성 레코드를 사용하고, 그룹 인지 교차검증 및 특징 공학(8개 특징, tech_stack의 원-핫 인코딩)을 적용한다.
- 학습된 경제적 관계를 검증하기 위한 민감도 분석과 교차 검증 기반 성능 평가를 수행한다.

실험 결과
연구 질문
- RQ1훈련된 ML 모델을 도구로 노출하는 것이 LLM 에이전트 워크플로에서 맥락적 의사결정과 예측의 해석가능성을 향상시키는가?
- RQ2합성 보강이 있는 저데이터 환경에서 MLAT 패턴은 예측 정확도와 일반화 측면에서 어떻게 작동하는가?
- RQ3구조화된 출력 파싱이 연구원과 Draft 에이전트 간의 신뢰할 수 있는 피처 추출 및 상호 에이전트 커뮤니케이션을 가능하게 하는가?
- RQ4MLAT가 실제 제안 생성 및 가격 책정과 같은 운영 환경 작업에 미치는 영향은 무엇인가?
주요 결과
| 지표 | 훈련 세트 | 테스트 세트 | 교차 검증 |
|---|---|---|---|
| R^2 | 0.937 | 0.807 | 0.816±0.060 |
| MAE | 2,328 | 3,688 | 3,898±629 |
| RMSE | 2,874 | 4,720 | — |
| Relative MAE | 14.3% | 22.6% | 23.9% |
- XGBoost 가격 모델은 보류된 테스트 데이터에서 R^2 = 0.807, MAE = 3,688, RMSE = 4,720를 달성하며 70샘플 체제에서의 성능을 보인다.
- 교차 검증 R^2는 0.816(±0.060)으로, 작은 데이터 및 합성 보강에도 불구하고 일반화가 안정적임을 나타낸다.
- PitchCraft 전체 파이프라인은 제안서 작성 시간을 3시간 이상에서 10분 이내로 단축하고, 리드 확보 속도를 12–18배 가속한다.
- 민감도 분석 결과, 통증 심도 증가 및 통합 복잡도 증가에 따라 가격이 경제적으로 일관되게 상승하는 경향이 있어, 암기보다는 학습된 의미 있는 관계를 시사한다.
- Ridge 회귀와 비교했을 때 XGBoost는 CV R^2가 상당히 더 우수하며(0.816±0.060 대 0.565±0.180), 비선형 피처 상호작용이 중요함을 확인한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.