QUICK REVIEW

[논문 리뷰] From Language to Action in Arabic: Reliable Structured Tool Calling via Data-Centric Fine-Tuning

Omer Nacar, Deema Alquffari|arXiv (Cornell University)|2026. 03. 04.

Natural Language Processing Techniques인용 수 0

한 줄 요약

논문은 다국어 다이어렉트에서 신뢰할 수 있는 구조화된 도구 호출을 달성하기 위해 데이터 세트 감사, 스키마 수리 및 도구 인식 프롬프트 재구성으로 훈련된 아랍어 중심의 완전 파인튜닝 기능 호출 모델(AISA-AR-FunctionCall, 270M)을 제시한다. 구문 분석 실패를 크게 줄이고 함수 이름 정확도에서 큰 향상을 보이며, 남은 의미적 오류에 대한 분석과 추론 보강 변형을 제시한다.

ABSTRACT

Function-calling language models are essential for agentic AI systems that translate natural language into executable structured actions, yet existing models exhibit severe structural instability when applied to Arabic. We present AISA-AR-FunctionCall, a production-oriented Arabic function-calling framework built on a 270M-parameter FunctionGemma backbone and trained through systematic dataset auditing, schema repair, tool-aware prompt restructuring, and full-parameter supervised fine-tuning. On a held-out test set, fine-tuning reduces parse failures from 87\% to below 1\%, improves function name accuracy by more than eightfold, and substantially enhances argument alignment across dialects and domains. Error analysis reveals a transition from structural collapse to semantic misalignment, suggesting that serialization stability and decision-level reasoning are separable challenges. We further explore a reasoning-augmented LoRA variant that introduces explicit intermediate reasoning prior to tool invocation. All datasets and models are publicly released under the AISA framework.

연구 동기 및 목표

다언어 LLM 및 아랍어 NLP에서의 아랍어 도구 호출의 신뢰성 격차를 해결하기 위해 아랍어 우선의 함수 호출 데이터셋과 완전 파인 튜닝 모델을 구축한다.
다이어렉트와 도메인 전반에서 구조적 안정성, 인자 정렬 및 도구 선택 정확도를 개선한다.
생산에 적합한 아랍어 에이전트 시스템을 가능하게 하는 아키텍처적 및 데이터 중심 파이프라인(AISA)을 제안한다.
도구 호출 전에 중간 추론을 평가하기 위한 추론 보강 변형을 탐구한다.

제안 방법

베이스 모델로 FunctionGemma 270M을 시작으로 전체 매개변수 감독 학습 파인튜닝을 수행한다.
아랍어 기능 호출 데이터셋의 스키마 일관성을 보장하고 노이즈를 줄이기 위해 데이터 감사 및 수리를 수행한다.
열거형(normalization) 정규화, 도구 축소(36→27 도구) 및 확률적 도구 샘플링 전략을 적용하여 프롬프트 길이를 제한하고 감독을 강화한다.
그레이디언트를 도우미의 함수 호출 토큰에 집중시키기 위해 완성만 마스킹된 FunctionGemma 형식으로 학습 데이터를 직렬화한다.
AISA-AR-FunctionCall에서 41,104개의 학습 샘플, 4,568개의 검증 샘플, 5,079개의 테스트 샘플로 두 에폭 동안 8-bit AdamW 및 그래디언트 체크포인팅으로 학습한다.
명시적 <think> 추론 흔적을 도구 호출 전제에 두는 추론 보강 LoRA 변형(AISA-AR-FunctionCall-Think)을 탐구한다.

실험 결과

연구 질문

RQ1데이터 중심의 미세 조정과 스키마 인식 감독으로 아랍어 함수 호출이 안정적인 구조적 실행에 도달할 수 있는가?
RQ2데이터 세트 감사, 열거형 정규화 및 도구 축소가 다이어렉트 전반의 안정성, 파싱 성공률 및 인자 정렬에 어떤 영향을 미치는가?
RQ3생산 환경과 유사한 설정에서 추론 보강 방식이 도구 선택 및 인자 추출에 미치는 영향은 무엇인가?
RQ4엄격하고 배포 유사한 평가에서 도메인과 다이어렉트 전반에서 아랍어 기능 호출 시스템의 강건성은 어느 정도인가?
RQ5아키텍처적 실천(AISA) 및 거버넌스 인식 파이프라인이 생산용 아랍어 에이전트의 재현성 및 안전성을 향상시키는가?

주요 결과

Dialect	Baseline	FT Model
MSA	0.0862	0.7613
Gulf	0.0526	0.6972
Egyptian	0.0493	0.6834
Levantine	0.0633	0.6948
Maghrebi	0.0452	0.6158

미세 조정으로 파싱 실패가 기초 87%에서 1% 미만으로 감소했다.
전체 파인튜닝 후 함수 이름 정확도가 8배 이상 향상되었다.
핵심-수준 및 정확 값 평가에서 인자 정렬 지표가 개선되었고, 필요 기능이 false인 경우 음수 포기(정확도 100%)는 여전히 완벽하다.
미세 조정 후 다이어렉트에서 주요 다이어렉트 전체에서 68% 이상, 표준화 한국어에서 76% 이상으로 상승하여 이전의 다이어렉트 간 격차가 감소했다.
여덟 개 도메인에서 도구 이름 정확도는 구조화 도메인(Utilities, Travel, Weather, Islamic Services)에서 가장 강하고, 절차적 복잡성으로 인해 Government Services는 더 어렵다.
오류 분포는 구문 분석 실패에서 의미적 불일치로 이동했고, 남은 오류로는 도구 잘못 라우팅 및 인자 불일치가 포함된다.
추론 보강 변형(Think)은 배포형 평가에서 도구 호출을 거의 완벽하게 달성하지만, 형식 검증기가 추론 토큰 직렬화를 지적할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.