[論文レビュー] From Language to Action in Arabic: Reliable Structured Tool Calling via Data-Centric Fine-Tuning
この論文は Arabic-focused の AISA-AR-FunctionCall を提示する。270M の完全微調整済みの関数呼び出しモデルで、データセット監査、スキーマ修復、ツール認識 prompts の再構成を通じ、方言全体で信頼性のある構造化ツール呼び出しを実現する。解析では解析失敗の劇的な低減と関数名正確度の大幅な向上が示され、残る意味論的エラーと推論拡張バリアントの分析も行われる。
Function-calling language models are essential for agentic AI systems that translate natural language into executable structured actions, yet existing models exhibit severe structural instability when applied to Arabic. We present AISA-AR-FunctionCall, a production-oriented Arabic function-calling framework built on a 270M-parameter FunctionGemma backbone and trained through systematic dataset auditing, schema repair, tool-aware prompt restructuring, and full-parameter supervised fine-tuning. On a held-out test set, fine-tuning reduces parse failures from 87\% to below 1\%, improves function name accuracy by more than eightfold, and substantially enhances argument alignment across dialects and domains. Error analysis reveals a transition from structural collapse to semantic misalignment, suggesting that serialization stability and decision-level reasoning are separable challenges. We further explore a reasoning-augmented LoRA variant that introduces explicit intermediate reasoning prior to tool invocation. All datasets and models are publicly released under the AISA framework.
研究の動機と目的
- multilingual LLMs と Arabic NLP におけるアラビア語ツール呼び出しの信頼性ギャップを埋めるため、アラビア語優先の関数呼び出しデータセットと完全微調整済みモデルを構築する。
- 方言やドメインを跨ぐ構造的安定性、引数整合性、ツール選択精度を向上させる。
- 本番向けのアラビア語エージェント系システムを可能にするためのアーキテクチャ的・データ指向のパイプライン(AISA)を提案する。
- ツール呼び出し前の中間推論を評価する推論拡張バリアントを探索する。
提案手法
- ベースモデルとして FunctionGemma 270M を出発点とし、全パラメータの教師あり微調整を実施。
- アラビア語の Function Calling データセットを監査・修復してスキーマ整合性を確保しノイズを削減。
- 列挙正規化、ツール絞り込み(36→27 ツール)、および確率的ツールサンプリング戦略を適用してプロンプト長を抑え、監督を増強。
- トレーニングデータを FunctionGemma 形式にシリアライズし、完了のみをマスキングしてアシスタントの関数呼び出しトークンへ勾配を集中。
- AISA-AR-FunctionCall を 41,104 のトレーニング例、4,568 の検証例、5,079 のテスト例で2エポック、8-bit AdamWと勾配チェックポイントを用いて学習。
- ツール呼び出し前の明示的な <think> 推論 traces を含む Reasoning-augmented LoRA 版(AISA-AR-FunctionCall-Think)を探索。
実験結果
リサーチクエスチョン
- RQ1アラビア語の関数呼び出しはデータ中心の微調整とスキーマ認識の監督で信頼性のある構造化実行に達し得るか?
- RQ2データセット監査、列挙正規化、ツール絞り込みは方言間の安定性、解析成功、引数整合性にどのような影響を与えるか?
- RQ3推論拡張アプローチは本番ライクな設定でのツール選択と引数抽出にどのような影響を与えるか?
- RQ4厳密およびデプロイメント相当の評価下で、アラビア語の関数呼び出しシステムはドメイン・方言を跨いでどれだけ堅牢か?
- RQ5アーキテクチャ的実践(AISA)とガバナンス対応パイプラインは生産環境のアラビア語エージェントの再現性と安全性を向上させるか?
主な発見
| Dialect | Baseline | FT Model |
|---|---|---|
| MSA | 0.0862 | 0.7613 |
| Gulf | 0.0526 | 0.6972 |
| Egyptian | 0.0493 | 0.6834 |
| Levantine | 0.0633 | 0.6948 |
| Maghrebi | 0.0452 | 0.6158 |
- ファインチューニングにより解析失敗率がベースラインの 87% から 1% 未満に低下。
- 完全微調整後、関数名の正確度が8倍近く向上。
- 引数整合性の指標はキー・レベルおよび正確値評価で改善;否定的な回避は要求された場合を除き常に完璧(false の場合は 100%)。
- ファインチューニング後、主要方言で 68%超、MSA で 76% 超の方言精度を達成し、前の方言間格差を縮小。
- 8つの領域でのツール名正確度は構造化領域(ユーティリティ、旅行、天気、イスラムサービス)で最も高く、手続きの複雑さから政府サービスはより難しい。
- エラー分布はベースラインの解析失敗からファインチューニング後の意味的ずれに転移し、残るエラーにはツールの誤ルーティングや引数不一致が含まれる。
- Reasoning-augmented 版(Think)はデプロイメント相当の評価でツール呼び出しをほぼ完璧に達成するが、正式な検証器は推論トークンのシリアライズを指摘する場合がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。