[논문 리뷰] Harnessing LLMs for API Interactions: A Framework for Classification and Synthetic Data Generation
이 논문은 LLM을 사용하여 자연어 입력을 API 호출로 분류하고 API-분류 성능을 평가하기 위해 여러 LLM에서 합성 데이터를 생성하는 프레임워크를 제시합니다. GPT-4가 테스트 모델 중 API 분류 작업에서 가장 높은 정확도를 달성합니다.
As Large Language Models (LLMs) advance in natural language processing, there is growing interest in leveraging their capabilities to simplify software interactions. In this paper, we propose a novel system that integrates LLMs for both classifying natural language inputs into corresponding API calls and automating the creation of sample datasets tailored to specific API functions. By classifying natural language commands, our system allows users to invoke complex software functionalities through simple inputs, improving interaction efficiency and lowering the barrier to software utilization. Our dataset generation approach also enables the efficient and systematic evaluation of different LLMs in classifying API calls, offering a practical tool for developers or business owners to assess the suitability of LLMs for customized API management. We conduct experiments on several prominent LLMs using generated sample datasets for various API functions. The results show that GPT-4 achieves a high classification accuracy of 0.996, while LLaMA-3-8B performs much worse at 0.759. These findings highlight the potential of LLMs to transform API management and validate the effectiveness of our system in guiding model testing and selection across diverse applications.
연구 동기 및 목표
- API 상호작용을 위한 자연어 인터페이스를 가능하게 하여 기술적 진입 장벽을 낮추도록 동기를 부여한다.
- NL 프롬프트를 API 호출로 분류하고 이를 실행하는 엔드-투-엔드 시스템을 개발한다.
- API 분류 작업에서 LLM을 벤치마크하고 비교하기 위한 합성 데이터 생성 파이프라인을 만든다.
- 맞춤형 API 관리에 대한 모델 적합도를 평가하기 위한 확장 가능한 방법론을 제공한다.
제안 방법
- 두 구성요소 시스템: (1) 정의된 API 계층 구조를 가진 NL 프롬프트를 API 호출로 매핑하는 API 검색/분류 파이프라인; (2) API 기능에 대한 라벨이 붙은 합성 NL 프롬프트를 생성하는 데이터셾 생성 파이프라인.
- 데이터셋 생성을 배치 프롬프트 방식으로 수행하여(배치당 100개의 합성 질의) JSON 형식으로 다양하고 라벨이 붙은 프롬프트를 생성하고, 수동 레이블 검증을 99.9% 정확도로 수행한다.
- 평가에는 여러 LLM(GPT-4, GPT-4o-mini, GPT-3.5-turbo, LLaMA3-70B, LLaMA3-8B, Gemini-1.5)을 사용하여 쿼리를 API 모듈과 기능으로 분류한다.
- 측정 지표로 모듈 수준 분류 정확도(MLC-Acc)와 기능 수준 분류 정확도(FLC-Acc)를 포함한다.
- 데이터셋은 Calculator, Notes, Weather, Email, Notification, Calendar의 여섯 개 API 모듈과 잘못된 호출을 테스트하기 위한 Routes-Not-Exist 모듈을 포함한다.
실험 결과
연구 질문
- RQ1최신 LLM들이 자연어 프롬프트를 미리 정의된 API 모듈 및 기능으로 얼마나 정확하게 분류할 수 있는가?
- RQ2다양한 API 모듈에 걸친 API 분류 성능에 대해 모델 크기와 아키텍처의 영향은 무엇인가?
- RQ3합성 데이터 생성이 API 관리 작업에 대한 신뢰할 수 있는 벤치마킹 및 모델 선택을 가능하게 하는가?
- RQ4제안된 프레임워크가 간단한 API 작업과 복잡한 API 작업에서 어떻게 수행되는가?
- RQ5맞춤형 API 관리 작업을 위한 LLM 선택에 대해 어떤 지침을 제공할 수 있는가?
주요 결과
- GPT-4가 전체 모듈/함수 분류 성능에서 가장 높음(보고된 결과에서 MLC-Acc 약 0.99, FLC-Acc 근처 0.996).
- LLaMA-3-70B 또한 강력한 성능을 보여줌(모듈 전반에서 높은 MLC-Acc 및 FLC-Acc).
- 작은 모델들(GPT-4o-mini, LLaMA3-8B 등)은 특히 더 복잡한 모듈에서 정확도가 현저히 감소하는 경향을 보이며, 이는 모델 크기가 작업 성능에 큰 영향을 미친다는 것을 시사한다.
- 데이터셋 생성 프레임워크는 여러 LLM의 API 분류 작업에 대한 빠르고 자동화된 벤치마킹을 가능하게 하며 사용 사례별로 가장 적합한 모델을 식별하는 데 도움이 된다.
- 이 시스템은 수동 검증이 포함된 고품질 합성 데이터 생성을 보여 주며 API 분류 기능의 확장 가능한 평가를 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.