[논문 리뷰] TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs
TaskMatrix.AI는 다수의 API와 기성 모델을 오케스트레이션하기 위해 멀티모달 대화형 기초 모델을 두뇌로 사용하여 디지털 및 물리적 임무를 완료하는 수십만 개의 API와 기성 모델을 조정하는 생태계를 제안하며, 학습 가능한 정렬 및 API 주도 실행이 가능하다.
Artificial Intelligence (AI) has made incredible progress recently. On the one hand, advanced foundation models like ChatGPT can offer powerful conversation, in-context learning and code generation abilities on a broad range of open-domain tasks. They can also generate high-level solution outlines for domain-specific tasks based on the common sense knowledge they have acquired. However, they still face difficulties with some specialized tasks because they lack enough domain-specific data during pre-training or they often have errors in their neural network computations on those tasks that need accurate executions. On the other hand, there are also many existing models and systems (symbolic-based or neural-based) that can do some domain-specific tasks very well. However, due to the different implementation or working mechanisms, they are not easily accessible or compatible with foundation models. Therefore, there is a clear and pressing need for a mechanism that can leverage foundation models to propose task solution outlines and then automatically match some of the sub-tasks in the outlines to the off-the-shelf models and systems with special functionalities to complete them. Inspired by this, we introduce TaskMatrix.AI as a new AI ecosystem that connects foundation models with millions of APIs for task completion. Unlike most previous work that aimed to improve a single AI model, TaskMatrix.AI focuses more on using existing foundation models (as a brain-like central system) and APIs of other AI models and systems (as sub-task solvers) to achieve diversified tasks in both digital and physical domains. As a position paper, we will present our vision of how to build such an ecosystem, explain each key component, and use study cases to illustrate both the feasibility of this vision and the main challenges we need to address next.
연구 동기 및 목표
- 사전 학습 데이터 범위를 넘어서는 도메인 특화 작업을 처리하기 위해 파운데이션 모델을 다양한 API와 연결할 필요성을 동기 부여한다.
- 핵심 멀티모달 파운데이션 모델을 사용하여 실행 가능한 API 주도 계획을 생성하는 아키텍처를 제안한다.
- 확장 가능한 API 통합을 가능하게 하는 단일화된 문서 스키마를 갖춘 API 플랫폼을 정의한다.
- 가용 API에 맞게 파운데이션 모델과 API 셀렉터를 정렬하기 위한 피드백 학습 메커니즘을 도입한다.
- 멀티모달 콘텐츠 생성, 오피스 자동화, 로봇공학, 클라우드 서비스 전반에 걸친 잠재적 응용 사례를 시연한다.
제안 방법
- 4-구성요소 아키텍처를 정의한다: 멀티모달 대화형 기초 모델(MCFM), API 플랫폼, API 셀렉터, 및 API Executor.
- MCFM은 사용자 지시, 맥락 및 API 가용성을 기반으로 해결책 개요와 행동 코드를 생성한다.
- API Platform은 API 사용 및 구성을 촉진하기 위한 통합 스키마를 제공한다.
- API Selector는 의미적으로 관련 API를 검색하고 모듈식 도메인별 패키지를 지원한다.
- API Executor는 생성된 행동 코드를 실행하고 작업 만족 여부를 확인하는 검증 단계를 포함한다.
- Reinforcement Learning from Human Feedback (RLHF)를 도입하여 API 이해도와 작업 계획을 개선하고, API 개발자에 대한 피드백을 통해 API 문서를 개선한다.
실험 결과
연구 질문
- RQ1기초 모델을 사용해 방대한 API 모음에 매핑되는 실행 가능한 작업 개요를 생성하는 방법은 무엇인가?
- RQ2멀티모달 작업을 위한 확장 가능한 API 선택, 실행 및 검증을 가능하게 하는 어떤 아키텍처 메커니즘이 있는가?
- RQ3RLHF와 개발자 피드백이 시간이 지남에 따라 핵심 모델과 API 문서 간의 정렬을 어떻게 개선할 수 있는가?
- RQ4디지털 및 물리적 영역 전반에 걸쳐 파운데이션 모델과 수백만 개의 API를 연결하는 실용적 응용 사례는 무엇이며 그것의 실현 가능성을 어떻게 보여주는가?
주요 결과
- 이 아키텍처는 해결책 개요를 생성하고 API를 선택하며 행동 코드를 실행하여 순차적 작업 해결을 가능하게 한다.
- 통합된 API 문서 스키마와 API 플랫폼은 파운데이션 모델이 API를 쉽게 통합하고 재사용하는 것을 촉진한다.
- RLHF와 API 개발자에 대한 피드백은 더 빠른 학습, 더 나은 API 사용 및 시간이 지나며 개선된 문서를 촉진한다.
- 이 접근 방식은 콘텐츠 생성, 오피스 자동화, 로봇공학, IoT/컴퓨팅 작업을 포함한 디지털 및 물리적 작업 모두를 지원한다.
- 시스템은 명시적 행동 코드와 API 결과를 통해 해석 가능성에 중점을 두어 추적 가능한 작업 실행을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.