Skip to main content
QUICK REVIEW

[논문 리뷰] Can an LLM Detect Instances of Microservice Infrastructure Patterns?

Carlos Eduardo Duarte, Neil B. Harrison|arXiv (Cornell University)|2026. 03. 24.
Software System Performance and Reliability인용 수 0
한 줄 요약

이 논문은 MicroPAD를 제시한다. MicroPAD는 다중 언어에 걸친 마이크로서비스 인프라 패턴을 자연어 패턴 설명을 사용해 탐지하는 LLM 기반 도구이며, GPT-5 Nano로 190개 저장소에서 평가되었다.

ABSTRACT

Architectural patterns are frequently found in various software artifacts. The wide variety of patterns and their implementations makes detection challenging with current tools, especially since they often only support detecting patterns in artifacts written in a single language. Large Language Models (LLMs), trained on a diverse range of software artifacts and knowledge, might overcome the limitations of existing approaches. However, their true effectiveness and the factors influencing their performance have not yet been thoroughly examined. To better understand this, we developed MicroPAD. This tool utilizes GPT 5 nano to identify architectural patterns in software artifacts written in any language, based on natural-language pattern descriptions. We used MicroPAD to evaluate an LLM's ability to detect instances of architectural patterns, particularly infrastructure-related microservice patterns. To accomplish this, we selected a set of GitHub repositories and contacted their top contributors to create a new, human-annotated dataset of 190 repositories containing microservice architectural patterns. The results show that MicroPAD was capable of detecting pattern instances across multiple languages and artifact types. The detection performance varied across patterns (F1 scores ranging from 0.09 to 0.70), specifically in relation to their prevalence and the distinctiveness of the artifacts through which they manifest. We also found that patterns associated with recognizable, dominant artifacts were detected more reliably. Whether these findings generalize to other LLMs and tools is a promising direction for future research.

연구 동기 및 목표

  • 다중 언어 산출물 전반에 걸친 언어 비무관적 아키텍처 패턴 탐지의 필요성 동기 부여.
  • 언어별 파서 없이 마이크로서비스 인프라 패턴을 탐지하는 LLM 기반 파이프라인 MicroPAD를 제안.
  • 평가를 위한 Richardson의 마이크로서비스 패턴으로 레이블링된 인간 주석 데이터세트를 생성.
  • 패턴별 탐지 성능을 평가하고, 산물의 보급성 및 구별성 등 성공에 영향을 미치는 요인을 분석."

제안 방법

  • 자연어 패턴 설명과 예시 사례로부터 패턴 프로필을 개발합니다.
  • 다단계 파이프라인(Pattern Profile 생성, 파일 경로 결정, 패턴 탐지)과 LLM 추론 흔적을 사용합니다.
  • 대용량 코드베이스를 관리하기 위해 임베딩과 키워드 매칭으로 분석 대상 파일을 우선순위화합니다.
  • 저장소 주요 기여자 설문을 통한 정답 Ground Truth를 얻고 정밀도, 재현율, 정확도, F1을 계산합니다.
  • 탐지 성능에 대한 산물 영향 분석을 위한 File Dominance Index(FDI)를 도입합니다.
  • 혼동 행렬과 아홉 가지 Richardson 패턴에 대한 패턴별 지표를 보고합니다.

실험 결과

연구 질문

  • RQ1RQ1: 언어 비무관적 LLM 기반 접근 방식이 소프트웨어 산출물에서 마이크로서비스 인프라 패턴 인스턴스를 탐지하는 성능은 어느 정도입니까?
  • RQ2RQ2: 소프트웨어 저장소의 산물이 LLM 기반 접근 방식의 마이크로서비스 인프라 패턴 인스턴스 탐지 능력에 어떤 영향을 미칩니까?

주요 결과

Predicted PositivePredicted NegativeActual PositiveActual Negative
114 (TP)234 (FN)--
116 (FP)1,246 (TN)--
  • MicroPAD는 9개 패턴 전반에 대해 79.5%의 정확도, 49.6%의 정밀도, 32.8%의 재현율, F1 점수 39.5%를 달성했습니다.
  • F1 점수는 0.70(서비스 인스턴스 당 컨테이너)에서 0.09(3자 파티 등록)까지 범위입니다.
  • 패턴 보급성과 F1 점수 간에 강한 양의 상관관계가 있습니다(r = 0.74).
  • 지배적 산물이 있는 패턴(예: Docker, Terraform, Kubernetes 관련)은 더 높은 탐지 성능을 보이며 FDI가 FDI와 상관관계가 있습니다.
  • 패턴별 상위 분석 산물이 다르게 나타나며 일부 패턴은 지배적 파일이 없어 F1 점수가 낮은 경우가 있습니다(예: Service Registry).
  • F1 점수와 패턴당 최대 File Dominance Index(FDI) 간에 강한 양의 상관관계(r = 0.83)가 존재합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.