[논문 리뷰] Exploring parameter-efficient fine-tuning (PEFT) of billion-parameter vision models with QLoRA and DoRA: insights into generalization for limited-data image classification under a 98:1 test-to-train regime
논문은 DINOv3에 대해 학습From-Scratch, 고정 특징(frozen features), 그리고 PEFT(QLoRA와 DoRA)를 9가지 유제품우 행동에 대해 체계적으로 비교하고, 98:1의 테스트-학습 비 regime에서 PEFT가 필요한 학습 데이터와 자원 대비 최첨단 정확도를 달성함을 보여준다.
Automated behavior classification is essential for precision livestock farming but faces challenges of high computational costs and limited labeled data. This study systematically compared three approaches: training from scratch (ResNet-18, ViT-Small), frozen feature extraction, and parameter-efficient fine-tuning (PEFT) of the DINOv3 foundation model (6.7 billion parameters). We evaluated QLoRA and DoRA across multiple configurations varying rank (8, 16, 64) and target modules (q_proj versus all-linear layers). With 2,160 verified training images, we assessed generalization of our model on 211,800 test samples, which is essentially a 98:1 test-to-train ratio. Results demonstrated that PEFT substantially outperformed alternatives, where the best QLoRA configuration (all-linear layers and rank=64) achieved 83.16% test accuracy with only 2.72% parameters (183.0M) in 5.8 hours, compared to 72.87% for ResNet-18 (16.8 hours), 61.91% for ViT-Small (18.7 hours), and 76.56% for frozen DINOv3 (17.5 hours). DoRA achieved comparable accuracy (83.14%) but with longer training time (11.0 hours). Notably, increasing adapter capacity consistently improved generalization while simultaneously not causing overfitting: reducing rank from 16 to 8 decreased test accuracy from 78.38% to 77.17%, while expanding from q_proj-only to all-linear layers with rank=64 improved accuracy from 78.38% to 83.16%. This suggests underfitting, instead of overfitting, is the primary challenge when adapting foundation models to agricultural imagery. Our findings provide guidelines for deploying billion-parameter vision models with PEFT in agricultural livestock applications.
연구 동기 및 목표
- 농업 영상에 대한 한정된 라벨 데이터로 비전 모델의 일반화를 평가한다.
- 학습From-Scratch, Frozen feature 추출, PEFT의 세 가지 학습 패러다음을 대규모 파운데이션 모델에 대해 체계적으로 비교한다.
- QLoRA와 DoRA의 PEFT 하이퍼파라미터(랭크와 타깃 모듈)를 평가한다.
- PEFT 기반 파운데이션 모델을 이용한 산업적 가축 모니터링에 대한 실용적 배포 가이드를 제공한다.
제안 방법
- PEFT를 사용하여 DINOv3(6.7B 파라미터)를 QLoRA와 DoRA로 미세조정한다.
- 백본을 4비트로 양자화하고 저랭크 어댑터를 주입한다; 랭크 r을 {8,16,64}로, 타깃 모듈을 {q_proj, all-linear}로 변화시킨다.
- 80에포크 학습, 배치 크기 4(그래디언트 축적으로 유효 32), 학습률 1e-4, 워밍업 및 코사인 감소 스케줄; 혼합 정밀도 및 그래디언트 체크포인팅 사용
- 데이터: 2,160개의 학습 이미지(9개 행동 전 클래스당 80%), 증강 학습 세트; 540개의 검증 샘플과 211,800개의 테스트 샘플(두 곳 소스: MMCows, PlayBehaviour)
- 평가: 정확도, 가중치된 F1-점수, 클래스별 메트릭; 추론 시 지연 시간 및 처리량
실험 결과
연구 질문
- RQ1PEFT가 아주 제한된 학습 데이터로도 대규모 파운데이션 모델의 비전 분류에서 경쟁력 있는 성능을 이끌어낼 수 있는가?
- RQ2QLoRA와 DoRA가 정확도, 학습 효율성, 어댑터 구성의 안정성 측면에서 어떻게 비교되는가?
- RQ3어댑터 용량(랭크)와 범위(q_proj 대 all-linear)가 이 도메인에서 일반화 대 과적합에 어떤 영향을 미치는가?
- RQ4사전 학습된 특징 추출기나 전체 미세조정이 가축 행동 분류에서 PEFT 대비 이점을 제공하는가?
- RQ5정밀 가축 사육에서 PEFT 기반 파운데이션 모델을 배포하기 위한 실용적 가이드라인은 무엇인가?
주요 결과
| 방법 | 대상 | 랭크 | 학습 가능 매개변수 | 학습 시간 | 테스트 정확도 | 테스트 F1 |
|---|---|---|---|---|---|---|
| ResNet-18 (scratch) | — | — | 11.2M (100%) | 16h 45m | 72.87% | 0.7526 |
| ViT-Small (scratch) | — | — | 21.7M (100%) | 18h 39m | 61.91% | 0.6600 |
| DINOv3 (frozen) | — | — | 4.7M (0.07%) | 17h 27m | 76.56% | 0.7691 |
| QLoRA | q_proj | 8 | 2.6M (0.04%) | 6h 32m | 77.17% | 0.7646 |
| QLoRA | q_proj | 16 | 5.2M (0.08%) | 7h 16m | 78.38% | 0.7753 |
| QLoRA | all-linear | 16 | 46.8M (0.70%) | 4h 43m | 80.40% | 0.8069 |
| QLoRA | all-linear | 64 | 183.0M (2.72%) | 5h 46m | 83.16% | 0.8380 |
| DoRA | q_proj | 8 | 2.8M (0.04%) | 11h 31m | 81.53% | 0.8182 |
| DoRA | q_proj | 16 | 5.4M (0.08%) | 10h 27m | 81.03% | 0.8153 |
| DoRA | all-linear | 16 | 48.4M (0.72%) | 11h 51m | 81.23% | 0.8139 |
| DoRA | all-linear | 64 | 184.5M (2.75%) | 10h 59m | 83.14% | 0.8338 |
- PEFT는 9종 유제품우 행동에서 학습From-Scratch 및 Frozen feature 추출에 비해 상당히 우수한 성능을 보이며; 최적 QLoRA 구성(all-linear, rank=64)은 테스트 정확도 83.16%를 달성한다.
- DoRA는 최적 QLoRA 구성과 비교해 학습 시간은 약간 길지만 유사한 성능(테스트 정확도 83.14%)을 달성한다.
- 어댑터 용량 상승(더 높은 랭크나 더 넓은 타깃 모듈)은 일반화를 꾸준히 향상시키며 과적합보다 과소적합이 주요 문제임을 시사한다.
- QLoRA와 DoRA는 최적 설정 하에서 총 파라미터의 아주 작은 부분(총량의 0.04%에서 2.72%까지)으로 약 83% 테스트 정확도에 도달한다.
- PEFT 구성의 학습 시간은 크게 줄어들며(예: QLoRA all-linear 64의 5h 46m) 전체 미세조정 베이스라인 대비 최대 약 18h까지도 단축된다.
- 구성마다 QLoRA와 DoRA의 어댑터 선택에 대한 민감도가 다르게 나타나며, DoRA가 더 안정적인 성능을 제공하는 경우가 많다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.