QUICK REVIEW

[논문 리뷰] Application of LLM Agents in Recruitment: A Novel Framework for Resume Screening

Chengguang Gan, Qinghao Zhang|arXiv (Cornell University)|2024. 01. 16.

Topic Modeling인용 수 9

한 줄 요약

이 논문은 문장 분류, 평가, 요약 및 의사결정을 포함하여 이력서 선별을 자동화하기 위한 LLM-에이전트 기반 프레임워크를 제안하고, IT 이력서 데이터셋으로 시간 효율성 증가와 F1/ROUGE 지표 개선을 통해 이를 검증한다.

ABSTRACT

The automation of resume screening is a crucial aspect of the recruitment process in organizations. Automated resume screening systems often encompass a range of natural language processing (NLP) tasks. This paper introduces a novel Large Language Models (LLMs) based agent framework for resume screening, aimed at enhancing efficiency and time management in recruitment processes. Our framework is distinct in its ability to efficiently summarize and grade each resume from a large dataset. Moreover, it utilizes LLM agents for decision-making. To evaluate our framework, we constructed a dataset from actual resumes and simulated a resume screening process. Subsequently, the outcomes of the simulation experiment were compared and subjected to detailed analysis. The results demonstrate that our automated resume screening framework is 11 times faster than traditional manual methods. Furthermore, by fine-tuning the LLMs, we observed a significant improvement in the F1 score, reaching 87.73\%, during the resume sentence classification phase. In the resume summarization and grading phase, our fine-tuned model surpassed the baseline performance of the GPT-3.5 model. Analysis of the decision-making efficacy of the LLM agents in the final offer stage further underscores the potential of LLM agents in transforming resume screening processes.

연구 동기 및 목표

자동화된 이력서 선별을 통해 HR 업무부담을 줄이고 대규모 채용의 효율성을 높이는 목표.
대용량 데이터세트에서 이력서를 요약하고 평가할 수 있는 LLM-에이전트 프레임워크를 제안.
실제 IT 이력서 데이터셋과 시뮬레이션 채용 의사결정을 사용하여 프레임워크를 평가.
문장 분류, 평가, 요약 및 최종 의사결정에 대해 LLM의 파인튜닝 효과를 평가.

제안 방법

다양한 포맷의 이력서를 분석에 맞게 통합된 JSON 구조로 변환.
이력서를 문장으로 분할하고 각 문장을 분류하여 구조화된 데이터를 추출.
문장 분류를 위한 지시 형식(instruction format)으로 미세조정된 LLaMA2-7B-chat 사용.
이력서를 평가하고 요약하기 위한 HR 에이전트를 구현하며, 초기 작업에는 GPT-3.5-Turbo를, 평가 벤치마크엔 GPT-4를 사용.
±5 허용오차의 GPT-4 주석 골드 표준과의 비교로 채점 정확도 평가.
HR/CEO 역할로 의사결정을 시뮬레이션하여 상위 후보자 선발 및 자동화 vs 수작업 시간 비교.

실험 결과

연구 질문

RQ1LLM-에이전트 프레임워크가 이력서 내용을 자동으로 추출하고 등급화하고 요약하는 것을 효과적으로 수행할 수 있는가?
RQ2미세조정과 지시 형식 입력이 문장 분류 성능에 어떤 영향을 미치는가?
RQ3이력서 선별을 수작업에서 LLM 기반 자동화로 대체할 때 속도와 정확도 측면의 성능 향상은 어떠한가?
RQ4서로 다른 백본 LLM(LLaMA2 계열, GPT-3.5-Turbo)이 채점 정확도와 요약 품질에서 어떻게 비교되는가?
RQ5자동화된 의사결정이 최종 후보자 선발에서 인간 HR의 추론과 일치하는가?

주요 결과

모델	ROUGE-1	ROUGE-2	ROUGE-L	BLEU	Grade Accuracy
LLaMA2-7B (0-shot)	26.35	6.22	24.00	2.66	47.49
LLaMA2-13B (0-shot)	25.31	5.83	22.99	2.56	59.31
LLaMA2-70B (0-shot)	28.12	7.70	25.68	3.73	23.27
GPT-3.5-Turbo (0-shot)	34.75	12.34	31.92	7.31	47.61
GPT-3.5-Turbo (finetuned)	34.61	12.18	31.83	7.40	45.24
LLaMA2-7B (finetuned)	36.50	13.32	33.48	8.45	76.19
LLaMA2-13B (finetuned)	37.30	13.90	33.93	8.62	81.35

자동화 프레임워크는 총 소요 시간에서 수작업 이력서 선별보다 약 11배 빠르다.
지시 형식으로의 파인튜닝이 문장 분류 F1을 87.73까지 향상시켰다.
파인튜닝된 LLaMA2-13B는 ROUGE-1/2/L이 37.30/13.90/33.93이고 등급 정확도는 81.35(대조: GPT-3.5-Turbo 기반선)이다.
GPT-3.5-Turbo와 GPT-4는 HR 에이전트로서 강력한 의사결정 근거를 제공했고, HR 추론과 일치하는 상위 후보를 지속적으로 선택했다.
파인튜닝 이후 채점 오차가 감소했고, 일부 모델은 파인튜닝 전 비숫자 등급으로 인해 0점 채점 항목이 나오는 등 비정상적 등급 문제가 개선됐다.
수작업 스크리닝 시간은 838개 이력서에 대해 약 31시간이었고, 자동화 파이프라인은 약 2시간 55분에 완료됐다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.