QUICK REVIEW

[論文レビュー] Application of LLM Agents in Recruitment: A Novel Framework for Resume Screening

Chengguang Gan, Qinghao Zhang|arXiv (Cornell University)|Jan 16, 2024

Topic Modeling被引用数 9

ひとこと要約

この論文は、LLM-エージェントベースのフレームワークを提案し、履歴書スクリーニングを自動化する。文の分類、グレーディング、要約、意思決定を含み、IT履歴書データセットを用いて時間効率の向上とF1/ROUGE指標の改善を検証する。

ABSTRACT

The automation of resume screening is a crucial aspect of the recruitment process in organizations. Automated resume screening systems often encompass a range of natural language processing (NLP) tasks. This paper introduces a novel Large Language Models (LLMs) based agent framework for resume screening, aimed at enhancing efficiency and time management in recruitment processes. Our framework is distinct in its ability to efficiently summarize and grade each resume from a large dataset. Moreover, it utilizes LLM agents for decision-making. To evaluate our framework, we constructed a dataset from actual resumes and simulated a resume screening process. Subsequently, the outcomes of the simulation experiment were compared and subjected to detailed analysis. The results demonstrate that our automated resume screening framework is 11 times faster than traditional manual methods. Furthermore, by fine-tuning the LLMs, we observed a significant improvement in the F1 score, reaching 87.73\%, during the resume sentence classification phase. In the resume summarization and grading phase, our fine-tuned model surpassed the baseline performance of the GPT-3.5 model. Analysis of the decision-making efficacy of the LLM agents in the final offer stage further underscores the potential of LLM agents in transforming resume screening processes.

研究の動機と目的

自動化された履歴書スクリーニングを動機づけ、HRの作業負荷を削減し、大規模採用における効率を向上させる。
大規模データセットから履歴書を要約し、グレード付けできるLLM-エージェントフレームワークを提案する。
実際のIT履歴書データセットとシミュレートされた採用意思決定を用いてフレームワークを評価する。
文の分類、グレーディング、要約、最終意思決定に対するLLMのファインチューニングの影響を評価する。

提案手法

多様なフォーマットの履歴書を解析用に統一されたJSON構造へ変換する。
履歴書を文に分割し、各文を分類して構造化データを抽出する。
文の分類には指示形式のファインチューニング済みのLLaMA2-7B-chatを使用する。
HRエージェントを実装して履歴書をグレード付け・要約し、初期ワークロードにはGPT-3.5-Turbo、ベンチマークにはGPT-4を使用する。
±5の許容範囲でGPT-4が注釈したゴールドスタンダードと照合してグレーディング精度を評価する。
HR/CEO役割を模擬して意思決定を行いトップ候補を選出し、自動化と手動の時間を比較する。

実験結果

リサーチクエスチョン

RQ1LLM-エージェントフレームワークは履歴書の内容を自動的に抽出・グレード付け・要約できるか。
RQ2ファインチューニングと指示形式の入力は文の分類性能にどう影響するか。
RQ3手動の履歴書スクリーニングをLLMベースの自動化に置換したとき、速度と精度の向上はどの程度か。
RQ4異なるバックボーンLLM（LLaMA2系列、GPT-3.5-Turbo）はグレーディング精度と要約品質でどう比較されるか。
RQ5自動化された意思決定は最終候補選定において人間のHR推論と整合するか。

主な発見

Model	ROUGE-1	ROUGE-2	ROUGE-L	BLEU	Grade Accuracy
LLaMA2-7B (0-shot)	26.35	6.22	24.00	2.66	47.49
LLaMA2-13B (0-shot)	25.31	5.83	22.99	2.56	59.31
LLaMA2-70B (0-shot)	28.12	7.70	25.68	3.73	23.27
GPT-3.5-Turbo (0-shot)	34.75	12.34	31.92	7.31	47.61
GPT-3.5-Turbo (finetuned)	34.61	12.18	31.83	7.40	45.24
LLaMA2-7B (finetuned)	36.50	13.32	33.48	8.45	76.19
LLaMA2-13B (finetuned)	37.30	13.90	33.93	8.62	81.35

自動化フレームワークは総作業時間で手動スクリーニングの約11倍の速さ。
ファインチューニングにより指示形式で文の分類F1が87.73に向上。
ファインチューニング済みのLLaMA2-13BはROUGE-1/2/Lを37.30/13.90/33.93、グレード精度を81.35（GPT-3.5-Turboベースラインに対して）を達成。
HRエージェントとしてのGPT-3.5-TurboとGPT-4は強力な意思決定根拠を提供し、HR推論と一貫してトップ候補を選択。
ファインチューニング後にグレーディング誤差が減少；一部モデルはファインチューニング前に非数値のグレードを生成してゼログレーディングとなるケースがあり、ファインチューニング後に改善。
手動スクリーニングは838件の履歴書で約31時間、自動化パイプラインは約2時間55分で完了。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。