[論文レビュー] EyeLayer: Integrating Human Attention Patterns into LLM-Based Code Summarization
EyeLayer はコード要約のためのデコーダー-およびエンコーダーベースのモデルに人間の視線注目 priors を組み込み、アーキテクチャ間で一貫した改善をもたらし、BLEU-4 改善は最大で 13.17% に達する。
Code summarization is the task of generating natural language descriptions of source code, which is critical for software comprehension and maintenance. While large language models (LLMs) have achieved remarkable progress on this task, an open question remains: can human expertise in code understanding further guide and enhance these models? We propose EyeLayer, a lightweight attention-augmentation module that incorporates human eye-gaze patterns, as a proxy of human expertise, into LLM-based code summarization. EyeLayer models human attention during code reading via a Multimodal Gaussian Mixture, redistributing token embeddings based on learned parameters (μ_i, σ_i^2) that capture where and how intensively developers focus. This design enables learning generalizable attention priors from eye-tracking data and incorporating them into LLMs seamlessly, without disturbing existing representations. We evaluate EyeLayer across diverse model families (i.e., LLaMA-3.2, Qwen3, and CodeBERT) covering different scales and architectures. EyeLayer consistently outperforms strong fine-tuning baselines across standard metrics, achieving gains of up to 13.17% on BLEU-4. These results demonstrate that human gaze patterns encode complementary attention signals that enhance the semantic focus of LLMs and transfer effectively across diverse models for code summarization.
研究の動機と目的
- 人間の注意信号が標準的なファインチューニングを超える形で LLM ベースのコード要約を高めるかを動機づける。
- 視線追跡データを priors として用いる軽量で移植可能な注意 Augmentation モジュールを提案する。
- 多様なモデルファミリとスケールを横断して手法の一般化を示す。
- 再現性を支える実装とデータセットを公開する。
提案手法
- 学習済みガウス混合分布によりコードトークン埋め込みを再分配するMultimodal Gaussian EyeLayer を導入する。
- compact なコード埋め込みからガウスパラメータ (mu_k, sigma_k^2) を予測し、アクティブモードを選択するスパースゲート機構を用いる。
- 因果性を保ちながら隠れ状態へ因果認識可能な残差摂動を介してデコーダー専用トランスフォーマーへ人間と整合した注意を注入する。
- eye-tracking データを三段階の AST-to-subtoken アライメント・パイプラインを介してサブトークン表現へ橋渡しする。
- L_gen + L_align を用いた PCGrad により、対立する勾配を管理しつつ、コード要約データと補助的な eye-tracking アライメントデータの共同訓練を行う。
- CodeXGLUE Java ベンチマーク上で five models(CodeBERT、LLaMA-3.2 1B/3B、Qwen-3 1.7B/4B)を BLEU-4、ROUGE-L、METEOR、BERTScore の指標で評価する。

実験結果
リサーチクエスチョン
- RQ1RQ1: EyeLayer は標準の監督付きファインチューニングと比較してコード要約の quality を改善するか。
- RQ2RQ2: トランスフォーマー・スタック内の EyeLayer の配置は性能にどう影響するか。
- RQ3RQ3: EyeLayer は encoder のみのアーキテクチャへどの程度一般化するか。
- RQ4RQ4: マルチモーダル設計の寄与は性能にどの程度寄与するか。
主な発見
| Model | BLEU-4 | ROUGE-L | METEOR | BERTScore |
|---|---|---|---|---|
| Llama3.2-1B | 14.31 | 22.12 | 27.45 | 87.55 |
| Llama3.2-1B + EyeLayer | 16.18 | 23.51 | 29.33 | 88.51 |
| Llama3.2-3B | 15.64 | 24.57 | 29.83 | 88.29 |
| Llama3.2-3B + EyeLayer | 16.86 | 25.25 | 31.04 | 88.72 |
| Qwen3-1.7B | 13.36 | 21.39 | 26.60 | 86.04 |
| Qwen3-1.7B + EyeLayer | 15.12 | 26.67 | 32.03 | 86.38 |
| Qwen3-4B | 15.24 | 23.73 | 29.45 | 85.87 |
| Qwen3-4B + EyeLayer | 17.22 | 25.30 | 31.31 | 86.27 |
- EyeLayer は評価対象の全モデルと指標で一貫した改善をもたらす。
- BLEU-4 の改善は一部のモデル(例:Qwen-3 4B)で最大 1.98 ポイントに達する。
- Qwen-3-1.7B は ROUGE-L と METEOR の大幅なゲイン(それぞれ 5.28、5.43)を示す。
- デコーダー専用モデルで EyeLayer を用いると、BLEU、ROUGE、METEOR、BERTScore の語彙的・意味的指標で利益が得られる。
- 本手法はアーキテクチャ横断の移植性と大規模 LLM へのスケーラビリティ、より小さなエンコーダへの適用性を示す。
- EyeLayer は評価設定で最大 13.17% の絶対 BLEU-4 増分を達成する(概要で記載のとおり)。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。