[論文レビュー] Control Models for In-IDE Code Completion
この論文は、JetBrains IDEs で LLM ベースのコード補完を賢くゲートするためにトリガー(ブースティングベースまたはトランスフォーマー)とフィルター制御モデルを導入し、オフラインおよびオンライン評価で複数言語に渡り ~20% の推論削減と補完品質の向上を達成する。
We introduce control models for LLM-powered code completion in JetBrains IDEs: ML classifiers which trigger inference and filter the generated suggestions to better align them with users and reduce unnecessary requests. To this end, we evaluate boosting- and transformer-based architectures on an offline dataset of real code completions with n=98 users. We further evaluate the offline classification performance of our boosting-based approach on a range of syntactically diverse languages; and perform an A/B study in a production environment where they improve completion efficiency and quality metrics. With this study, we hope to demonstrate the potential in using auxiliary models for smarter in-IDE integration of LLM-driven features, highlight fruitful future directions, and open problems.
研究の動機と目的
- LLM 駆動のコード補完を開発者のフローに合わせる必要性を動機づけ、IDE 内の不要な推論を減らす。
- IDE テレメトリとコード文脈を用いて補完をゲートして洗練させる2 つの制御モデル(トリガーとフィルター)を提案する。
- オフラインと実生産環境でブースティングベースおよびトランスフォーマーベースの制御モデルを評価する。
- 補完の効率と品質の潜在的改善を示し、今後の方向性と課題を議論する。
提案手法
- 補完を推論すべきか決定するトリガー分類器と、生成された補完を表示するべきか決定するフィルター分類器の二つのモデルを開発する。
- 勾配ブースティング(CatBoost)による表形式モデルと、コード文脈を組み込むトランスフォーマー分類器を比較する。
- オフラインデータセット(多言語コード文脈:Kotlin、Python、PHP、C#)と IDE 内テレメトリを用いてモデルを訓練・評価する。
- オフライン指標(Symbols Completed(RoCC)、Accept Rate(AR)、Cancel Rate(CR))で評価し、実生産環境でのオンラインA/B実験で評価する。
- 異なる偽陰性率(FNR)と生成のフィルタリング割合が補完品質指標に与える影響を分析する。

実験結果
リサーチクエスチョン
- RQ1RQ1: オフラインの分類において、ブースティングベースのトリガー/フィルターはトランスフォーマーベースのアプローチと比較してどうか。
- RQ2RQ2: ブースティングベースの制御モデルは、Kotlin、Python、PHP、C# の各言語でオフライン推論削減と指標の点でどのように機能するか。
- RQ3RQ3: 実生産環境でのオンライン評価において、A/B テストでユーザー指向の指標はどう変化するか。
主な発見
- ブースティングベースの制御モデルは、オフライン分析で補完品質指標を改善しつつ推論リクエストを約20%削減できる。
- トランスフォーマーベースのモデルは強力な文脈フィルタリングを提供するが、表示される補完数が少ないためAccept/Cancel率の改善はブースティングモデルに劣る場合がある。
- ブースティングモデルは言語依存の効果を示し、ある言語ではトリガー制御の増加が指標に与える影響が異なる(例:Kotlin と PHP)。
- オンラインのA/B結果は、フィルターモデルがAccept RateとCancel Rateを改善する一方で完成コードの比率を減少させ、トリガーモデルは補完数を約20%削減するが、一部設定では生成回数の有意な低下は見られない。
- オフラインの結果は、トランスフォーマーモデルがより深い文脈の利点を提供できる一方で、デプロイ時のレイテンシとプライバシー課題に直面することを示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。