QUICK REVIEW

[論文レビュー] GPT-Signal: Generative AI for Semi-automated Feature Engineering in the Alpha Research Process

Yining Wang, John X. Zhao|arXiv (Cornell University)|Oct 24, 2024

Machine Learning and Data Classification被引用数 7

ひとこと要約

GPT-4 は、リターン予測型の金融シグナルの生成を半自動化するために使用され、6つの新しいシグナルを作成し、セクターと時間をまたいだアルファ予測モデルを改善します。

ABSTRACT

In the trading process, financial signals often imply the time to buy and sell assets to generate excess returns compared to a benchmark (e.g., an index). Alpha is the portion of an asset's return that is not explained by exposure to this benchmark, and the alpha research process is a popular technique aiming at developing strategies to generate alphas and gain excess returns. Feature Engineering, a significant pre-processing procedure in machine learning and data analysis that helps extract and create transformed features from raw data, plays an important role in algorithmic trading strategies and the alpha research process. With the recent development of Generative Artificial Intelligence(Gen AI) and Large Language Models (LLMs), we present a novel way of leveraging GPT-4 to generate new return-predictive formulaic alphas, making alpha mining a semi-automated process, and saving time and energy for investors and traders.

研究の動機と目的

アルファ研究と定量的金融におけるより効率的な特徴量エンジニアリングの必要性を動機づける。
金融データから新しいリターン予測シグナルを生成するために、Large Language Model (GPT-4) を用いた半自動化フレームワークを提案する。
複数のセクターと期間にわたるGPT生成シグナルの予測価値とロバスト性を評価する。
従来のシグナルとFama-MacBeth回帰を用いたベースラインモデルと比較して、拡張シグナルモデルを比較する。

提案手法

モデルが最初にシグナルとその効果を定義し、次に入力データから新しいシグナルを生成・洗練する、2段階の GPT-4 プロンプトワークフローを設計する（Langchainベース）。
信号生成における GPT-4 の推論を高めるために、ゼロショット連鎖思考プロンプティングを使用する。
シグナルを構築・正規化し、シグナルとリターンの関係を評価するためにSpearman順位相関とヒートマップを計算する。
Fama-MacBeth の二段回帰によるクロスセクショナル回帰と調整済みR2をパフォーマンス指標として、予測力を評価する。
10 個の既存シグナルと四半期リターン（2016–2020）を含むS&P 500セクター企業（IT、Health Care、Energy）のデータセットを使用する。
GPT-4 によって作成された6つの新しいシグナルを提示し、それらの寄与をベースラインモデルと比較する。

実験結果

リサーチクエスチョン

RQ1GPT-4 は金融データから将来のリターンと意味のある関係を持つ新規のリターン予測シグナルを生成できるか。
RQ2GPT生成シグナルは従来のシグナルで構築されたモデルより予測性能の向上を提供するか。
RQ3GPT生成シグナルはセクター（IT、Health Care、Energy）および異なる期間でロバストか。
RQ4GPT生成シグナルを拡張したモデルの相対的な説明力（例：調整済みR-squared）はベースラインモデルと比べてどうか。

主な発見

GPT-4 は表形式の金融データを分析し、説明付きの新規で非線形なシグナルを生成できる。
新しいシグナルはリターンと測定可能な相関を示し、ITセクターのヒートマップで絶対相関が最大で0.12に達する（多くの既存シグナルより高い）。
一つのシグナル（EVC）は新規シグナルと既存シグナルの間でリターンに対する絶対相関が最も高い。
Fama-MacBeth 回帰は、セクター全体で6つのGPT生成シグナルのうち5つがベースラインと比較して調整済みR2を改善している。
本アプローチは2016–2020の期間においてIT、Health Care、Energyセクター全体でGPT生成シグナルのロバスト性を示す。
GPT-4 は既存のシグナルを非線形・高次の方法で組み合わせ、単純な線形の組み合わせよりも優れる新規シグナルを作成する。
このフレームワークはGPT-4 のデータ処理と推論能力を活用することで特徴量エンジニアリングを加速する。

Figure 2: Sample output of GPT-4 after being asked to generate a new signal.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。