[論文レビュー] Learning Molecular Representation in a Cell
InfoAlign は、情報ボトルネックを用い複数デコーダで周辺の生物学的特徴と整合させ、近傍の生物学的特徴に合わせて、分子構造と細胞応答データをコンテキストグラフで統合することにより、最小限の十分な分子表現を学習し、分子特性予測とゼロ-shot 分子–形態学マッチングを改善します。
Predicting drug efficacy and safety <i>in vivo</i> requires information on biological responses (e.g., cell morphology and gene expression) to small molecule perturbations. However, current molecular representation learning methods do not provide a comprehensive view of cell states under these perturbations and struggle to remove noise, hindering model generalization. We introduce the <b>Infor</b>mation <b>Align</b>ment (InfoAlign) approach to learn molecular representations through the information bottleneck method in cells. We integrate molecules and cellular response data as nodes into a context graph, connecting them with weighted edges based on chemical, biological, and computational criteria. For each molecule in a training batch, InfoAlign optimizes the encoder's latent representation with a minimality objective to discard redundant structural information. A sufficiency objective decodes the representation to align with different feature spaces from the molecule's neighborhood in the context graph. We demonstrate that the proposed sufficiency objective for alignment is tighter than existing encoder-based contrastive methods. Empirically, we validate representations from InfoAlign in two downstream applications: molecular property prediction against up to 27 baseline methods across four datasets, plus zero-shot molecule-morphology matching.
研究の動機と目的
- 分子構造と細胞形態および遺伝子発現といった細胞応答を組み込むことで、全体的な分子表現学習を促進する。
- 分子と細胞の撹乱を結ぶコンテキストグラフベースのフレームワークを開発し、強力なボトルネック表現を学習する。
- デコーダーベースの整合の理論的・経験的利点を、エンコーダーベースの対比法より示す。
- 複数のデータセットにわたり、分子特性予測とゼロショット分子–形態学マッチングにおけるInfoAlignを評価する。
提案手法
- 分子、細胞形態、遺伝子発現をノードとし、化学的・生物学的・計算的基準で重み付けされたエッジを持つ細胞内コンテキストグラフを構築する。
- コンテキストグラフ上でランダムウォークを用いて、各訓練分子 X の近傍ノードを特定する。
- X から潜在表現 Z を出力するエンコーダ f_theta を訓練しつつ、歩行に沿って近傍ノードの特徴を再構成する複数のデコーダ g_phi を用いる。
- 最小性目的 I(X;Z) と充足性目的 sum_v in P_X I(Z; psi(v)) を最適化し、変分境界 (I_DLB と I_EUB) を用いて近似し、クロスエントロピー損失とKL正則化を加える。
- デコーダベースの境界 I_DLB は encoder ベースの InfoNCE 境界 I_ELB よりも厳密な相互情報量の下限を提供することを主張する。
- 分子特性予測やゼロ-shot 分子–形態学マッチングなどの下流タスクにエンコーダ/デコーダをファインチューニングする。

実験結果
リサーチクエスチョン
- RQ1InfoAlign は冗長な情報を除去しつつ十分な生物学的信号を保持することで、モダリティを横断して一般化する分子表現を生み出すか。
- RQ2複数のデコーダを備えたコンテキストグラフに根ざした情報ボトルネックが、分子特性予測とゼロ-shot クロスモーダルマッチングでエンコーダのみの対比法を上回るか。
- RQ3歩行長さや事前強さといったハイパーパラメータが、最小性と充足性のバランスおよび下流性能にどのように影響するか。
主な発見
- InfoAlign は、分子特性予測の3つの分類データセットと1つの回帰データセットにおいて、最大で19件のベースラインを上回る。
- Broad6K 分類で +10.58%、Biogen3K 回帰で +6.33% の改善を、最高ベースラインと比較して達成。
- InfoAlign は2つの分子–形態学データセットで強力なゼロショット分子–形態学マッチングを示し、多くの設定で CLOOME および InfoCORE を上回る。
- デコーダベースの整合はエンコーダーベースの InfoNCE 境界よりも厳密な相互情報量の境界を提供し、提案手法の理論的優位性を裏付ける。
- 実験では、細胞形態と遺伝子発現の特徴が分子構造を補完し、InfoAlign がモダリティ横断のボトルネック表現を捉えて、より良い一般化を実現。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。