[논문 리뷰] Feedback GAN (FBGAN) for DNA: a Novel Feedback-Loop Architecture for Optimizing Protein Functions
논문은 FBGAN을 도입하는데, 이는 외부 분석기를 사용하여 합성 DNA 서열을 원하는 단백질 특성으로 최적화하는 피드백 루프 GAN이며, 항균 펩타이드 및 알파-나선 형성에서 시演되었습니다.
Generative Adversarial Networks (GANs) represent an attractive and novel approach to generate realistic data, such as genes, proteins, or drugs, in synthetic biology. Here, we apply GANs to generate synthetic DNA sequences encoding for proteins of variable length. We propose a novel feedback-loop architecture, called Feedback GAN (FBGAN), to optimize the synthetic gene sequences for desired properties using an external function analyzer. The proposed architecture also has the advantage that the analyzer need not be differentiable. We apply the feedback-loop mechanism to two examples: 1) generating synthetic genes coding for antimicrobial peptides, and 2) optimizing synthetic genes for the secondary structure of their resulting peptides. A suite of metrics demonstrate that the GAN generated proteins have desirable biophysical properties. The FBGAN architecture can also be used to optimize GAN-generated datapoints for useful properties in domains beyond genomics.
연구 동기 및 목표
- GAN의 합성 생물학에서 짧은 길이의 단백질 코딩 DNA 서열을 생성하는 데 사용될 수 있음을 동기부여한다(≤50 amino acids).
- 생성된 서열을 외부(비미분가능한) 분석기를 통해 원하는 특성으로 최적화하는 피드백 루프 메커니즘을 제안한다.
- 두 가지 사용 사례를 시演한다: 항균 펩타이드에 대한 농도 증가 및 알파-나선형 이차 구조에 대한 농도 증가.
- 피드백 루프가 생성 데이터와 원하는 생물물리적 특성을 맞추고 유효한 유전자 구조를 유지하도록 함을 보인다.
제안 방법
- 그라디언트 페널티가 있는 워터슈틴 GAN을 사용하여 최대 156 뉴클레오타이드 길이의 단백질 코딩 DNA 서열을 생성한다.
- 최종 소프트맥스를 이산 뉴클레오타이드 출력에 대해 Gumbel Softmax로 대체한다.
- 길이가 156까지 패딩된 cDNA로 변환된 짧은 펩타이드를 다양하게 포함하는 Uniprot 유래 데이터셋으로 학습한다.
- 피드백 루프를 도입한다: 매 에폭마다 생성기 출력을 샘플링하고 외부 분석기로 점수를 매긴 후, 최고 점수의 서열을 실제 데이터로 판별기에 주입하고 가장 오래된 실제 데이터를 대체한다.
- 미분가능성을 요하지 않는 외부 분석기를 사용한다(예: 미분가능한 AMP 분류기나 PSIPRED 기반 이차 구조 예측기).
- AMP 케이스에서는 predictor로 두 개의 GRU 층을 가진 딥 RNN을 사용한다; 이차 구조 케이스에서는 PSIPRED를 블랙박스 예측기로 래핑하여 알파-나선 잔류수를 계산한다.
실험 결과
연구 질문
- RQ1GAN이 자연 서열과 유사한 물리화학 공간에서 현실적인 짧은 단백질 코딩 DNA 서열을 생성할 수 있는가?
- RQ2비미분가능한 외부 분석기를 사용하여 피드백 루프를 통해 GAN의 출력을 원하는 특성으로 이끌 수 있는가?
- RQ3AMP 중심 분석기와 알파-나선 중심 분석기가 각각의 특성에 대해 생성 서열을 성공적으로 농축시키는가?
- RQ4피드백 루프가 목표 특성을 최적화하면서도 유효한 유전자 구조를 보존하는가?
주요 결과
- 생성된 단백질 코딩 서열이 자연스러운 Uniprot cDNA 서열과 유사한 물리화학 공간에 위치하도록 50 amino acids(156 nucleotides)까지 생성된다(PCA 정렬).
- 학습 후 시작 코돈, 코돈, 종결 코돈으로 구성된 올바른 유전자 구조가 3.125%에서 77.08%로 향상된다.
- AMP 분석기로 가이드된 피드백으로 피드백 이후 60 에포크경에 0.8의 임계값에도 불구하고 항균으로 예측될 서열의 비율이 증가한다(>0.99 확률).
- AMP 지향 피드백 이후 생성된 단백질은 알려진 AMP에 대한 편집 거리(Edits) 감소 및 Length, Hydrophobicity, Aromaticity 등 여러 물리화학적 특성이 AMP와 같은 값으로 이동하는 경향을 보인다.
- PSIPRED 기반 이차 구조 피드백은 생성 펩타펩의 알파-나선 길이를 자연 단백질에 비해 증가시켜 이차 구조 최적화가 성공적으로 이루어졌음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.