QUICK REVIEW

[논문 리뷰] Deep Motif Dashboard: Visualizing and Understanding Genomic Sequences Using Deep Neural Networks

Jack Lanchantin, Ritambhara Singh|arXiv (Cornell University)|2016. 08. 12.

Genomics and Chromatin Dynamics참고 문헌 15인용 수 25

한 줄 요약

이 논문은 전사 인자 결합 부위(TFBS) 분류를 위한 깊이 신경망(DNN) 모델을 해석하기 위해 시각화 툴킷인 딥 모티프 디시판드(DeMo Dashboard)를 소개한다. 이 툴킷은 기울기 기반 중요도 맵, 시간에 따른 출력 점수, 클래스별 최적화를 통해 작동하며, CNN-RNN 아키텍처가 다른 모델들보다 뛰어난 성능을 보였다. 시각화 결과는 이 모델이 모티프뿐만 아니라 장거리 의존성까지 포착하고 있음을 보여주며, 전사 인자가 특정 게놈 서열에 결합하는 이유를 설명한다.

ABSTRACT

Deep neural network (DNN) models have recently obtained state-of-the-art prediction accuracy for the transcription factor binding (TFBS) site classification task. However, it remains unclear how these approaches identify meaningful DNA sequence signals and give insights as to why TFs bind to certain locations. In this paper, we propose a toolkit called the Deep Motif Dashboard (DeMo Dashboard) which provides a suite of visualization strategies to extract motifs, or sequence patterns from deep neural network models for TFBS classification. We demonstrate how to visualize and understand three important DNN models: convolutional, recurrent, and convolutional-recurrent networks. Our first visualization method is finding a test sequence's saliency map which uses first-order derivatives to describe the importance of each nucleotide in making the final prediction. Second, considering recurrent models make predictions in a temporal manner (from one end of a TFBS sequence to the other), we introduce temporal output scores, indicating the prediction score of a model over time for a sequential input. Lastly, a class-specific visualization strategy finds the optimal input sequence for a given TFBS positive class via stochastic gradient optimization. Our experimental results indicate that a convolutional-recurrent architecture performs the best among the three architectures. The visualization techniques indicate that CNN-RNN makes predictions by modeling both motifs as well as dependencies among them.

연구 동기 및 목표

유전체 분야에서 깊이 신경망(DNN)의 해석 가능성 문제를 해결하기 위해, 특히 전사 인자 결합 부위(TFBS) 분류에 초점을 맞춘다.
연구자들이 DNN 모델이 전사 인자 결합에 대해 특정 예측을 내리는 이유를 이해하는 데 도움이 되는 시각화 툴킷을 개발한다.
TFBS 분류 작업에서 세 가지 DNN 아키텍처—CNN, RNN, CNN-RNN—의 성능와 해석 가능성의 차이를 비교한다.
모티프 매칭 도구를 사용하여 각 모델의 내부 표현이 알려진 생물학적 모티프와 얼마나 일치하는지 평가한다.
DNN의 시각화를 통해 기존에 알려진 모티프 외에도 전통적인 모티프 탐지 도구가 놓칠 수 있는 모티프 간의 장거리 의존성을 드러낼 수 있음을 보여준다.

제안 방법

모델의 예측에 가장 영향을 미치는 뉴클레오타이드를 강조하기 위해 일阶 도함수를 사용한 기울기 기반 중요도 맵을 생성한다.
순차적 입력에 대해 시간에 따른 출력 점수를 추적하여, 모델의 예측 신뢰도 변화를 분석함으로써 서열 내에서 중요한 위치를 파악한다.
클래스별 최적화를 위해 확률적 경사 하강법을 사용하여 양성 TFBS 클래스에 가장 적합한 입력 서열을 생성한다.
세 가지 아키텍처—합성곱 신경망(CNN), 순환 신경망(RNN), 하이브리드 CNN-RNN 모델—을 평가한다.
비교 분석을 위해 시각화로부터 유도된 모티프를 기존 JASPAR 모티프와 비교하기 위해 Tomtom을 사용한다.
성능 평가에는 57개의 TF 데이터셋에서 AUC 점수와 모티프 매칭 정확도를 사용한다.

실험 결과

연구 질문

RQ1CNN, RNN, 또는 CNN-RNN 중 어느 DNN 아키텍처가 TFBS 분류에서 가장 우수한 성능을 보이며, 그 이유는 무엇인가?
RQ2기울기 기반 중요도 맵과 시간에 따른 출력 점수로 DNN이 게놈 서열 분류 과정에서 어떻게 결정을 내리는지 어떻게 드러내는가?
RQ3클래스별 최적화를 통해 유의미한 생물학적 모티프를 얼마나 잘 생성할 수 있으며, 이는 알려진 전사 인자 결합 패tern과 얼마나 일치하는가?
RQ4시각화 기법을 통해 전통적인 모티프 탐지 도구가 간과할 수 있는 모티프 간의 장거리 의존성을 얼마나 잘 드러낼 수 있는가?
RQ5DNN에서 시각화된 모티프가 JASPAR 데이터베이스에 기록된 기존 모티프와 얼마나 잘 일치하는가?

주요 결과

CNN-RNN 아키텍처가 세 모델 중에서 가장 높은 AUC 점수를 기록하여 TFBS 분류 과제에서 CNN과 RNN을 모두 앞섰다.
기울기 기반 중요도 맵은 어려운 서열(NFYB)에서 CNN-RNN이 두 개의 별도된 영역에 집중하고 있음을 보여주었으며, 이는 CNN과 RNN이 실패한 상황에서 정확한 분류를 가능하게 했다.
시간에 따른 출력 점수 분석 결과, 모델이 알려진 JASPAR 모티프 근처에서 예측 신뢰도가 급격히 증가하며 음성에서 양성 예측으로 전환됨을 확인하여, 핵심 결합 위치를 파악할 수 있었다.
클래스 최적화를 통해 유사한 모티프 패턴을 가진 서열을 생성하였으며, CNN은 가장 명확한 모티프 유형의 패턴을 보였고, CNN-RNN은 복잡한 의존성을 포착하였다.
Tomtom을 이용한 모티프 매칭 결과, CNN이 가장 정확하게 모티프를 추출했으며(57개 TF 중 19개 매칭), 이는 CNN-RNN(13개 매칭), RNN(11개 매칭)을 이르렀다.
결과적으로 CNN은 모티프 탐지에서 뛰어난 성능를 보이지만, CNN-RNN의 강점은 모티프 간의 의존성을 모델링하는 데 있으며, 이는 전체 성능 향상에 기여한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.