Skip to main content
QUICK REVIEW

[논문 리뷰] dna2vec: Consistent vector representations of variable-length k-mers

Patrick Ng|arXiv (Cornell University)|2017. 01. 23.
Topic Modeling참고 문헌 6인용 수 147
한 줄 요약

dna2vec는 가변 길이 k-mer에 대해 단어2vec 스타일의 스킵그램 모델을 사용하여 분산된 고정 차원 임베딩을 학습하고, 벡터 산술이 뉴클레오티드 연결을 반영하며 Needleman-Wunsch 유사성과 상관관계가 있음을 보인다.

ABSTRACT

One of the ubiquitous representation of long DNA sequence is dividing it into shorter k-mer components. Unfortunately, the straightforward vector encoding of k-mer as a one-hot vector is vulnerable to the curse of dimensionality. Worse yet, the distance between any pair of one-hot vectors is equidistant. This is particularly problematic when applying the latest machine learning algorithms to solve problems in biological sequence analysis. In this paper, we propose a novel method to train distributed representations of variable-length k-mers. Our method is based on the popular word embedding model word2vec, which is trained on a shallow two-layer neural network. Our experiments provide evidence that the summing of dna2vec vectors is akin to nucleotides concatenation. We also demonstrate that there is correlation between Needleman-Wunsch similarity score and cosine similarity of dna2vec vectors.

연구 동기 및 목표

  • 원-핫 k-mer 표현에서 차원의 저주를 극복하도록 동기를 부여한다.
  • 일반 벡터 공간에서 가변 길이 k-mer 임베딩을 제안한다.
  • dna2vec 벡터 산술이 뉴클레오티드 연결을 반영함을 보여준다.
  • 임베딩 유사성을 전통적인 시퀀스 정렬 지표와 관련지어 본다.
  • 생물학적 시퀀스에 대한 다운스트림 머신러닝에 대한 잠재적 응용을 보여준다.

제안 방법

  • 게놈을 길고 겹치지 않는 조각들로 변환하고 필요에 따라 역 상보를 사용한다.
  • Uniform(k_low, k_high)에서 샘플링된 k로 슬라이딩 윈도우를 사용하여 중첩되는 가변 길이 k-mer를 생성한다.
  • target k-mer 주변의 맥락 k-mer를 예측하기 위해 word2vec을 따르는 얕은 2계층 신경망(skip-gram)을 훈련한다.
  • 집계된 모델을 k-mer 길이별로 분해하여 최근접 이웃 탐색에 대해 개별 모델로 만든다.

실험 결과

연구 질문

  • RQ1가변 길이 k-mer가 길이가 다르더라도(3 ≤ k ≤ 8) 일관된 벡터 공간에 임베딩될 수 있는가?
  • RQ2dna2vec 임베딩이 뉴클레오티드 연결에 상응하는 벡터 산술을 지원하는가?
  • RQ3임베딩 코사인 유사도와 기존 시퀀스 유사도 측정치(예: Needleman-Wunsch) 사이에 관계가 있는가?
  • RQ4임베딩된 k-mer의 최근접 이웃 관계가 생물학적 시퀀스 유사성과 어떻게 관련되는가?

주요 결과

OperandsConcatenated1-NN5-NN10-NN
3-mer + 3-mer6-mer28.7%80.3%94.6%
3-mer + 4-mer7-mer49.9%90.4%97.4%
3-mer + 5-mer8-mer53.9%94.0%98.4%
4-mer + 4-mer8-mer73.5%96.8%99.2%
  • dna2vec는 서로 다른 길이의 k-mer를 공통의 100차원 공간에 임베딩한다.
  • 두 k-mer의 벡터 합은 종종 그들의 연결에 해당하는 최근접 이웃을 생성하여 뉴클레오티드 연결 비유를 뒷받침한다.
  • dna2vec 벡터 간 코사인 유사도는 Needleman-Wunsch 유사도 점수와 상관관계를 보이며(보고된 분석에서 Spearman ρ ≈ 0.831).
  • 임베딩 공간에서 k-mer의 최근접 이웃은 무작위 쌍과는 다른 정렬 유사도 분포를 보이는 경향이 있어 생물학적으로 의미 있는 구조를 시사한다.
  • 유추 실험은 강한 결합과 약한 결합 모두에서 상당한 정확도를 보이며, 예를 들어 강한/제한된 연결은 길이가 다르더라도 높은 비유 점수를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.