QUICK REVIEW

[논문 리뷰] dna2vec: Consistent vector representations of variable-length k-mers

Patrick Ng|arXiv (Cornell University)|2017. 01. 23.

Topic Modeling참고 문헌 6인용 수 147

한 줄 요약

dna2vec는 가변 길이 k-mer에 대해 단어2vec 스타일의 스킵그램 모델을 사용하여 분산된 고정 차원 임베딩을 학습하고, 벡터 산술이 뉴클레오티드 연결을 반영하며 Needleman-Wunsch 유사성과 상관관계가 있음을 보인다.

ABSTRACT

One of the ubiquitous representation of long DNA sequence is dividing it into shorter k-mer components. Unfortunately, the straightforward vector encoding of k-mer as a one-hot vector is vulnerable to the curse of dimensionality. Worse yet, the distance between any pair of one-hot vectors is equidistant. This is particularly problematic when applying the latest machine learning algorithms to solve problems in biological sequence analysis. In this paper, we propose a novel method to train distributed representations of variable-length k-mers. Our method is based on the popular word embedding model word2vec, which is trained on a shallow two-layer neural network. Our experiments provide evidence that the summing of dna2vec vectors is akin to nucleotides concatenation. We also demonstrate that there is correlation between Needleman-Wunsch similarity score and cosine similarity of dna2vec vectors.

연구 동기 및 목표

원-핫 k-mer 표현에서 차원의 저주를 극복하도록 동기를 부여한다.
일반 벡터 공간에서 가변 길이 k-mer 임베딩을 제안한다.
dna2vec 벡터 산술이 뉴클레오티드 연결을 반영함을 보여준다.
임베딩 유사성을 전통적인 시퀀스 정렬 지표와 관련지어 본다.
생물학적 시퀀스에 대한 다운스트림 머신러닝에 대한 잠재적 응용을 보여준다.

제안 방법

게놈을 길고 겹치지 않는 조각들로 변환하고 필요에 따라 역 상보를 사용한다.
Uniform(k_low, k_high)에서 샘플링된 k로 슬라이딩 윈도우를 사용하여 중첩되는 가변 길이 k-mer를 생성한다.
target k-mer 주변의 맥락 k-mer를 예측하기 위해 word2vec을 따르는 얕은 2계층 신경망(skip-gram)을 훈련한다.
집계된 모델을 k-mer 길이별로 분해하여 최근접 이웃 탐색에 대해 개별 모델로 만든다.

실험 결과

연구 질문

RQ1가변 길이 k-mer가 길이가 다르더라도(3 ≤ k ≤ 8) 일관된 벡터 공간에 임베딩될 수 있는가?
RQ2dna2vec 임베딩이 뉴클레오티드 연결에 상응하는 벡터 산술을 지원하는가?
RQ3임베딩 코사인 유사도와 기존 시퀀스 유사도 측정치(예: Needleman-Wunsch) 사이에 관계가 있는가?
RQ4임베딩된 k-mer의 최근접 이웃 관계가 생물학적 시퀀스 유사성과 어떻게 관련되는가?

주요 결과

Operands	Concatenated	1-NN	5-NN	10-NN
3-mer + 3-mer	6-mer	28.7%	80.3%	94.6%
3-mer + 4-mer	7-mer	49.9%	90.4%	97.4%
3-mer + 5-mer	8-mer	53.9%	94.0%	98.4%
4-mer + 4-mer	8-mer	73.5%	96.8%	99.2%

dna2vec는 서로 다른 길이의 k-mer를 공통의 100차원 공간에 임베딩한다.
두 k-mer의 벡터 합은 종종 그들의 연결에 해당하는 최근접 이웃을 생성하여 뉴클레오티드 연결 비유를 뒷받침한다.
dna2vec 벡터 간 코사인 유사도는 Needleman-Wunsch 유사도 점수와 상관관계를 보이며(보고된 분석에서 Spearman ρ ≈ 0.831).
임베딩 공간에서 k-mer의 최근접 이웃은 무작위 쌍과는 다른 정렬 유사도 분포를 보이는 경향이 있어 생물학적으로 의미 있는 구조를 시사한다.
유추 실험은 강한 결합과 약한 결합 모두에서 상당한 정확도를 보이며, 예를 들어 강한/제한된 연결은 길이가 다르더라도 높은 비유 점수를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.