[논문 리뷰] dna2vec: Consistent vector representations of variable-length k-mers
dna2vec는 가변 길이 k-mer에 대해 단어2vec 스타일의 스킵그램 모델을 사용하여 분산된 고정 차원 임베딩을 학습하고, 벡터 산술이 뉴클레오티드 연결을 반영하며 Needleman-Wunsch 유사성과 상관관계가 있음을 보인다.
One of the ubiquitous representation of long DNA sequence is dividing it into shorter k-mer components. Unfortunately, the straightforward vector encoding of k-mer as a one-hot vector is vulnerable to the curse of dimensionality. Worse yet, the distance between any pair of one-hot vectors is equidistant. This is particularly problematic when applying the latest machine learning algorithms to solve problems in biological sequence analysis. In this paper, we propose a novel method to train distributed representations of variable-length k-mers. Our method is based on the popular word embedding model word2vec, which is trained on a shallow two-layer neural network. Our experiments provide evidence that the summing of dna2vec vectors is akin to nucleotides concatenation. We also demonstrate that there is correlation between Needleman-Wunsch similarity score and cosine similarity of dna2vec vectors.
연구 동기 및 목표
- 원-핫 k-mer 표현에서 차원의 저주를 극복하도록 동기를 부여한다.
- 일반 벡터 공간에서 가변 길이 k-mer 임베딩을 제안한다.
- dna2vec 벡터 산술이 뉴클레오티드 연결을 반영함을 보여준다.
- 임베딩 유사성을 전통적인 시퀀스 정렬 지표와 관련지어 본다.
- 생물학적 시퀀스에 대한 다운스트림 머신러닝에 대한 잠재적 응용을 보여준다.
제안 방법
- 게놈을 길고 겹치지 않는 조각들로 변환하고 필요에 따라 역 상보를 사용한다.
- Uniform(k_low, k_high)에서 샘플링된 k로 슬라이딩 윈도우를 사용하여 중첩되는 가변 길이 k-mer를 생성한다.
- target k-mer 주변의 맥락 k-mer를 예측하기 위해 word2vec을 따르는 얕은 2계층 신경망(skip-gram)을 훈련한다.
- 집계된 모델을 k-mer 길이별로 분해하여 최근접 이웃 탐색에 대해 개별 모델로 만든다.
실험 결과
연구 질문
- RQ1가변 길이 k-mer가 길이가 다르더라도(3 ≤ k ≤ 8) 일관된 벡터 공간에 임베딩될 수 있는가?
- RQ2dna2vec 임베딩이 뉴클레오티드 연결에 상응하는 벡터 산술을 지원하는가?
- RQ3임베딩 코사인 유사도와 기존 시퀀스 유사도 측정치(예: Needleman-Wunsch) 사이에 관계가 있는가?
- RQ4임베딩된 k-mer의 최근접 이웃 관계가 생물학적 시퀀스 유사성과 어떻게 관련되는가?
주요 결과
| Operands | Concatenated | 1-NN | 5-NN | 10-NN |
|---|---|---|---|---|
| 3-mer + 3-mer | 6-mer | 28.7% | 80.3% | 94.6% |
| 3-mer + 4-mer | 7-mer | 49.9% | 90.4% | 97.4% |
| 3-mer + 5-mer | 8-mer | 53.9% | 94.0% | 98.4% |
| 4-mer + 4-mer | 8-mer | 73.5% | 96.8% | 99.2% |
- dna2vec는 서로 다른 길이의 k-mer를 공통의 100차원 공간에 임베딩한다.
- 두 k-mer의 벡터 합은 종종 그들의 연결에 해당하는 최근접 이웃을 생성하여 뉴클레오티드 연결 비유를 뒷받침한다.
- dna2vec 벡터 간 코사인 유사도는 Needleman-Wunsch 유사도 점수와 상관관계를 보이며(보고된 분석에서 Spearman ρ ≈ 0.831).
- 임베딩 공간에서 k-mer의 최근접 이웃은 무작위 쌍과는 다른 정렬 유사도 분포를 보이는 경향이 있어 생물학적으로 의미 있는 구조를 시사한다.
- 유추 실험은 강한 결합과 약한 결합 모두에서 상당한 정확도를 보이며, 예를 들어 강한/제한된 연결은 길이가 다르더라도 높은 비유 점수를 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.