[논문 리뷰] SMILES Enumeration as Data Augmentation for Neural Network Modeling of Molecules
이 논문은 비표준 SMILES를 열거하여 데이터 증강을 수행하고 LSTM 기반 QSAR 모델을 학습시켜 예측 성능을 향상시키며 분자당 열거된 SMILES 간 예측의 평균화를 통해 예측을 더 잘 평균화할 수 있게 한다.
Simplified Molecular Input Line Entry System (SMILES) is a single line text representation of a unique molecule. One molecule can however have multiple SMILES strings, which is a reason that canonical SMILES have been defined, which ensures a one to one correspondence between SMILES string and molecule. Here the fact that multiple SMILES represent the same molecule is explored as a technique for data augmentation of a molecular QSAR dataset modeled by a long short term memory (LSTM) cell based neural network. The augmented dataset was 130 times bigger than the original. The network trained with the augmented dataset shows better performance on a test set when compared to a model built with only one canonical SMILES string per molecule. The correlation coefficient R2 on the test set was improved from 0.56 to 0.66 when using SMILES enumeration, and the root mean square error (RMS) likewise fell from 0.62 to 0.55. The technique also works in the prediction phase. By taking the average per molecule of the predictions for the enumerated SMILES a further improvement to a correlation coefficient of 0.68 and a RMS of 0.52 was found.
연구 동기 및 목표
- SMILES 다양성을 활용한 소분자 QSAR 데이터셋에 대한 데이터 증강을 동기화한다.
- SMILES를 열거하는 것이 신경망 훈련 안정성과 일반화를 향상시킴을 보인다.
- Canonical 대 enumerated SMILES를 학습/테스트 설정에서 예측 성능을 평가한다.
- 동일한 분자에 대해 열거된 SMILES들의 예측 평균화의 이점을 보여준다.
제안 방법
- 무작위 원자 배열 변경과 RDKit을 사용하여 canonical SMILES를 비활성화한 상태에서 분자당 여러 SMILES를 생성한다.
- SMILES 문자열의 고정 길이 원-핫 인코딩 표현을 구성한다.
- Keras/Theano 백 엔드를 이용하여 SMILES 열거 여부에 관계없이 LSTM 기반 QSAR 모델을 학습한다.
- 정의된 공간에 대해 Gaussian 프로세스 기반의 베이지안 최적화를 통한 하이퍼파라미터 최적화를 수행한다.
- train/test 설정에서 canonical-only vs. enumerated 데이터셋의 성능을 비교한다.
- 예측에 대한 R^2, RMS 등의 지표를 계산하고, 분자당 열거된 예측의 평균을 평가한다.
실험 결과
연구 질문
- RQ1SMILES 열거를 데이터 증강으로 사용하는 것이 canonical SMILES만 사용하는 것과 비교하여 QSAR 모델의 성능을 향상시키는가?
- RQ2열거된 SMILES로 학습하는 것이 훈련 및 테스트 세트 모두에서 non-canonical SMILES로의 일반화에 어떤 영향을 미치는가?
- RQ3열거된 SMILES들의 예측 평균화가 예측 정확도에 어떤 영향을 미치는가?
- RQ4LSTM-QSAR 모델에서 canonical 대 enumerated SMILES를 사용할 때 최적의 하이퍼파라미터는 무엇인가?
- RQ5확대가 학습과 예측 단계 모두에 유익한가?
주요 결과
| 데이터셋 | Canonical Train R2 | Canonical Train RMS | Canonical Test R2 | Canonical Test RMS | Enumerated Train R2 | Enumerated Train RMS | Enumerated Test R2 | Enumerated Test RMS |
|---|---|---|---|---|---|---|---|---|
| Canonical | 0.78 | 0.46 | 0.56 | 0.62 | 0.85 | 0.39 | 0.63 | 0.56 |
| Enumerated | 0.25 | 0.88 | 0.26 | 0.84 | 0.87 | 0.37 | 0.66 | 0.55 |
- 열거된 SMILES 데이터셋은 학습 데이터를 대략 130배 확대한 것으로 나타났다(학습 canonical 602, 학습 enumerated 79,143; 테스트 71 canonical 대 9,412 enumerated).
- 최고의 canonical 모델 테스트 R^2 = 0.56 및 RMS = 0.62; 최고의 enumerated 모델 테스트 R^2 = 0.66 및 RMS = 0.55.
- 평균 열거된 SMILES를 사용한 분류의 테스트 세트 예측은 R^2 = 0.68 및 RMS = 0.52를 보였다.
- Enumerated 데이터로 학습된 enumeration 모델은 canonical 모델보다 더 높은 학습 R^2(0.87) 및 더 낮은 학습 RMS(0.37)를 달성했다(R^2 0.85, RMS 0.39).
- 가장 나쁜 경우는 canonical으로 학습된 모델에 enumerate SMILES를 사용하는 경우로 R^2 = 0.26, RMS = 0.84 이었다.
- Enumerated 데이터를 사용한 훈련은 더 큰 샘플 수로 인해 수렴이 덜 노이즈하고 더 빠른 유효 업데이트를 가능하게 했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.