[논문 리뷰] GraphFormers: GNN-nested Transformers for Representation Learning on Textual Graph
GraphFormers는 GNNs와 Transformer 기반 텍스트 인코더를 계층별 GNN을 Transformer 계층 내부에 중첩하여 긴밀하게 결합합니다. 이를 통해 텍스트 그래프에 대한 반복적 공동 텍스트 인코딩 및 이웃 집계를 가능하게 합니다.
The representation learning on textual graph is to generate low-dimensional embeddings for the nodes based on the individual textual features and the neighbourhood information. Recent breakthroughs on pretrained language models and graph neural networks push forward the development of corresponding techniques. The existing works mainly rely on the cascaded model architecture: the textual features of nodes are independently encoded by language models at first; the textual embeddings are aggregated by graph neural networks afterwards. However, the above architecture is limited due to the independent modeling of textual features. In this work, we propose GraphFormers, where layerwise GNN components are nested alongside the transformer blocks of language models. With the proposed architecture, the text encoding and the graph aggregation are fused into an iterative workflow, {making} each node's semantic accurately comprehended from the global perspective. In addition, a {progressive} learning strategy is introduced, where the model is successively trained on manipulated data and original data to reinforce its capability of integrating information on graph. Extensive evaluations are conducted on three large-scale benchmark datasets, where GraphFormers outperform the SOTA baselines with comparable running efficiency.
연구 동기 및 목표
- 텍스트 그래프에서 텍스트와 그래프 정보를 공동으로 모델링함으로써 더 나은 표현을 고취시키고자 한다.
- 텍스트 인코딩과 그래프 집합화를 반복적 워크플로우로 융합하는 GNN-중첩 Transformer 아키텍처를 제안한다.
- 진보적 데이터 섭동과 단방향 그래프 주의(attention)를 통해 학습 및 효율성을 향상시킨다.
- 대규모 텍스트 그래프에서 실증적으로 검증하고 cascaded Transformer-GNN 베이스라인과 비교한다.
제안 방법
- 레이어별 GNN이 Transformer 블록과 함께 작동하여 각 계층에서 이웃 정보를 교환하는 GNN-중첩 Transformer를 도입한다.
- 학습 가능한 위치 바이어스가 있는 다중헤드 어텐션을 사용하여 그래프 집합화를 수행하고 그래프로 보강된 토큰 수준 임베딩을 생성한다.
- 그래프-보강 임베딩을 Transformer 계층으로 처리하여 최종 노드 표현을 생성한다.
- 선택적으로 단방향 그래프 집계를 적용하여 이웃 인코딩을 캐시하고 중복 계산을 줄인다.
- 그래프 정보 사용을 강제하기 위해 먼저 오염된 데이터로 학습하고, 그다음 원본 데이터로 미세 조정하는 두 단계의 점진적 학습 전략을 채택한다.
- 배치 내 음수와 비대칭 어텐션을 사용하여 쿼리-키-값 상호작용을 계산하는 링크 예측 목표로 학습한다.
실험 결과
연구 질문
- RQ1GNN-중첩 Transformer 아키텍처가 cascaded Transformer-GNN 베이스라인에 비해 텍스트 그래프에서의 링크 예측 성능을 향상시키나요?
- RQ2학습 전략(진보적 학습, 단방향 집계)이 표현 품질과 효율성에 어떤 영향을 미치나요?
- RQ3이웃의 수를 다르게 하는 것이 성능과 효율성에 어떤 영향을 미치나요?
- RQ4대규모 데이터셋에서 GraphFormers의 효율성이 cascaded 방식과 비교했을 때 어떤가요?
주요 결과
- GraphFormers는 세 가지 대규모 데이터셋(Product, DBLP, Wiki)에서 일관되게 cascaded Transformer-GNN 베이스라인을 능가한다.
- 경쟁 베이스라인 대비 상대 개선은 Product에서 2.9%, DBLP에서 4.8%, Wiki에서 6.5%로 보고된다.
- 더 풍부한 이웃 컨텍스트를 사용할수록 정밀도, NDCG, 및 MRR이 더 높아지나, 이웃이 더 많이 추가될수록 수익은 감소한다.
- 두 단계의 점진적 학습이 성능을 크게 향상시키는 반면, 단방향 그래프 집계는 정확도를 유지하면서 계산을 감소시킨다.
- 효율성 분석은 GraphFormers가 PLM+Max와 유사한 시간 및 메모리 비용을 가지며, 이웃 수가 많아져도 계층별 그래프 처리에서만 약간의 오버헤드가 있음을 시사한다.
- 아블레이션 연구는 점진적 학습의 가치를 확인하고 단순화된 단방향 접근의 강건성을 입증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.