QUICK REVIEW

[논문 리뷰] Helping results assessment by adding explainable elements to the deep relevance matching model

Ioannis Chios, Suzan Verberne|arXiv (Cornell University)|2021. 06. 09.

Topic Modeling참고 문헌 22인용 수 24

한 줄 요약

이 논문은 DRMM 기반 검색 인터페이스에 설명 가능 요소를 추가합니다—쿼리 용어 가중치를 도넛 차트로 시각화하고 강조된 구절과 썸네일이 있는 구절 수준의 스니펫을 제공합니다—그리고 사용자 연구를 통해 이 인터페이스가 설명 가능성과 평가 가능성이 더 높지만 상위 5개 관련 문서를 선택하는 데에는 명확히 더 나은 것은 아님을 보여줍니다.

ABSTRACT

In this paper we address the explainability of web search engines. We propose two explainable elements on the search engine result page: a visualization of query term weights and a visualization of passage relevance. The idea is that search engines that indicate to the user why results are retrieved are valued higher by users and gain user trust. We deduce the query term weights from the term gating network in the Deep Relevance Matching Model (DRMM) and visualize them as a doughnut chart. In addition, we train a passage-level ranker with DRMM that selects the most relevant passage from each document and shows it as snippet on the result page. Next to the snippet we show a document thumbnail with this passage highlighted. We evaluate the proposed interface in an online user study, asking users to judge the explainability and assessability of the interface. We found that users judge our proposed interface significantly more explainable and easier to assess than a regular search engine result page. However, they are not significantly better in selecting the relevant documents from the top-5. This indicates that the explainability of the search engine result page leads to a better user experience. Thus, we conclude that the proposed explainable elements are promising as visualization for search engine users.

연구 동기 및 목표

비개인화 웹 검색에서 설명 가능성을 촉진하고 관련성 신호를 시각적으로 보여 사용자 신뢰를 높인다.
시각적 설명을 위해 용어별 중요도 및 구절 수준 관련성을 추출하기 위해 DRMM을 활용한다.
설명 가능한 시각화가 설명 가능성, 평가 가능성 및 관련성 선택에 대한 사용자 판단에 미치는 영향을 평가한다.
설명 가능한 요소가 사용자가 스니펫에서 관련 문서를 식별하는 능력에 영향을 미치는지 조사한다.

제안 방법

Anserini BM25를 사용하여 상위 K개 문서를 검색한 다음 DRMM으로 재정렬한다(MatchZoo 구현).
용어 게이팅 네트워크를 통해 용어 수준의 중요성을 생성하도록 DRMM을 조정하고, 이를 시각화를 위한 쿼리 용어 가중치로 해석한다.
문서를 중첩되지 않는 100-토큰 구절로 분할하고, 구절 수준의 DRMM을 학습시켜 문서 내 구절을 순위 매기며(구절 점수를 할당하고 maxP 구절을 문서 스니펫으로 사용).
결과 페이지에서 쿼리 용어의 중요도를 도넛 차트로 시각화하고, 가장 높은 점수를 얻은 구절을 하이라이트한 스니펫으로 문서 썸네일을 표시한다.
쌍대 순위의 힌지 손실과 Adadelta 최적화를 사용해 학습하고; DRMM의 국부 상호작용에는 LogCount 기반 히스토그램을 사용한다.
Robust04 데이터로 평가하고, DRMM에 대해 5-폴드 교차검증을 수행하며, 일반 인터페이스와 설명 가능 인터페이스를 비교하는 사용자 연구를 수행한다.

실험 결과

연구 질문

RQ1각 문서에서 가장 관련 있는 구절을 선택할 때 DRMM의 순위 결정 효과는 어느 정도인가?
RQ2사용자들은 설명 가능 검색 결과 페이지를 일반 페이지와 비교했을 때 설명 가능성과 평가 가능성을 어떻게 판단하는가?
RQ3설명 가능 인터페이스의 스니펫만으로 사용자가 관련 문서를 얼마나 잘 선택할 수 있는가 vs 일반 인터페이스?

주요 결과

BM25	DRMM	DRMM-maxP
0.2531	0.3631	0.4240
0.2662	0.2974	0.3706
0.3172	0.2650	0.3177

설명 가능 인터페이스는 일반 인터페이스보다 설명 가능성이 통계적으로 유의하게 높게 평가되었습니다(평균 설명 가능도 4.2 대 3.4).
설명 가능 인터페이스는 일반 인터페이스보다 평가 가능성이 통계적으로 유의하게 높게 평가되었습니다(평균 평가 가능성 4.4 대 3.6).
인터페이스별 분석은 설명 가능성 차이가 참가자와 쿼리 전반에 걸쳐 강건하다는 것을 보여줍니다(인터페이스 효과 유의, ANOVA p<0.001).
결과 페이지에서의 관련 판단에 대한 사용자 정밀도와 재현율은 설명 가능 인터페이스로 뚜렷한 개선을 보이지 못했습니다(정밀도 p=0.90, 재현율 p=0.38).
검색 성능에서 구절 수준 랭킹 모델은 P@20 및 nDCG@20에서 BM25 및 문서 수준 DRMM보다 덜 효과적이지만 MAP에서는 약간 더 나아져, 설명 가능한 특징을 평가하는 데 적합한 품질임을 시사합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.