Skip to main content
QUICK REVIEW

[논문 리뷰] Querying with Conflicts of Interest

Nischal Aryal, Arash Termehchy|arXiv (Cornell University)|2026. 03. 05.
Data Quality and Management인용 수 0
한 줄 요약

이 논문은 데이터 소스가 결과 편향의 유인을 가질 때 이를 질의하는 형식적 프레임워크를 제안하고, 영향력 있는 상호작용과 신뢰할 수 없는 결과를 감지하는 효율적 알고리즘을 개발하며, 정보 유용성을 개선하기 위해 질의를 재구성하고, 실제 데이터 세트에 대한 실증 검증을 수행한다.

ABSTRACT

Conflicts of interest often arise between data sources and their users regarding how the users' information needs should be interpreted by the data source. For example, an online product search might be biased towards presenting certain products higher than in its list of results to improve its revenue, which may not follow the user's desired ranking expressed in their query. The research community has proposed schemes for data systems to implement to ensure unbiased results. However, data systems and services usually have little or no incentive to implement these measures, e.g., these biases often increase their profits. In this paper, we propose a novel formal framework for querying in settings where the data source has incentives to return biased answers intentionally due to the conflict of interest between the user and the data source. We propose efficient algorithms to detect whether it is possible for users to extract relevant information from biased data sources. We propose methods to detect biased information in the results of a query efficiently. We also propose algorithms to reformulate input queries to increase the amount of relevant information in the returned results over biased data sources. Using experiments on real-world datasets, we show that our algorithms are efficient and return relevant information over large data.

연구 동기 및 목표

  • 사용자 의도와 데이터 소스 편향이 이해관계 충돌이 있는 순위화된 질의 결과를 반환할 때 상호작용하는 방식을 모델링한다.
  • 이 설정에서 사용자와 데이터 소스 추론의 안정적(베이지안 균형) 상태를 정의한다.
  • 영향력 있는 상호작용과 신뢰할 수 없는 결과를 감지하는 알고리즘을 개발한다.
  • 사용자의 정보 이득을 최대화하는 질의를 찾는 문제에 대한 복잡도 결과를 입증한다.
  • 실제 데이터 집합에서 확장성 및 효과를 경험적으로 검증한다.

제안 방법

  • 질의 q의 해석 beta에 대해 U^r와 U^s를 갖는 효용을 가진 에이전트로 사용자와 데이터 소스를 모델링한다.
  • 안정된 상호작용 상태 tau와 beta를 특성화하기 위해 베이지안 균형 개념을 사용한다.
  • 영향력 있는 상호작용에 대한 필요충분조건(정리 3.1)을 제공한다.
  • 바이어스 함수 b(e)와 더하기 형태의 효용 U^s 및 U^r를 도입하여 바이어스 영향력을 분석한다(정의 3.3, 보조정리 3.5).
  • 볼록/이차형 유사 손실 L 하에서 비영향적 상호작용을 감지하기 위한 효율적 검정(Theorem 3.6 and Corollary 3.7)을 개발한다.
  • 결과의 신뢰성 정의(Definition 4.1)를 정의하고 신뢰할 수 없는 튜플을 감지하는 방법을 제안한다.
(a) Amazon
(a) Amazon

실험 결과

연구 질문

  • RQ1사용자와 데이터 소스의 상호작용이 안정적이고 영향력 있는 균형으로 수렴하는 조건은 무엇인가?
  • RQ2데이터 소스의 편향이 사용자가 반환 결과에 영향을 미치지 못하게 만드는 시점은 언제이며(비영향적 균형)?
  • RQ3편향된 해석에서 신뢰할 수 없는 결과를 어떻게 감지하고 신뢰할 수 있는 정보를 정량화할 수 있는가?
  • RQ4사용자의 의도에 대한 최대 정보를 산출하는 질의를 찾는 계산 복잡도는 얼마이며, 넓은 효용 클래스에 대해 효율적인 해법이 존재하는가?
  • RQ5제안된 알고리즘은 대형 실제 데이터 집합에서 얼마나 확장 가능한가?

주요 결과

  • 균형이 영향력 있는 경우, 사용자와 데이터 소스의 보상 조건을 만족하는 집합 동등한 의도 tau와 서로 다른 해석 beta, beta′가 존재한다(정리 3.1).
  • 데이터 소스의 편향이 매우 강하면 영향력 있는 균형이 존재하지 않을 수 있으며, 이는 사용자가 소스의 출력을 바꾸도록 설득할 수 없음을 의미한다(정리 3.6).
  • Corollary 3.7은 특정 볼록하고 비감소 손실 함수 하에서 비영향적 상호작용에 대한 상수 시간 검사를 제공한다.
  • 바이어스 함수와 초모듈러 효용은 부분적 공통 이익을 모델링하고 영향력과 신뢰할 수 있는 결과의 효율적 분석을 가능하게 한다(Propositions 3.5, 3.6).
  • Definition 4.1은 신뢰할 수 없는 결과를 형식화하여 beta(I)에서 잘못 순위 매김되거나 누락된 튜플의 탐지를 가능하게 한다.
  • 실험적 연구는 프레임워크와 알고리즘이 대용량 데이터에 확장되며 실제 데이터 세트에서 관련 정보를 산출함을 보여준다(섹션 6).
(b) Pricerunner
(b) Pricerunner

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.