[论文解读] Querying with Conflicts of Interest
该论文提出一个在数据源有偏向结果动机时的查询正式框架,开发高效算法以检测有影响力的交互和不可信结果,并重构查询以提升信息有用性,在真实数据集上进行实证验证。
Conflicts of interest often arise between data sources and their users regarding how the users' information needs should be interpreted by the data source. For example, an online product search might be biased towards presenting certain products higher than in its list of results to improve its revenue, which may not follow the user's desired ranking expressed in their query. The research community has proposed schemes for data systems to implement to ensure unbiased results. However, data systems and services usually have little or no incentive to implement these measures, e.g., these biases often increase their profits. In this paper, we propose a novel formal framework for querying in settings where the data source has incentives to return biased answers intentionally due to the conflict of interest between the user and the data source. We propose efficient algorithms to detect whether it is possible for users to extract relevant information from biased data sources. We propose methods to detect biased information in the results of a query efficiently. We also propose algorithms to reformulate input queries to increase the amount of relevant information in the returned results over biased data sources. Using experiments on real-world datasets, we show that our algorithms are efficient and return relevant information over large data.
研究动机与目标
- 建模在存在利益冲突的情况下,当返回排序查询结果时,用户意图与数据源偏见如何互动的过程。
- 在该情景下定义用户与数据源推理的稳定状态(贝叶斯平衡)。
- 开发算法以检测有影响力的交互与不可信结果。
- 证明找到最大化用户信息增益的查询的复杂性结果。
- 在真实世界数据集上进行可扩展性与有效性之实证验证。
提出的方法
- 将用户与数据源建模为效用为U^r和U^s的代理,对查询q的解释beta进行优化。
- 使用贝叶斯平衡概念表征稳定的交互状态(tau, beta)。
- 给出有必要且充分条件(定理3.1)以判定有影响力的交互。
- 引入偏置函数b(e)与叠加效用形式U^s与U^r来分析偏置的影响(定义3.3、命题3.5)。
- 提出高效检验(定理3.6和推论3.7)以在凸/近似二次损失L下检测非影响力交互。
- 定义结果的可信度(定义4.1),并提出检测不可信元组的方法。

实验结果
研究问题
- RQ1在何种条件下用户与数据源的交互收敛到稳定的有影响力平衡?
- RQ2当数据源的偏置极强时,用户是否无法影响返回结果(无影响力平衡)?
- RQ3如何检测不可信结果并量化偏见解释中的可信信息?
- RQ4找到能够最大化用户意图信息的查询的计算复杂度是多少,是否能为广义效用类得到高效解?
- RQ5在大规模真实数据集上,所提算法的可扩展性如何?
主要发现
- 若存在集合等价的意图tau与不同的解释beta、beta′,使用户和数据源的收益满足条件,则平衡是有影响力的(定理3.1)。
- 若数据源偏置极端强烈,可能不存在有影响力平衡,即用户无法说服源修改输出(定理3.6)。
- 推论3.7在某些凸且非递增的损失函数下提供对非影响力交互的常数时间检查。
- 偏置函数与超模态效用建模部分共同利益并允许对影响力与可信结果进行高效分析(命题3.5、3.6)。
- 定义4.1形式化不可信结果,从而能检测beta(I)中排名错误或遗漏的元组。
- 实证研究表明该框架与算法可扩展到大数据量并在真实数据集上产生相关信息(第6节)。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。