QUICK REVIEW

[論文レビュー] Entity Resolution and Federated Learning get a Federated Resolution

Richard Nock, Stephen Hardy|arXiv (Cornell University)|Mar 11, 2018

Data Quality and Management参考文献 18被引用数 75

ひとこと要約

論文は、エンティティ解決のエラーが垂直に分割された連合学習における学習へどのように影響するかを正式に分析し、巨大マージン分類器に対する堅牢性を示す境界を導出し、クロスクラスのミスに焦点を当てるERが下流の学習を改善することを、ノイズのあるクラス認識ERでの実験を通じて実証する。

ABSTRACT

Consider two data providers, each maintaining records of different feature sets about common entities. They aim to learn a linear model over the whole set of features. This problem of federated learning over vertically partitioned data includes a crucial upstream issue: entity resolution, i.e. finding the correspondence between the rows of the datasets. It is well known that entity resolution, just like learning, is mistake-prone in the real world. Despite the importance of the problem, there has been no formal assessment of how errors in entity resolution impact learning. In this paper, we provide a thorough answer to this question, answering how optimal classifiers, empirical losses, margins and generalisation abilities are affected. While our answer spans a wide set of losses --- going beyond proper, convex, or classification calibrated ---, it brings simple practical arguments to upgrade entity resolution as a preprocessing step to learning. One of these suggests that entity resolution should be aimed at controlling or minimizing the number of matching errors between examples of distinct classes. In our experiments, we modify a simple token-based entity resolution algorithm so that it indeed aims at avoiding matching rows belonging to different classes, and perform experiments in the setting where entity resolution relies on noisy data, which is very relevant to real world domains. Notably, our approach covers the case where one peer extit{does not} have classes, or a noisy record of classes. Experiments display that using the class information during entity resolution can buy significant uplift for learning at little expense from the complexity standpoint.

研究の動機と目的

Motivation: 共通エンティティに対して異なる特徴セットを保持する複数のパーティが存在する垂直に分割されたデータを用いた連合学習。
Objective: エンティティ解決の誤りが最適分類器、実証損失、マージンおよび汎化にどのように影響するかを定量化する。
Goal: 学習の前処理としてエンティティ解決を改善するための実用的な指針を提供し、特にクロスクラスのマッチング誤差に焦点を当てる。
Scope: リッジ正則化およびTaylor損失に対する理論的境界を開発し、それらを実践的なER戦略と関連づける。」],
method([
データを共通のエンティティ集合とエンティティ解決の誤りを置換ベースの表現で表す垂直的に分割されたピアとしてモデル化する。
広範な学習目的を捉えるためにリッジ正則化損失とTaylor損失を用いる。
$(\varepsilon,\tau)$-accurate な置換の下で、理想的な分類器と誤りを含むデータから学習した分類器との偏差に関する境界を導出する。
ERエラーとデータセット特性の影響を要約する主要なパラメータ（delta_theta, delta_P, delta_S）を導入する。
特定の条件下で大-margin分類器がERエラーに対して免疫を示すことを証明し、マージンを誤差耐性と結びつける。
クラス情報を用いるようにトークンベースのERアルゴリズムを変更し、15のUCIドメインで検証実験を行うことで実験的検証を提供する。

実験結果

リサーチクエスチョン

RQ1垂直連合学習におけるエンティティ解決のエラーは、最適分類器、損失、汎化にどのように影響するか？
RQ2大-margin分類はERエラーに対して免疫を提供できるか、どの条件下で？
RQ3ER設計の選択肢（特にクロスークラスのマッチング誤差）は下流の学習性能にどのように影響するか？
RQ4データがノイズが多いまたは部分的にラベル付きの場合、クラス情報をERに組み込むことで学習効果は大きいか？
RQ5理論的境界は実践的なERアルゴリズムや実世界データセットにどのように適用されるか？

主な発見

理論的境界は、ERエラーによる理想と学習済み分類器のドリフトが置換ステップ数とER誤差の大きさに比例して拡大するが、特定の境界条件が成り立つ場合にはより大きなサンプルサイズで縮小することを示している。
特定のマージンにおけるERエラーに対する免疫性は、サンプルサイズが大きくなるにつれて向上し、クロスクラス誤差が制御されると免疫性も高まる。
Taylor損失とリッジ正規化を用いた学習は、最適解付近で凸のTaylor損失と整合することができ、分析と実用的最適化を容易にする。
トークンベースのERにクラス情報を組み込む実験は、クラス非依存ERよりも大幅な改善を示し、時には理想的にエンティティ解決されたデータと同等の結果を得る。
主要なER設計の洞察: クロスクラスのマッチング誤差を最小化する（rho=0）ことが最も強力な境界と学習の堅牢性をもたらす。
分析は、ERが学習に与える影響を大きく動かす制御パラメータの小さな集合（delta_theta, delta_P, delta_S）を強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。