[论文解读] HyperJoin: LLM-augmented Hypergraph Link Prediction for Joinable Table Discovery
HyperJoin 将可连接表发现重新表述为超图上的链接预测,使用 LLM 增强的跨表边与表内边,并结合分层交互网络与基于 MST 的再排序来提高连贯性与准确性。
As a pivotal task in data lake management, joinable table discovery has attracted widespread interest. While existing language model-based methods achieve remarkable performance by combining offline column representation learning with online ranking, their design insufficiently accounts for the underlying structural interactions: (1) offline, they directly model tables into isolated or pairwise columns, thereby struggling to capture the rich inter-table and intra-table structural information; and (2) online, they rank candidate columns based solely on query-candidate similarity, ignoring the mutual interactions among the candidates, leading to incoherent result sets. To address these limitations, we propose HyperJoin, a large language model (LLM)-augmented Hypergraph framework for Joinable table discovery. Specifically, we first construct a hypergraph to model tables using both the intra-table hyperedges and the LLM-augmented inter-table hyperedges. Consequently, the task of joinable table discovery is formulated as link prediction on this constructed hypergraph. We then design HIN, a Hierarchical Interaction Network that learns expressive column representations through bidirectional message passing over columns and hyperedges. To strengthen coherence and internal consistency in the result columns, we cast online ranking as a coherence-aware top-k column selection problem. We then introduce a reranking module that leverages a maximum spanning tree algorithm to prune noisy connections and maximize coherence. Experiments demonstrate the superiority of HyperJoin, achieving average improvements of 21.4% (Precision@15) and 17.2% (Recall@15) over the best baseline.
研究动机与目标
- 将可连接表发现作为数据湖中的结构感知问题来进行动机阐释。
- 提出一个基于超图的框架,捕捉表内和表间关系。
- 通过分层交互网络学习具有表达力的列表示。
- 通过与一致性相关的前K 选择和基于 MST 的再排序来改进在线排序。
- 在多个基准数据集上展示相对于基线的经验性提升。
提出的方法
- 构建一个以列为节点、包含表内边与经过 LLМ 增强的表间超边的超图。
- 从表名、列名和单元格值中编码初始列特征;将它们融合成节点嵌入。
- 应用带有局部超边聚合与全局超边混合的分层交互网络,以获得具表达力的表示。
- 使用表级和列级位置编码来解决位置不可知性及全局结构角色。
- 将在线排序形式化为一个具备一致性感知的前K 问题,并通过贪心的 MST 基再排序来剪裁嘈杂连接。
- 通过对比最新方法,在 Precision@15 上的平均提升为 21.4%,在 Recall@15 上的平均提升为 17.2%(相对于最佳基线)
实验结果
研究问题
- RQ1如何通过显式建模表内和表间结构来改进可连接表发现?
- RQ2是否可用基于超图的表示结合 LLМ 增强更好地在表之间传播可连接性信号?
- RQ3具备一致性感知的前K 选择配合 MST 再排序是否比现有在线排序方法产生更连贯、准确的结果集?
主要发现
- HyperJoin 在 Precision@15 上相对最佳基线平均提升 21.4%。
- HyperJoin 在 Recall@15 上相对最佳基线平均提升 17.2%。
- 具有表内边和经过 LLМ 增强的表间超边的超图比单独表示或成对表示更好地捕捉结构上下文。
- 分层交互网络使超图上的全局与局部信息传递更为有效。
- 具一致性感知的前K 排名与 MST 基再排序模块提升结果连贯性并减少嘈杂连接。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。