[論文レビュー] AXE: Low-Cost Cross-Domain Web Structured Information Extraction
AXEは pruning ベースのパイプラインを用いて HTML から構造化データを抽出し、小型 0.6B LLM で最先端の zero-shot F1 を SWDE で達成し、Grounded XPath Resolution による根拠ある、追跡可能な出力を提供します。
Extracting structured data from the web is often a trade-off between the brittle nature of manual heuristics and the prohibitive cost of Large Language Models. We introduce AXE (Adaptive X-Path Extractor), a pipeline that rethinks this process by treating the HTML DOM as a tree that needs pruning rather than just a wall of text to be read. AXE uses a specialized "pruning" mechanism to strip away boilerplate and irrelevant nodes, leaving behind a distilled, high-density context that allows a tiny 0.6B LLM to generate precise, structured outputs. To keep the model honest, we implement Grounded XPath Resolution (GXR), ensuring every extraction is physically traceable to a source node. Despite its low footprint, AXE achieves state-of-the-art zero-shot performance, outperforming several much larger, fully-trained alternatives with an F1 score of 88.1% on the SWDE dataset. By releasing our specialized adaptors, we aim to provide a practical, cost-effective path for large-scale web information extraction.
研究の動機と目的
- 大規模な LLM を使わず、コスト効率の良いクロスドメインの Web 情報抽出の必要性に対応する。
- プルーニングベースのパイプライン AXE を提案し、 boilerplate を密なクエリ関連コンテキストへフィルタ링する。
- Grounded XPath Resolution (GXR) を介して HTML ソースへ抽出の追跡性を保証する。
- SWDE および WebSRC データセットでゼロショットの一般化と効率を実証する。
提案手法
- HTML DOM を prune にやさしいツリーとして扱い、プルーニングアダプタで boilerplate を除去する。
- HTMLRAG ベースの前処理を用いて HTML をクリーンに分割し、内容豊富なブロックにする。
- プルーニングされた HTML 蒸留から供給される QA または Schema アダプタで構造化 JSON を生成する。
- DOM の正確なソースノードを特定することで Grounded XPath Resolution で予測を根拠づける。
- Qwen-0.6B および rsLoRA からの蒸留を用いて三つのアダプタ(Pruner、QA-specialized、Schema extraction)をファインチューニングする。
実験結果
リサーチクエスチョン
- RQ1AXE はサイト特異的な訓練なしに、さまざまなドメインで高精度のゼロショット構造抽出を達成できるのか。
- RQ2モデルサイズとコストを削減しつつ、どれくらいの文脈削減(プルーニング)で抽出性能を維持または向上できるのか。
- RQ3 grounding(GXR )は構造出力の忠実度を向上させ、幻覚を減らすのか。
- RQ4ゼロショット設定で SWDE および WebSRC の標準ベンチマークにおける AXE の性能はどうか。
- RQ5適応(Pruner、QA、Schema 抽出器)は全体の性能にどう寄与するのか。
主な発見
| Model | #Seed Sites | k=0 F1 | k=1 F1 |
|---|---|---|---|
| SSM | - | 63.00 | - |
| Render-Full | - | 84.30 | - |
| FreeDOM-NL | - | 72.52 | - |
| FreeDOM-Full | - | 82.32 | - |
| SimpDOM | - | 83.06 | - |
| MarkupLM BASE | - | 82.11 | - |
| MarkupLM LARGE | - | 85.71 | - |
| WebLM BASE | - | 84.21 | - |
| WebLM LARGE | - | 87.57 | - |
| AXE (ours) | 1 | 88.10 | - |
- AXE は SWDE でゼロショット F1 が 88.10% を達成し、いくつかのワンショットベースラインを上回った。
- プルーニングにより文脈が約 16.6k トークンから約 351 トークンへ縮小され(約97.9% 削減)、0.6B モデルでも良好に機能する。
- GXR の除去は顕著な低下を招き(約 4.4% の F1)、根拠づけが正確性にとって重要であることを示す。
- QA 微調整と抽出微調整は WebSRC の多モダルおよび QA 主導タスクにとって重要であり、除去すると大きな低下が生じる。
- AXE のクロスドメイン性能は複数の SWDE ドメインで堅牢で、F1 は約 80.9% から約 93.1% の範囲で推移する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。