QUICK REVIEW

[論文レビュー] Procedural Knowledge Extraction from Industrial Troubleshooting Guides Using Vision Language Models

Guillermo Gil de Avalle, Laura Maruster|arXiv (Cornell University)|Jan 30, 2026

Handwritten Text Recognition Techniques被引用数 0

ひとこと要約

論文は、2つのオープンウェイト視覚言語モデル（Pixtral-12BとQwen2-VL-7B）を用いて、オランダの産業用トラブルシューティング図から手続き知識を抽出することを評価し、標準プロンプトと拡張プロンプトを比較し、エンティティ抽出は限定的で関係抽出は非常に低い性能、モデル固有の失敗を示す。

ABSTRACT

Industrial troubleshooting guides encode diagnostic procedures in flowchart-like diagrams where spatial layout and technical language jointly convey meaning. To integrate this knowledge into operator support systems, which assist shop-floor personnel in diagnosing and resolving equipment issues, the information must first be extracted and structured for machine interpretation. However, when performed manually, this extraction is labor-intensive and error-prone. Vision Language Models offer potential to automate this process by jointly interpreting visual and textual meaning, yet their performance on such guides remains underexplored. This paper evaluates two VLMs on extracting structured knowledge, comparing two prompting strategies: standard instruction-guided versus an augmented approach that cues troubleshooting layout patterns. Results reveal model-specific trade-offs between layout sensitivity and semantic robustness, informing practical deployment decisions.

研究の動機と目的

Vision-Language Modelsを用いてフロー図のような産業用トラブルシューティングガイドから手続き知識を抽出することの実現可能性を評価する。
2つのオープンウェイトVLM（Pixtral-12Bと Qwen2-VL-7B）をPK抽出タスクで比較する。
2つの prompting 戦略（標準 vs 拡張）を評価し、抽出品質への影響を判断する。
一様なスキーマを用いて抽出性能を定量化し、操作者支援の展開に向けた洞察を提供する。

提案手法

3つのエンティティタイプ（Condition, Action, Decision）と1つのリレーションタイプ（isPreceededBy）を用いた一様な抽出スキーマを使用する。
各ページ24ページを含む12のオランダ語産業ガイドを処理し、エンティティとリレーションのJSON構造化出力を各ページで得る。
2つのオープンウェイトVLM（Pixtral-12BとQwen2-VL-7B）を2つの prompting 戦略（Standard vs Augmented）でテストする。
エンティティとリレーションの548エンティティと536リレーションの手作業 annotated ゴールド標準と比較して、精度、リコール、F1で評価する。

Figure 1: Example of troubleshooting guide structure.

実験結果

リサーチクエスチョン

RQ1オープンウェイトのVision-Language Modelsは産業用トラブルシューティング図から手続きエンティティと結びつくリレーションを正確に抽出できるか。
RQ2モデルアーキテクチャと prompting 戦略はPKグラフの抽出品質にどのような影響を与えるか。
RQ3この領域におけるVLMベースのPK抽出の主な障害モードは何か。
RQ4拡張 prompting（視覚的規約の説明）は標準 prompting と比べてPK抽出に有益か。

主な発見

Model	Prompt	Ent. Precision	Ent. Recall	Ent. F1	Rel. Precision	Rel. Recall	Rel. F1
Qwen2-VL-7B	Standard	0.305	0.383	0.340	0.077	0.050	0.061
Qwen2-VL-7B	Augmented	0.203	0.414	0.272	0.177	0.076	0.107
Pixtral-12B	Standard	0.336	0.263	0.295	0.018	0.013	0.015
Pixtral-12B	Augmented	0.383	0.173	0.239	0.008	0.004	0.005

エンティティF1スコアはモデルと prompting によらず0.24〜0.34の範囲だった。
リレーションF1スコアは両モデル・ prompting 戦略で0.11未満だった。
Qwen2-VL-7Bは標準 prompting 下でエンティティF1が最も高く（0.340）、ドキュメントごとのばらつきが大きく、一部ガイドでは壊滅的な失敗を示した。
Pixtral-12BはエンティティF1（標準で0.295）は一貫性があるが、リレーション抽出は極めて低くF1がほぼ0に近かった。
拡張 prompting はQwen2-VLのリレーション抽出を改善（F1 0.061から0.107へ）したが、エンティティの精度は低下（0.305から0.203へ）。
拡張 prompting は Pixtral-12B のエンティティとリレーションの両方の性能を低下させた（エンティティF1 0.295から0.239へ；リレーションF1 0.015から0.005へ）。
Qwen2-VL は40%の文書で無限ループ崩壊を観測し、繰り返し生成が抽出を妨げた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。