[論文レビュー] Stan: An LLM-based thermodynamics course assistant
Stanは、教科書と講義の transcripts に学生の問いを結びつけつつ、講師向け分析を提供する双方向用途のLLMベースツールチェーンで、すべてローカルハードウェア上のオープンモデルで動作する。
Discussions of AI in education focus predominantly on student-facing tools -- chatbots, tutors, and problem generators -- while the potential for the same infrastructure to support instructors remains largely unexplored. We describe Stan, a suite of tools for an undergraduate chemical engineering thermodynamics course built on a data pipeline that we develop and deploy in dual roles: serving students and supporting instructors from a shared foundation of lecture transcripts and a structured textbook index. On the student side, a retrieval-augmented generation (RAG) pipeline answers natural-language queries by extracting technical terms, matching them against the textbook index, and synthesizing grounded responses with specific chapter and page references. On the instructor side, the same transcript corpus is processed through structured analysis pipelines that produce per-lecture summaries, identify student questions and moments of confusion, and catalog the anecdotes and analogies used to motivate difficult material -- providing a searchable, semester-scale record of teaching that supports course reflection, reminders, and improvement. All components, including speech-to-text transcription, structured content extraction, and interactive query answering, run entirely on locally controlled hardware using open-weight models (Whisper large-v3, Llama~3.1 8B) with no dependence on cloud APIs, ensuring predictable costs, full data privacy, and reproducibility independent of third-party services. We describe the design, implementation, and practical failure modes encountered when deploying 7--8 billion parameter models for structured extraction over long lecture transcripts, including context truncation, bimodal output distributions, and schema drift, along with the mitigations that resolved them.
研究の動機と目的
- 教科書コンテンツに grounded した retrieval-augmented generation (RAG) システムを熱力学の学生の問いに適用する。
- 講義 transcripts を処理して要約、質問、混乱信号、逸話を生成することで講師向け分析を提供する。
- プライバシーと再現性のため、すべての構成要素をオープンウェイトモデルを用いたローカル管理ハードウェア上で動作させる。
- ドメイン用語の転写、幻覚の抑制、スキーマドリフトといった実運用上の課題に対処する。
- 共通のデータ基盤( transcripts と textbook index )から、学生用と講師用の二重ワークフローをサポートする。
提案手法
- バッチ処理用のGPUワークステーションと、ローカル推論での対話型照会用ノートPCという二層のハードウェア構成を構築する。
- PDFから抽出した書籍末尾の索引と目次ツリーから、構造化された教科書表現を構築する。
- 正規表現とローカルLLMを組み合わせた二経路の用語抽出で索引を検索し、最大スコアのマージで上位一致を選択する。
- 上位取得エントリの明示的な章/節/ページ参照を用いた制約付き文脈を組み立てて、LLM生成の学生回答を地続きに grounding する。
- 講義 transcripts をLLM駆動の分析パイプラインで処理し、講義ごとの要約、質問、混乱信号、逸話をJSONで生成する。
- デコーダーペナルティ、文脈分離、ポスト処理による三層の抑制で転写時の幻覚を大幅に低減する。
- ドメインプロンプト付き Whisper の転写と機関の ASR 転写を比較し、ドメイン用語の忠実度と文脈の正確さを評価する。
- ベンダー依存を回避するため、機関録音の直接 USB 録音Capture またはオープンAPIアクセスを提唱する。
実験結果
リサーチクエスチョン
- RQ1LLMベースのアシスタントを、幻覚を回避しつつ教科書と講義内容に grounded させて熱力学の問いに対応させる設計は可能か。
- RQ2講義 transcripts から導かれる講師向け分析は、生データを公開せずに授業の振り返りと改善を支援できるか。
- RQ3ローカルでオープンモデルを用いる大学講義における実用的なデプロイメントの考慮事項(ハードウェア、プライバシー、著作権)は何か。
- RQ4ドメイン意識の高い転写と二経路抽出は、 grounding 品質と検索 relevancy にどのように影響するか。
主な発見
- ローカルのオープンモデルスタック(Whisper large-v3、Llama 3.1 8B)と二層のハードウェア構成により、クラウドAPIを使わずに転写・索引・対話照会を実現できる。
- ドメイン語彙のプロンプト付与は専門的な熱力学用語の転写精度を向上させ、素の転写より誤認識を減少させる。
- 幻覚はデコーダーのペナルティ、文脈分離、ポスト処理の三層対策で6.4%から0.02%へ著しく低減された。
- 機関のASR転写はドメインプロンプト付き Whisper と語数・ドメイン用語頻度が類似しているが、ドメインプロンプトは周囲の文脈をより良く保持する。
- 学生向けのパイプラインは正規表現とLLMの二経路抽出+最大スコアマージで、質問を構造化された教科書索引へ頑健にマッピングする。
- 講師向けパイプラインは、RTX 4090 で講義ごとの要約・質問・混乱信号・逸話を15分未満で生成し、学期規模の分析を可能にする。
- 直接の講義ごとの処理とオープンハードウェアはクラウドサービスとベンダー体制への依存を減らし、プライバシーと再現性を促進する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。