Skip to main content
QUICK REVIEW

[論文レビュー] Diet2Vec: Multi-scale analysis of massive dietary data

Wesley Tansey, Edward W. Lowe|arXiv (Cornell University)|Dec 1, 2016
Nutritional Studies and Diet参考文献 4被引用数 1
ひとこと要約

Diet2Vecは、55,000人のユーザーからなる大規模なデータセットを用いて、食品、食事、および全体の食事パターンの解釈可能で実数値の埋め込みを学習するマルチスケールのディープラーニングフレームワークである。word2vecとparagraph2vecを組み合わせ、反復的なクラスタリングと正規化を施すことで、各レベルで意味的なクラスタを発見し、訓練プロセスにおいて栄養素の明示的入力がなくとも、食事レベルのクラスタが明確なマクロ栄養素プロファイルを示すことを明らかにした。

ABSTRACT

Smart assistants and recommender systems must deal with lots of information coming from different sources and having different formats. This is more frequent in text data, which presents increased variability and complexity, and is rather common for conversational assistants or chatbots. Moreover, this issue is very evident in the food and nutrition lexicon, where the semantics present increased variability, namely due to hypernyms and hyponyms. This work describes the creation of a set of word embeddings based on the incorporation of information from a food thesaurus - LanguaL - through retrofitting. The ingredients were classified according to three different facet label groups. Retrofitted embeddings seem to properly encode food-specific knowledge, as shown by an increase on accuracy as compared to generic embeddings (+23%, +10% and +31% per group). Moreover, a weighing mechanism based on TF-IDF was applied to embedding creation before retrofitting, also bringing an increase on accuracy (+5%, +9% and +5% per group). Finally, the approach has been tested with human users in an ingredient retrieval exercise, showing very positive evaluation (77.3% of the volunteer testers preferred this method over a string-based matching algorithm).

研究の動機と目的

  • スマートフォンの食事記録アプリから得た実世界のデータを用いて、スケールに応じた詳細な食事パターンをモデル化すること。
  • クラウドソーシングされたノイジーな食事データの課題に対処するため、潜在的表現を学習する強固でスケーラブルな手法を開発すること。
  • 食品、食事、完全な摂取パターンを含む階層的かつマルチスケールの食事表現を、テキスト的および栄養的特徴を併用して作成すること。
  • 食品、食事、食事レベルの各段階で、現実の食行動および栄養プロファイルを反映する解釈可能なクラスタを生成すること。
  • 個別化された栄養アドバイスや肥満管理における行動予測などの後続応用を可能にすること。

提案手法

  • 食品名を文書として扱い、食品名に基づく初期の埋め込みを生成するためにword2vecを適用する。
  • マクロ栄養素およびミクロ栄養素の値を1キロカロリーあたりの単位に変換することで、サービングサイズに依存しない表現を確保する。
  • word2vecに基づく食品名ベクトルと、正規化・ウィンザーリング処理を施した栄養素ベクトルを連結し、最終的な食品埋め込みを形成する。
  • 食事は食品エントリのシーケンスとして扱われ、paragraph2vec(DBOW)を用いて食事レベルの埋め込みを生成する。
  • 各レベルの埋め込みに対してクラスタリング(例:k-means)を適用し、食品、食事、食事レベルで解釈可能な「語」を形成する。
  • 収縮・拡張プロセスを反復して表現を最適化する:まず埋め込みをクラスタリングし、次に上位レベルで再埋め込みを行う。

実験結果

リサーチクエスチョン

  • RQ1大規模でノイジーな実世界のデータから、意味的で解釈可能な食事パターンの表現を学習できるスケーラブルなディープラーニングフレームワークは存在するか?
  • RQ2食品、食事、食事レベルのクラスタは、直感的で現実世界の食行動および栄養プロファイルを反映しているか?
  • RQ3直接的な栄養素入力がなくとも、共起パターンに基づいて学習された食事レベルの埋め込みは、ユーザーの食事における明確なマクロ栄養素比を捉えられるか?
  • RQ4最終的な食事クラスタは、低炭水化物や高タンパク質などの既知の食事パターンとどの程度一致するか?
  • RQ5モデルの出力は、個別化された食事推薦や肥満予測などの実用的応用に活用できるか?

主な発見

  • 8800万件の食品ログエントリから、450万件のユニークな食品埋め込みを学習したが、90%の食品クラスタが名前と栄養プロファイルに基づき高解釈可能であった。
  • 共起パターンから得た食事レベルの埋め込みは、1000の解釈可能なクラスタを形成した。例として「メキシカンフード」「アメリカンブレックファースト」「サンドイッチコンボ」などがある。
  • 食事レベルのクラスタは、食事の語の袋(bag of words)から形成され、明確なマクロ栄養素プロファイルを示した:1つのグループは明確に低炭水化物、別のグループは高炭水化物・低脂肪、3番目のグループはバランスの取れた食事であった。
  • 食事モデリング段階で栄養素の直接的入力がなくとも、最終的な食事クラスタは強い意味的・栄養的整合性を示しており、共起から生じる自己組織的構造が顕在化した。
  • 中央偏差標準化とウィンザーリングにより、誤字や栄養素欠損などのデータノイズに対してもモデルは強固であった。
  • 最終的な食事クラスタは選別されていない。解釈不能なクラスタはまれであり、大多数は55,000人のユーザーのデータセット全体で一般的な食事パターンを反映していた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。