Skip to main content
QUICK REVIEW

[论文解读] You Tweet What You Eat: Studying Food Consumption Through Twitter

Sofiane Abbar, Yelena Mejova|arXiv (Cornell University)|Dec 14, 2014
Culinary Culture and Tourism参考文献 26被引用 48
一句话总结

本研究利用来自210,000名美国用户的推特数据,大规模分析饮食习惯,将食物提及与人口统计、社交关系及健康结果相关联。研究发现,推文中提及食物的卡路里含量与州级肥胖率之间存在0.77的皮尔逊相关系数,证明推特在国家公共卫生监测方面具有强大的预测能力。

ABSTRACT

Food is an integral part of our lives, cultures, and well-being, and is of major interest to public health. The collection of daily nutritional data involves keeping detailed diaries or periodic surveys and is limited in scope and reach. Alternatively, social media is infamous for allowing its users to update the world on the minutiae of their daily lives, including their eating habits. In this work we examine the potential of Twitter to provide insight into US-wide dietary choices by linking the tweeted dining experiences of 210K users to their interests, demographics, and social networks. We validate our approach by relating the caloric values of the foods mentioned in the tweets to the state-wide obesity rates, achieving a Pearson correlation of 0.77 across the 50 US states and the District of Columbia. We then build a model to predict county-wide obesity and diabetes statistics based on a combination of demographic variables and food names mentioned on Twitter. Our results show significant improvement over previous CHI research (Culotta'14). We further link this data to societal and economic factors, such as education and income, illustrating that, for example, areas with higher education levels tweet about food that is significantly less caloric. Finally, we address the somewhat controversial issue of the social nature of obesity (first raised by Christakis & Fowler in 2007) by inducing two social networks using mentions and reciprocal following relationships.

研究动机与目标

  • 调查推特数据是否可作为全国饮食行为和公共卫生趋势的替代指标。
  • 研究性别、教育水平和城乡居住地等人口统计因素与食物相关推文之间的相关性。
  • 利用提及关系和相互关注关系,评估社交网络对食物消费模式的影响。
  • 通过实际的肥胖和糖尿病发病率等现实健康统计数据,验证基于推特的食物提及的预测能力。

提出的方法

  • 从210,000名美国用户中收集了5.02亿条推文,使用自定义食物词典提取食物提及。
  • 利用营养数据库将食物提及映射到卡路里值,从而估算每条推文的卡路里密度。
  • 整合2010年美国人口普查的人口统计数据,包括性别(通过用户名推断)、教育水平以及城乡邮政编码分类。
  • 构建两个社交网络:一个基于用户提及关系,另一个基于相互关注关系,以分析社交影响对食物选择的作用。
  • 构建结合人口统计变量和食物提及的预测模型,以预测县级的肥胖和糖尿病发病率。
  • 使用50个州和华盛顿特区的预测值与实际值之间的皮尔逊相关系数对结果进行验证。

实验结果

研究问题

  • RQ1推特上的食物提及能否与州级肥胖和糖尿病发病率显著相关?
  • RQ2性别、教育水平和城乡居住地等人口统计因素如何与推特中提及食物的卡路里含量相关?
  • RQ3通过提及和相互关注关系体现的社交网络结构在多大程度上影响推特上的食物相关行为?
  • RQ4基于推特的食物词典的预测性能与LIWC等既定工具相比如何?
  • RQ5推文中的食物提及是否能代表日常饮食习惯,还是更倾向于特殊场合或非食用情境?

主要发现

  • 在50个美国州和华盛顿特区中,推文中提及食物的平均卡路里含量与州级肥胖率之间的皮尔逊相关系数为0.77。
  • 食物提及卡路里密度与糖尿病发病率之间的相关系数为0.66,表明其在公共卫生监测方面具有强大的预测潜力。
  • 女性提及的食物卡路里含量显著低于男性,表明存在基于性别的饮食能力差异。
  • 教育水平较高的地区,其推特中提及食物的卡路里含量显著降低。
  • 城市用户更可能提及酒精饮料,而农村用户则更常提及披萨和巧克力。
  • 自报对烹饪感兴趣的用户,其肥胖的可能性降低1.5%,与既往关于烹饪习惯与体重管理的研究结果一致。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。