Skip to main content
QUICK REVIEW

[论文解读] A Survey on Deep Learning Toolkits and Libraries for Intelligent User Interfaces

Jan Zacharias, Michael Barz|arXiv (Cornell University)|Mar 13, 2018
Mobile Crowdsensing and Crowdsourcing参考文献 50被引用 26
一句话总结

本文综述了专为智能用户界面(IUIs)设计的开源深度学习工具包和库,重点聚焦多模态交互、交互式机器学习(IML)以及实时模型自适应。文章评估了TensorFlow、Keras和Caffe等框架,并强调交互式训练如何实现高效、用户驱动的模型优化,以支持复杂且自适应的IUI。

ABSTRACT

This paper provides an overview of prominent deep learning toolkits and, in particular, reports on recent publications that contributed open source software for implementing tasks that are common in intelligent user interfaces (IUI). We provide a scientific reference for researchers and software engineers who plan to utilise deep learning techniques within their IUI research and development projects.

研究动机与目标

  • 为智能用户界面(IUI)开发提供开源深度学习工具包的全面概览。
  • 识别并评估支持多模态交互(包括语音、手势、注视和触控)的库与框架。
  • 研究交互式机器学习(IML)技术,以实现实时用户反馈,持续改进模型性能。
  • 为研究人员和实践者提供指导,选择适合构建自适应、以用户为中心的IUI的合适工具。
  • 应对将AI系统从窄域、封闭世界性能向开放、终身学习的现实世界IUI应用转型的挑战。

提出的方法

  • 基于流行度指标、许可证类型和所支持编程语言,调研TensorFlow、Keras、Caffe、MXNet和Theano等主流深度学习框架。
  • 将开源贡献按关键IUI架构组件进行分类:输入处理、多模态融合、上下文建模和用户交互。
  • 评估集成人类反馈以提升性能与可用性的交互式机器学习(IML)方法。
  • 分析主动学习、半监督学习以及利用注视和字幕信号进行弱监督的技术,以减少标注工作量。
  • 展示支持通过Web界面实现实时模型参数操作与可视化的GPU加速框架。
  • 采用双重视角方法,同步结合AI智能与人机交互(HCI)原则,以在IUI中保持用户控制力与可预测性。

实验结果

研究问题

  • RQ1哪些开源深度学习工具包最适合用于实现多模态智能用户界面?
  • RQ2交互式机器学习(IML)技术如何提升IUI中模型训练的效率与适应性?
  • RQ3人在回路机制在提升现实世界IUI应用中深度学习模型性能与鲁棒性方面发挥何种作用?
  • RQ4如何将用户反馈与交互式可视化工具集成到深度学习工作流中,以支持持续的模型优化?
  • RQ5在多模态、实时IUI环境中应用交互式学习时,面临哪些关键挑战?

主要发现

  • TensorFlow、Keras和Caffe在流行度与易用性方面排名最高,其中TensorFlow因广泛的语言支持和活跃的社区开发被定为基准(100%评分)。
  • 交互式机器学习(IML)通过实现实时用户反馈,显著提升了模型训练效果,已在语言翻译和物体识别任务中得到验证。
  • 注视和字幕信号可作为弱监督信号,用于训练基于CNN的视频理解模型,从而减少对昂贵人工标注的依赖。
  • GPU加速框架如BIDMach以及自定义Web界面允许用户在训练过程中动态调整模型参数,提升透明度与控制力。
  • 主动学习与半监督学习的结合显著降低了标注工作量,同时在多模态IUI中保持了高模型准确率。
  • 双重视角方法——同步兼顾AI与HCI——有助于防止因AI增强系统中可预测性与可控性丧失而导致的可用性下降。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。