[论文解读] Summaries, Highlights, and Action items: Design, implementation and evaluation of an LLM-powered meeting recap system
本论文设计了两种基于大型语言模型的摘要表示(亮点与分层会议记录),构建一个系统,并以七名用户进行评估,结果显示有潜力,但在个人相关性与错指认方面存在挑战。
Meetings play a critical infrastructural role in coordinating work. The recent surge of hybrid and remote meetings in computer-mediated spaces has led to new problems (e.g., more time spent in less engaging meetings) and new opportunities (e.g., automated transcription/captioning and recap support). Advances in dialogue summarization offer the potential for improving post-meeting experiences, but fixed-length summaries often fail to meet diverse needs, such as quick overviews or detailed insights. To address these gaps, we use cognitive science and discourse theories to conceptualize two recap designs: important highlights and a structured, hierarchical minutes view, targeting complementary recap needs. We operationalize these representations into high-fidelity prototypes using dialogue summarization. Finally, we evaluate the representations' effectiveness with seven users in the context of their work meetings at Microsoft. Our results show both recap types are valuable in different contexts, enabling collaboration through discussions and consensus-building. Exploring the meaning of users adding, editing, and deleting from recaps suggests varying alignment for using these actions to improve AI-recap. Our design implications, such as incorporating organizational artifacts (e.g., linking presentations) in recaps and personalizing context, advance the discourse of effective recap designs for organizational work and support past results from cognition studies.
研究动机与目标
- 在认知科学和话语理论的基础上,概念化两种显著的摘要表示——亮点与分层分钟。
- 开发一个基于 LLM 的会议摘要系统,使用提取式/抽象式对话摘要管线。
- 原型化两种用户体验,并在信息工作者的上下文中评估,以评估实用性及与用户需求的契合度。
- 研究用户交互如何提供训练信号,以随着时间改进模型对齐。
提出的方法
- 两种摘要体验被具体化:亮点(提取式+抽象式要点与行动项)和分层分钟(按章节分主题,附注释和对白文本上下文)。
- 亮点管线使用微调的 deBERTa 进行提取,微调的 BART 进行抽象改写,训练于 ICSI/AMI 数据集。
- 分层管线使用文本分割(基于 BERT)的 text-tiling 将长转录分割成章节,然后从陈述序列生成章节标题(deBERTa)和注释(BART),在大型会议发言数据集上训练。
- 模型被整合到一个网页原型,用户可以编辑、添加或删除条目,以生成训练信号,并支持协作功能,如共享。
- 评估涉及七名参与者进行半结构化访谈,探讨有用性、局限性以及从用户反馈学习的设计影响。

实验结果
研究问题
- RQ1在长篇多方转录的会议摘要中,基于 LLM 的对话摘要有多有效?
- RQ2两种摘要表示(亮点与分层分钟)是否满足不同的用户需求与情境?
- RQ3用户交互是否能提供信号,使摘要模型随时间与用户期望保持一致?
- RQ4在组织工作中使用协作型摘要文档的优点与缺点是什么?
主要发现
- 对话摘要易于理解,帮助记忆、计划行动和分享。
- 代词指代和错误归因存在,可能影响小组动力学。
- 分层、按章节结构得到认知与话语理论的支持,用于意义构建。
- 亮点和分层表示在不同情境下都被发现有用;用户对通过摘要文档进行协作表示兴趣。
- 参与者可以编辑和定向摘要,为模型对齐提供信号,但删除操作并不总是高质量的训练数据。
- 本研究指出了从自然互动中学习以提升个人相关性和摘要质量的 AI 设计含义。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。