QUICK REVIEW

[논문 리뷰] Read, Diagnose and Chat: Towards Explainable and Interactive LLMs-Augmented Depression Detection in Social Media

Wei Qin, Zetong Chen|arXiv (Cornell University)|2023. 05. 09.

Mental Health via Writing인용 수 12

한 줄 요약

논문은 DSM 기준에 기반한 Chain-of-Thought 프롬프트, 트윗 선택기, 이미지 디스크립터를 사용하여 소셜 미디어에서 우울증을 진단하고 개인화된 대화 기반 가이드를 제공하는 설명 가능하고 인터랙티브한 우울증 진단 시스템인 Chat-Diagnose를 제안합니다.

ABSTRACT

This paper proposes a new depression detection system based on LLMs that is both interpretable and interactive. It not only provides a diagnosis, but also diagnostic evidence and personalized recommendations based on natural language dialogue with the user. We address challenges such as the processing of large amounts of text and integrate professional diagnostic criteria. Our system outperforms traditional methods across various settings and is demonstrated through case studies.

연구 동기 및 목표

소셜 미디어의 우울증 탐지를 미진단 상태의 공중보건 문제로 동기 부여하고 이진 분류를 넘어 설명과 인터랙티브한 가이드를 제공하도록 추진합니다.
LLM 기반 진단을 전문 기준(DSM) 및 사용자 콘텐츠에 근거시켜 해석 가능성을 확보하는 엔드투엔드 시스템을 개발합니다.
LLM에게 텍스트 관련 정보를 feed하기 위해 트윗 선택기와 이미지 디스크립터를 도입하여 긴 맥락과 다중 모달 데이터를 다룹니다.
IID 및 OOD 환경에서 전체 데이터, 소수-shot, 제로-shot 제약에서 시스템의 성능을 입증합니다.
사례 연구 및 대화 기반 권고를 통해 설명 가능성과 인터랙티브성을 시연합니다.

제안 방법

진단의 근거를 제공하기 위해 전문 진단 기준(DSM)을 LLM 프롬프트에 통합합니다.
Chain-of-Thought(CoT) 시演을 사용하여 추론을 가능하게 하고 진단 근거를 생성합니다.
LLM 입력 전 관리 가능한 부분집합의 게시물을 샘플링하는 Tweet Selector를 도입합니다(랜덤, 최근, 감정 기반).
이미지를 OCR과 이미지 자막화(Image Descriptor)로 텍스트로 변환하여 멀티모달 처리 가능성을 높입니다.
전체 데이터 설정에서 해답 휴리스틱으로 외부 일반 우울증 탐지기를 활용하여 LLM 결정에 가이드를 제공합니다.
진단 및 사용자 대상 대화에 대한 프롬프트 관리가 가능한 대화 모듈을 제공합니다.

Figure 1. User posts list is the input of the task. The sub-figure (a) shows that traditional methods only output the final diagnosis result. Our method in sub-figure (b) could provide a diagnosis result, diagnosis evidence and interactive dialogue.

실험 결과

연구 질문

RQ1LLM-강화 시스템이 DSM 기준에 근거한 해석 가능한 진단 근거를 제공할 수 있는가?
RQ2CoT, 전문 기준, 트윗 선택기를 도입하면 IID 및 OOD 데이터에서 설명 품질과 진단 정확도가 향상되는가?
RQ3제로샷, 소수샷, 전체 데이터 설정에서 서로 다른 트윗 선택기와 게시물 수가 탐지 성능에 미치는 영향은 무엇인가?
RQ4다양한 백본 LLM(GPT-3 대 ChatGPT)으로 다양한 데이터 규칙에서 시스템의 성능은 어떠한가?
RQ5인터랙티브 대화 구성요소가 사용자 SNS 콘텐츠에 부합하는 개인화된 추천을 제공하는가?

주요 결과

Chat-Diagnose 시스템은 전체 데이터, 소수샷, 제로샷 설정에서 IID 및 OOD 평가 모두에서 최첨단 성능을 달성합니다.
DSM 기반 기준과 CoT 시연의 도입으로 F1 점수가 크게 향상되고 진단 근거의 생성을 가능하게 합니다.
감정 기반 트윗 선택기가 부정성으로 순위를 매겨 임의선택 및 최근 선택기보다 일관되게 우수합니다.
전체 데이터 설정에서 외부 일반 우울증 탐지기를 해답 휴리스틱으로 사용하면 성능이 향상되고 분포 변화에 대한 견고성이 안정됩니다.
Ablation에서는 A(답변 휴리스틱), CoT, 기준 또는 시연 중 하나를 제거하면 성능이 저하되며 CoT 또는 DSM 기준 제거 시 상당한 하락이 나타납니다.
TMDD(트위터)와 WU3D(위보) 전반에 걸친 실험은 견고성과 향상된 설명 가능성 및 인터랙티브성을 보여주며, 대화 및 개인화 조언의 사례 연구를 포함합니다.

Figure 2. The framework of our Chat-Diagnose system.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.