[논문 리뷰] Can ChatGPT-like Generative Models Guarantee Factual Accuracy? On the Mistakes of New Generation Search Engines
이 논문은 AI 기반 검색 엔진(Bing 및 Bard)의 사실 오류를 분석하고, 현재 한계 하에서 ChatGPT 유사 모델이 사실 정확성을 보장할 수 없다고 주장하며 투명성 및 근거 제시 개선을 촉구합니다.
Although large conversational AI models such as OpenAI's ChatGPT have demonstrated great potential, we question whether such models can guarantee factual accuracy. Recently, technology companies such as Microsoft and Google have announced new services which aim to combine search engines with conversational AI. However, we have found numerous mistakes in the public demonstrations that suggest we should not easily trust the factual claims of the AI models. Rather than criticizing specific models or companies, we hope to call on researchers and developers to improve AI models' transparency and factual correctness.
연구 동기 및 목표
- AI 기반 검색 시연에서 사실적 근거 제시의 실패를 강조합니다.
- 사실 오류의 유형(출처와의 충돌, 출처에 나타나지 않는 세부사항, 근거 비제시 주장)을 설명합니다.
- 대화형 모델의 투명성, 출처 기원 및 사실 정확성 향상을 위한 단기 및 장기 전략을 논의합니다.
제안 방법
- Microsoft Bing 및 Google Bard 시연에서 공개적으로 시연된 사례를 체계적으로 검토합니다.
- 사실적 오류를 세 가지 주요 유형으로 분류합니다: 출처와의 충돌, 출처에 존재하지 않음, 출처 불일치/근거 비제시 주장.
- 빙과 Bard 시연 간의 차이점과 투명성 및 근거 제시를 평가합니다.
- 모델의 투명성, 신뢰도 보고, 출처 기반 검증 등 잠재적 해결책을 논의합니다.
실험 결과
연구 질문
- RQ1빙과 Bard 시연에서 어떤 종류의 사실 오류가 나타나는가?
- RQ2이러한 오류가 ChatGPT 유사 모델의 근본적 근거 제시 문제를 얼마나 반영하는가?
- RQ3투명성 및 출처 인용이 AI 지원 검색 결과에 대한 신뢰에 어떤 영향을 미치는가?
- RQ4대화형 검색 엔진의 사실 정확성을 개선할 수 있는 단기 및 장기 접근 방법은 무엇인가?
주요 결과
- 새로운 Bing 시연은 원래 보고서에서 뒷받침되지 않는 조작된 재무 데이터와 잘못된 비교 표를 생성했습니다.
- Bing은 또한 소스와 일치하지 않는 잘못된 개인 정보 및 시점에 따른 정보를 제공했습니다(예: 나이트클럽 영업 시간).
- Bard 시연에는 망원경 발견 귀속 및 별자리 가시성 시기에 대한 잘못된 정보와 같은 오류가 포함되어 있어 공개 주가에 영향을 미쳤습니다.
- 두 시스템 모두 사실적 근거 제시에 한계가 있어 일부 결과에 인용이 없거나 신뢰할 수 없는 소스에 의존하는 경우가 있습니다.
- 저자들은 Bing의 인용이 Bard보다 더 투명하다고 관찰하여 사용자가 사실 확인을 더 쉽게 할 수 있게 한다고 밝혔습니다.
- 본 논문은 현재의 ChatGPT 유사 모델이 사실 정확성을 보장할 수 없다고 주장하며 투명성과 검증 가능한 근거 제시의 필요성을 강조합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.