[논문 리뷰] AI vs. Human -- Differentiation Analysis of Scientific Content Generation
논문은 특성 기반 프레임워크를 구축하여 AI가 생성한 것과 인간이 작성한 과학적 초록을 구분하고, 응집도/일관성/논증 로지스틱을 분석하며, perplexity 및 미세 조정된 탐지기를 포함한 탐지 방법을 평가합니다. 작성 스타일의 차이를 발견하고 AI 생성 콘텐츠가 외부 사실 불일치가 적은 편이지만 사실 오류를 품을 수 있음을 시사합니다.
Recent neural language models have taken a significant step forward in producing remarkably controllable, fluent, and grammatical text. Although studies have found that AI-generated text is not distinguishable from human-written text for crowd-sourcing workers, there still exist errors in AI-generated text which are even subtler and harder to spot. We primarily focus on the scenario in which scientific AI writing assistant is deeply involved. First, we construct a feature description framework to distinguish between AI-generated text and human-written text from syntax, semantics, and pragmatics based on the human evaluation. Then we utilize the features, i.e., writing style, coherence, consistency, and argument logistics, from the proposed framework to analyze two types of content. Finally, we adopt several publicly available methods to investigate the gap of between AI-generated scientific text and human-written scientific text by AI-generated scientific text detection models. The results suggest that while AI has the potential to generate scientific content that is as accurate as human-written content, there is still a gap in terms of depth and overall quality. The AI-generated scientific content is more likely to contain errors in factual issues. We find that there exists a "writing style" gap between AI-generated scientific text and human-written scientific text. Based on the analysis result, we summarize a series of model-agnostic and distribution-agnostic features for detection tasks in other domains. Findings in this paper contribute to guiding the optimization of AI models to produce high-quality content and addressing related ethical and security concerns.
연구 동기 및 목표
- 구문, 의미, 화용적 측면에 걸쳐 AI가 생성한 텍스트와 인간이 작성한 과학 텍스트를 구별하기 위한 특징 기술 프레임워크를 개발한다.
- CS와 Bio 도메인의 AI 대 인간 과학 초록을 작성 스타일, 응집도, 일관성, 및 논증 로지스틱을 사용하여 분석한다.
- 설명가능성을 포함한 특징 기반 및 신경 모형 접근 방식을 포함한 GPT 생성 텍스트 탐지 방법을 평가한다.
제안 방법
- 과학적 구조 정보를 포함하는 최적화된 프롬프트를 사용하여 GPT-3/Text-Davinci-003로 초록을 생성한다.
- 네 가지 차원으로 특징 기반 탐지 프레임워크를 구축한다: 작성 양식(Writing Style), 응집도(Coherence), 일관성(Consistency), 및 논증 흐름(Argument Logistics).
- GPT-2 출력 탐지기를 미세조정하고 RoBERTa/OpenAI 탐지기 기준선과 비교한다.
- SciBERT를 사용한 perplexity 기반 탐지를 적용하여 도메인별 임계값을 설정한다(초록은 2.6, 위키 아이템은 4.6).
- AI 생성 과학 텍스트를 식별하는 인간의 능력을 평가하고 관련 요인을 분석하기 위한 인간 평가를 수행한다.
실험 결과
연구 질문
- RQ1구문, 의미, 화용적 특징을 사용하여 AI가 생성한 과학 초록을 인간이 작성한 초록과 신뢰할 수 있게 구별할 수 있는가?
- RQ2작성 스타일, 응집도, 일관성, 논증 로지스틱이 탐지 성능에 기여하는 바는 무엇인가?
- RQ3AI 생성 및 인간 작성 과학 콘텐츠 간의 깊이/품질 및 사실 정확도의 차이점은 무엇인가?
- RQ4도메인 간 AI 생성 과학 텍스트를 식별하는 데 perplexity 및 탐지기 기반 접근 방식의 효과는 어느 정도인가?
주요 결과
| 텍스트 유형 | 카테고리 | 정밀도 | 재현율 | F1 점수 | 숫자 |
|---|---|---|---|---|---|
| AI-generated | Paper Abstract Text | 93.3% | 94.9% | 94.1% | 2507 |
| Human-written | Paper Abstract Text | 94.8% | 93.1% | 93.9% | 2491 |
| AI-generated | Wiki Item Text | 71.4% | 100.0% | 83.3% | 25 |
| Human-written | Wiki Item Text | 100.0% | 60.0% | 75.2% | 25 |
- AI 생성과 인간 작성 과학 텍스트 간에 상당한 작성 스타일 차이(구문)가 존재한다.
- Perplexity 기반 탐지는 초록에서 높은 F1을 달성(94%); 위키 아이템 설명에서 더 낮은(77%).
- 토큰 수준 및 기능 단어 특성은 구문 기반 탐지기에서 강하게 예측력을 보이며(로지스틱 회귀가 변동의 최대 86.1% 설명).
- AI 생성 초록은 제목과의 응집도는 높으나 내부 일관성은 낮고, 사례 예시에서 일부 사실적 참고문헌이 잘못되었거나 발명되었음을 보인다.
- 훈련된 탐지 모델이 AI 생성 대 인간 작성 과학 텍스트를 구별하는 데 인간보다 우수하여 과학 분야에서 AI 생성 콘텐츠 표시에 대한 지지를 뒷받침한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.