[논문 리뷰] Can Copyright Be Reduced to Privacy?
이 논문은 저작권법을 차별적 개인정보 보호 기법—예를 들어 차별적 비밀유지 및 알고리즘적 안정성과 같은 것들—으로 환원하는 것이 저작권의 핵심 목표와 괴리됨을 주장한다. 이러한 방법들은 데이터 泄露를 탐지하는 데에는 유용하지만, 저작권의 핵심인 원본적 표현에 초점을 맞추지 못해 과잉포괄성과 합법적인 변형적 이용의 억압 가능성을 초래한다.
There is a growing concern that generative AI models will generate outputs closely resembling the copyrighted materials for which they are trained. This worry has intensified as the quality and complexity of generative models have immensely improved, and the availability of extensive datasets containing copyrighted material has expanded. Researchers are actively exploring strategies to mitigate the risk of generating infringing samples, with a recent line of work suggesting to employ techniques such as differential privacy and other forms of algorithmic stability to provide guarantees on the lack of infringing copying. In this work, we examine whether such algorithmic stability techniques are suitable to ensure the responsible use of generative models without inadvertently violating copyright laws. We argue that while these techniques aim to verify the presence of identifiable information in datasets, thus being privacy-oriented, copyright law aims to promote the use of original works for the benefit of society as a whole, provided that no unlicensed use of protected expression occurred. These fundamental differences between privacy and copyright must not be overlooked. In particular, we demonstrate that while algorithmic stability may be perceived as a practical tool to detect copying, such copying does not necessarily constitute copyright infringement. Therefore, if adopted as a standard for detecting an establishing copyright infringement, algorithmic stability may undermine the intended objectives of copyright law.
연구 동기 및 목표
- 차별적 비밀유지 및 알고리즘적 안정성과 같은 알고리즘적 안정성 기법이 생성형 AI에서 저작권 침해를 신뢰성 있게 탐지할 수 있는지 검토하기 위해.
- 개인정보 중심의 메트릭과 저작권법의 원칙 사이의 근본적 괴리점을 부각하기 위해.
- 알고리즘적 안정성이 합법적인 변형적 이용, 예를 들어 공정이용 또는 변형적 저작물과 같은 사례를 과잉으로 무효화할 수 있음을 보여주기 위해.
- 알고리즘적 방법을 이진 침해 탐지기로 사용하는 것이 아니라, 원본성이나 사고-표현 구분과 같은 법적 기준을 수량화하는 도구로 사용할 것을 주장하기 위해.
제안 방법
- 특히 근접한 무료 접근(Near-Free Access, NAF) 및 차별적 비밀유지(Differential Privacy, DP) 프레임워크를 중심으로 알고리즘적 안정성의 관점에서 저작권 침해를 분석하는 것을 제안한다.
- 수학적 모델을 사용하여 생성 모델의 출력이 보호된 콘텐츠 없이도 본질적으로 유사하게 나오는지 평가한다.
- 침해 복사를 피하는 '안전한' 모델을 정의하기 위한 안전성 함수 프레임워크를 도입하며, 보호된 콘텐츠에 접근한 모델과 그렇지 않은 모델을 구분한다.
- NAF와 DP가 변형적 또는 공정이용 콘텐츠에 대해 보호된 저작물로부터의 합법적 영향을 유지하는 데에 한계를 보임을 분석한다.
- 안전한 모델가 보호된 콘텐츠로부터의 영향을 받지 않으면 허용 가능한 출력를 억압할 수 있음을 강조한다.
- 보호된 저작물과 명백하고 확립된 연결 고리가 존재할 경우에만 콘텐츠를 기각하는 NAF의 완화된 변형을 제안한다.
실험 결과
연구 질문
- RQ1차별적 비밀유지와 같은 알고리즘적 안정성 기법이 생성형 AI에서 저작권 침해 탐지의 신뢰할 수 있는 대체 기준이 될 수 있는가?
- RQ2NAF나 DP와 같은 개인정보 중심 메트릭은 원본성이나 공정이용과 같은 저작권법의 핵심 원칙과 어떻게 괴리되는가?
- RQ3알고리즘적 안정성 방법은 보호된 자료의 합법적 변형 이용을 어느 정도 억압할 위험이 있는가?
- RQ4알고리즘적 방법은 이진 침해 탐지기로 사용하는 대신, 원본성이나 사고-표현 구분과 같은 법적 기준을 수량화하는 도구로 재사용될 수 있는가?
주요 결과
- 차별적 비밀유지 및 NAF와 같은 알고리즘적 안정성 기법은 과잉포괄적이며, 합법적이고 변형적인 이용을 잘못 침해로 간주할 수 있다.
- 보호된 콘텐츠로부터의 영향을 완전히 피하는 모델는 공정이용 또는 변형적 이용 원칙에 따라 법적으로 허용되는 콘텐츠를 뜻하지 않게 억압할 수 있다.
- 특정 저작물에서 복사하지 않더라도 모델가 안정적이라면 여전히 공통된 훈련 데이터 덕분에 본질적으로 비슷한 원본 콘텐츠를 생성할 수 있으며, 이는 침해를 의미하지는 않는다.
- 안전한 모델가 보호된 콘텐츠로부터의 영향을 받지 않으면 NAF 프레임워크는 보호된 저작물과 의미적으로 연결된 출력를 부당하게 억압하는 데 실패한다.
- 명백하고 확립된 연결 고리가 있는 경우에만 콘텐츠를 기각하는 NAF의 완화된 변형은 더 나은 합법적 이용 보존을 가능하게 한다.
- 연구는 알고리즘적 방법이 법적 기준을 대체해서는 안 되며, 오히려 원본성과 같은 모호한 법적 개념을 측정하는 데 보조 도구로 사용되어야 하며, 이진 침해 규칙을 시행하는 데에는 쓰이지 말아야 한다는 결론을 내린다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.