[논문 리뷰] Large Language Models as Superpositions of Cultural Perspectives
이 논문은 LLM을 관점의 중첩으로 재구성하여 맥락이 표현된 가치와 성격을 예기치 않게 바꾼다는 것을 보여준다; 또한 관점 제어 가능성을 도입하고 세 가지 심리 설문에 걸쳐 모델과 귀납 방법을 체계적으로 비교한다.
Large Language Models (LLMs) are often misleadingly recognized as having a personality or a set of values. We argue that an LLM can be seen as a superposition of perspectives with different values and personality traits. LLMs exhibit context-dependent values and personality traits that change based on the induced perspective (as opposed to humans, who tend to have more coherent values and personality traits across contexts). We introduce the concept of perspective controllability, which refers to a model's affordance to adopt various perspectives with differing values and personality traits. In our experiments, we use questionnaires from psychology (PVQ, VSM, IPIP) to study how exhibited values and personality traits change based on different perspectives. Through qualitative experiments, we show that LLMs express different values when those are (implicitly or explicitly) implied in the prompt, and that LLMs express different values even when those are not obviously implied (demonstrating their context-dependent nature). We then conduct quantitative experiments to study the controllability of different models (GPT-4, GPT-3.5, OpenAssistant, StableVicuna, StableLM), the effectiveness of various methods for inducing perspectives, and the smoothness of the models' drivability. We conclude by examining the broader implications of our work and outline a variety of associated scientific questions. The project website is available at https://sites.google.com/view/llm-superpositions .
연구 동기 및 목표
- LLM을 고정된 가치나 성격을 가진 안정된 개체로 보는 관점에 반박한다.
- 관련 없는 맥락 변화가 표현된 가치에 영향을 주는 예기치 않은 관점 시프트 효과를 입증한다.
- LLM을 관점의 중첩으로 비유하는 은유를 도입하고 형식화한다.
- 주어진 관점을 얼마나 잘 유도할 수 있는지 평가하기 위해 관점 제어 가능성을 정의하고 측정한다.
- 세 가지 심리 설문에 걸쳐 여러 LLM과 귀납 방법을 비교한다.
제안 방법
- 개인적 가치에 대한 PVQ, 문화적 가치에 대한 VSM, 빅 파이브 성격에 대한 IPIP를 사용해 LLM이 표현한 특성을 정량화한다.
- 제어된 맥락(텍스트 프롬프트, 시스템 대 사용자 메시지, 2인칭 대 3인칭 관점)을 노출하고 응답을 기록한다.
- 4가지 프롬프트 방법을 통해 대상 관점을 유도하고 각 특성 차원에 대한 점수를 계산한다.
- 응답 순서의 50개 치환에 걸쳐 유도된 대상 차원과 비유도 차원을 비교하여 제어 가능성 점수를 계산한다.
- 4가지 관점 유도 기법과 3개의 설문에 걸쳐 16개 모델을 체계적으로 비교한다.
- 맥락 효과와 모델의 제어 가능성을 평가하기 위해 통계 분석(ANOVA, Tukey HSD, Bonferroni 보정이 포함된 Welch t-test)을 사용한다.
실험 결과
연구 질문
- RQ1직교적인 맥락 변화에 노출되었을 때 LLM이 유의미한 예기치 않은 관점 시프트 효과를 보이는가?
- RQ2다양한 귀납 방법과 설문에 걸쳐 서로 다른 LLM의 대상 관점 유도에 대한 제어 가능성은 어느 정도인가?
- RQ3PVQ, VSM, IPIP에 대해 어떤 유도 방법과 어떤 모델이 가장 높은 관점 제어 가능성을 보이는가?
- RQ4RLHF로 미세조정된 모델이 시간의 경과나 모델 계열에 따라 관점 제어 가능성에 어떤 영향을 미치는가?
주요 결과
- 관련 없는 맥락 변화(대화, 형식, 또는 위키의 단락)가 개인적, 문화적 가치 및 성격 특성을 표현하는 방식을 유의하게 바꾼다.
- 가치 시프트의 크기와 방향은 맥락과 모델에 따라 다르며, 종종 장기 발달에서 인간이 보는 일반적 시프트보다 크다.
- 관점 제어 가능성은 모델과 유도 방법에 따라 다르며, 일부 프롬프트와 시스템/사용자 메시지 구성은 특정 설문에 대해 더 높은 제어 가능성을 보인다.
- RLHF로 미세조정된 GPT-4와 일부 Upstage LLaMa 모델은 여러 설정에서 상대적으로 더 높은 제어 가능성을 보인다.
- 다른 설문(PVQ, VSM, IPIP)은 최적의 성능을 보이는 유도 방법과 모델이 다르게 나타나 모델과 과제 의존적 제어 가능성을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.