[논문 리뷰] Concept Stability for Constructing Taxonomies of Web-site Users
이 논문은 형식개념분석(FCA)을 통해 구성된 웹사이트 사용자 분류체계에서 의미 있는 사용자 집단을 걸러내고 식별하기 위해 개념 안정성(concept stability)을 기준으로 사용하는 방법을 제안한다. 사용자 집단의 공통 관심사가 구성원의 변동에 얼마나 견고한지 측정하는 안정성 지수를 계산함으로써, 사회학적으로 의미 있는 안정된 사용자 세그먼트를 선별한다. 이 방법은 전통적인 아이스버그 기반 필터링보다는 큰 집단이 아니지만 의미 있는 사용자 커뮤니티를 더 잘 포착한다.
Owners of a web-site are often interested in analysis of groups of users of their site. Information on these groups can help optimizing the structure and contents of the site. In this paper we use an approach based on formal concepts for constructing taxonomies of user groups. For decreasing the huge amount of concepts that arise in applications, we employ stability index of a concept, which describes how a group given by a concept extent differs from other such groups. We analyze resulting taxonomies of user groups for three target websites.
연구 동기 및 목표
- 웹 사용자 데이터의 형식개념분석에서의 개념 과잉 증식 문제를 해결하기 위해.
- 크기나 빈도가 크지 않은 집단을 초월하여 사회학적으로 의미 있는 사용자 집단을 식별하기 위해.
- 안정적이고 노이즈에 강한 사용자 군집을 우선시하는 개념 레이스터 필터링 방법을 개발하기 위해.
- 안정성 기반 필터링과 기존의 아이스버그 필터링 간에 대표적인 사용자 세그먼트를 식별하는 데서의 성능을 비교하기 위해.
제안 방법
- 외부(방문한 외부 사이트) 및 내부(대상 사이트 내에서 방문한 페이지) 사용자 속성을 사용해 형식적 맥락을 구성한다.
- 사용자-속성 포함관계로부터 개념 레이스터를 생성하기 위해 형식개념분석(FCA)을 적용한다.
- 개념의 의도(intent)가 그 광범위(extent)에서 개별 사용자를 제거할 경우 얼마나 견고한지 수량화하기 위해 안정성 지수 σ(A,B) = |{C⊆A | C′ = A}| / 2^|A| 를 정의한다.
- 안정성 지수가 임계값을 초과하는 개념들만 선택하여 안정된 사용자 집단을 식별하기 위해 개념 레이스터를 필터링한다.
- 시각화 도구인 ConceptExplorer를 사용하여 아이스버그 필터링(광범위 크기가 임계값 이상인 개념)과 결과를 비교한다.
- 차원 수를 줄이고 해석 가능성을 향상시키기 위해 도메인 특화의 속성 융합(예: 개인 은행 서비스 페이지를 '개인 웹페이지' 속성으로 통합)을 수행한다.
실험 결과
연구 질문
- RQ1크기 기반 필터링과 비교해 개념 안정성이 웹사이트 사용자 분류체계에서 의미 있는 사용자 집단 선별에 어떻게 기여하는가?
- RQ2안정적인 개념들이 아이스버그 필터링이 놓친 사회학적으로 관련성이 있는 사용자 세그먼트를 어느 정도 잘 포착하는가?
- RQ3안정성 지수는 사용자 전환 또는 데이터 노이즈에 대해 사용자 군집의 견고성은 어떻게 반영하는가?
- RQ4속성 집약 및 데이터 전처리의 영향은 결과 사용자 분류체계의 품질과 해석 가능성에 어떤 영향을 미치는가?
주요 결과
- 안정성 지수는 아이스버그 필터링에 의해 간과된 비대규모이지만 사회학적으로 의미 있는 사용자 집단(예: AIF(노란색 언론) 독자, Expert(분석적 설문조사) 사용자)를 효과적으로 식별한다.
- 높은 안정성 지수를 가진 개념들은 사용자 전환에 더 강건했으며, 이는 그들의 공통 관심사가 작은 또는 노이즈가 많은 사용자 샘플의 산물이 아니라는 것을 시사한다.
- 아이스버그 필터링이 주로 주류의 널리 방문되는 신문을 강조하는 데 반해, 안정성 기반 접근은 더 정보가 풍부하고 다양한 사용자 집단을 도출했다.
- 크기 4125 × 225인 맥락에서 57,329개의 개념을 포함하는 레이스터가 생성되었으며, 이는 안정성 기반 선택과 같은 효과적인 필터링 기법이 필요하다는 점을 보여준다.
- 안정성 필터링과 아이스버그 필터링은 상관관계가 있었지만 상당히 다른 결과를 도출했으며, 안정성 기반 접근이 더 세밀하고 의미 있는 사용자 세그먼트를 포착했다.
- 이 방법은 FCA 기반 사용자 분류체계 구축 시 발생하는 개념 폭발 문제를 성공적으로 줄였으며, 사회적으로 관련성이 있는 군집을 유지했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.