[사이람 커넥트] 문맥을 이해하고, 눈으로 읽는 토픽 분석: BERTopic&LDAvis

cyram_inc 13 views 26 slides Oct 31, 2025
Slide 1
Slide 1 of 26
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26

About This Presentation

이번 웨비나는 텍스트 속에서 주제를 발견하고 구조를 파악하는 대표적인 방법인 토픽 분석(Topic Modeling)의 두 가지 접근법, BERTopic과 LDAvis를 다룹니다.

✔ BERTopic 이해하기: 문서 임베딩과 군집화를 기반으로 주제를 도출하는 과...


Slide Content

NetMinerTeam
[사이람 커넥트] 미니 웨비나
문맥을 이해하고, 눈으로 읽는 토픽 분석
BERTopic& LDAvis

2
SESSION 01 개요
SESSION 02 LDA와 LDAvis: 확률적 주제 탐색
SESSION 03 BERTopic: 문서 의미 기반 주제 탐색
SESSION 04 LDA와 BERTopic비교& Demo
CONTENT

Copyright © by CYRAM. All rights reserved. 3
SESSION 01
개요

Copyright © by CYRAM. All rights reserved. 4
개요From Text to Topic
Topic 1
Topic 4
Topic 3

Copyright © by CYRAM. All rights reserved. 5
개요주요 절차
토픽 식별/탐지
가까운 단어/문서를 묶어 토픽을
식별하는 핵심 단계
모델 평가 및 최적화
토픽 모델의 성능을 평가하고, 더 좋은
결과를 위해 하이퍼파라미터 튜닝
Text Pre-processing
비정형 텍스트를 활용하기
좋은 형태로 변환
토픽 해석 및 시각화
토픽의 대표 단어로 이름을 부
여하고, 시각적으로 표현

Copyright © by CYRAM. All rights reserved. 6
SESSION 02
LDA와 LDAvis

Copyright © by CYRAM. All rights reserved. 7
LDA와 LDAvisLDA(Latent Dirichlet Allocation)
Document Classification
Document Profiling
Word Clustering
Generative Model
단어가 함께 등장하는 패턴을 바탕으로 숨은 주제를 찾아내는 통계적 모델
Bag of Words

Copyright © by CYRAM. All rights reserved. 8
LDA와 LDAvisLDA(Latent Dirichlet Allocation)
단어가 함께 등장하는 패턴을 바탕으로 숨은 주제를 찾아내는 통계적 모델
토픽별 대표 단어(토픽 해석 단계에서 활용)
토픽별 단어 확률 분포
토픽 간의 유사성, 토픽의 비중 등을 한 눈에 알기 어려움
토픽 모델 성능 평가 결과 (Coherence/Perplexity)
토픽 모델의 성능 지표가 연구자의 직관적 해석과 다를 수 있음
토픽 수(k)에 따른
각 모델별Coherence 결과

Copyright © by CYRAM. All rights reserved. 9
LDA와 LDAvisLDAvis
LDA 토픽 모델 결과를 시각적으로 이해
•각 주제는 하나의 원으로 표현
•원 크기: 해당 주제의 비중
-문서별 주제 분포 평균으로 계산
-클수록 해당 토픽이 자주 등장하는
주요 주제로 이해
-오른쪽에서 단어를 클릭하면, 해당
단어의 각 토픽 확률에 따라 재조정
토픽 간 거리 지도 토픽별 핵심 단어
•중요성(Saliency)이 높은 단어 30개 표시
-Saliency: 전체에서 자주 등장하면서 동시에 특정
토픽을 잘 대표하는 상위 단어를 표시
•원 간 거리: 토픽 간 유사도
-주제별 단어 분포의 유사도로 계산
-가까울수록 비슷한 주제, 멀수록 다
른 주제를 의미함
•왼쪽에서 1개 주제를 선택한 경우에는 주제와의 연관
성(Relevance)이높은 단어 표시
-Relevance: 해당 토픽 내 단어 확률과 특이성을
함께 고려함
-즉, 전반적으로 자주 등장하는 단어보다는 선택한
토픽에서만 두드러지는 단어를 더 잘 드러낼수 있음
•막대의 하늘색은 전체 단어 빈도, 노란색은 선
택한 토픽 내에서의 단어 빈도 정도를 의미
•λ(lambda): Relevance에서 토픽 내 단어 확률과
특이성의 가중치를 조절
-클수록 토픽 내 확률이 높은 단어를, 작을수록 차별
적 단어를 강조 (0.6 권장)

Copyright © by CYRAM. All rights reserved. 10
LDA와 LDAvisLDAvis
토픽 모델의 품질을 직관적으로 점검하고 개선하는데 활용
토픽 수(k)의 변화에 따른 각모델의 Perplexity
토픽 수가13일 때, 복잡도가 가장 낮음
= 복잡도가 낮을 수록 모델 성능이 좋다
토픽 수(k)가 13일 때, LDAvis결과
토픽이 과도하게 세분화되어
중첩되어 나타남

Copyright © by CYRAM. All rights reserved. 11
SESSION 03
BERTopic

Copyright © by CYRAM. All rights reserved. 12
BERTopicBERTopic
구글 인공지능 언어모델(BERT)를 기반으로, 문서 의미를 고려하여 주제를 탐지
※ Source: https://maartengr.github.io/BERTopic/algorithm/algorithm.html

Copyright © by CYRAM. All rights reserved. 13
BERTopicBERTopic의 주요 절차
Step 1. 문서 의미를 수치 벡터로 변환
※ Source: https://maartengr.github.io/BERTopic/algorithm/algorithm.html
AI is changing the world.
토큰 | 차원 1 2 … N
AI 0.22 -0.13 … 0.1
Is 0.0 -0.2 … 0.0
changing 0.6 0.4 … -0.2
the 0.0 0.1 … 0.01
world 0.7 0.5 … -0.8
BERT
토큰 벡터 평균 계산
(Mean Pooling)
1 2 … N
AI is changing the world.0.304 0.134 … -0.178
SBERT(Sentence-BERT)
•BERT에 문장 쌍을 입력하려, 두 문장이 비슷할 수록 벡터도
가깝도록 학습한 모델
•문장 자체를 벡터로 표현하는데 중점을 둠
-BE
목적 /문맥 이해 간 의미 비교
임베딩을 쉽게 생성하
프레임워크
단위 (토큰 단위 처리) 쌍 (Similarity 학습) (단일/배치 입력)
단위 (토큰)별 벡터 전체 벡터 전체 벡터
방식 예측 (
유사도 학습
구조)
기반 사전학습 모
활용
잘 이해하지만 문장
계산에 직접 사용하
어려움
를 개조해 문장 간 의
거리를 벡터 공간에서
가능
를 다양한 언어, 태
맞게 확장한 구현체
예시
각각의 임베딩
하나의 벡터 (768
)
문장 임베딩을 손쉽게
라이브러리 인터페이스
예시 , 문맥 분석
유사도, 문장 검색, 클 , 문장 검색, 의
기반 검색
구현체
bert-
-uncased
-transfor
bert-base-nl
-mean-tokens
-transfor
라이브러리
BERT는
사전 학습된 토큰 임베딩+ 텍스트 내 위치(전후 단어)를
고려해서 토큰의 벡터를 갱신하기 때문에,
동음이의어, 이음동의어도 적절히 처리

Copyright © by CYRAM. All rights reserved. 14
BERTopicBERTopic의 주요 절차
Step 2. 문서 임베딩을 저차원으로 축소
※ Source: https://aegis4048.github.io/understanding_multi-dimensionality_in_vector_space_modeling
1 2 … N
AI is changing the world.0.3040.134 … -0.178
Technology is transforming
our lives.
0.2980.121 … -0.172
Climate change affects
global society.
0.2140.243 …
-
0.093
Healthcare systems adopt
AI solutions.
0.3010.155 … 0.172
고차원에서는 문서 벡터들이 서로 멀리 떨어져 있어 유사 문서끼리
구분이 어려움 (즉, 가까운 문서끼리 클러스터링이 어려움)
임베딩 차원이 높을수록, 계산 복잡도나 리소스 사용이 높아짐
UMAP
1 2 … 5
AI is changing the world.0.42 0.18 … -0.13
Technology is
transforming our lives.
0.40 0.15 … -0.29
Climate change affects
global society.
0.120.37 … -0.18
Healthcare systems
adopt AI solutions.
0.38 0.20 … -0.25
UMAP (Uniform Manifold Approximation and Projection)
•비슷한 의미의 문서는 가까이, 다른 의미의 문서는 멀리 위치하도록 차원 축소
•원래 벡터 간 거리(이웃 관계)를 최대한 보존하면서 2~5차원 공간으로 표현
원리
기준으로 데이터
가장 큰 방향(축)
비선형 곡면(매
)에 있다고 가정하
, 그 위의 국소 구조를
성격 (linear) (nonlinear)
보존 방식
데이터의 전역 분산
보존 (global
점들의 관계를 유
(local structure)
형태
축의 방향이 정해진
회전”
(Cluster) 형태를 자
형성
/안정성 안정적, 계산 단순
느리지만 복잡한 구
더 잘 표현
데이터
간 관계가 직선적으
설명될 때
, 비선형적 관계(텍
임베딩, 이미지 등)

Copyright © by CYRAM. All rights reserved. 15
BERTopicBERTopic의 주요 절차
Step 3. 임베딩이 유사한 문서끼리 클러스터링
※ Source: https://maartengr.github.io/BERTopic/algorithm/algorithm.html
HDBSCAN
HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise)
•밀도 기반 클러스터링 알고리즘(DBSCAN)의 변형
•데이터가 밀집된 영역은 같은 클러스터로 묶고, 희박한 영역은 잡음(noise)으로 간주
•각 문서가 속한 클러스터 번호와 그 문서가 클러스터에 속할 확률이 산출
1 2 … 5
AI is changing the world.0.42 0.18 … -0.13
Technology is
transforming our lives.
0.40 0.15 … -0.29
Climate change affects
global society.
0.120.37 … -0.18
Healthcare systems
adopt AI solutions.
0.38 0.20 … -0.25
-means
유형 기반 (Density-based) 기반 (Centroid-based)
수 지정 결정 직접 지정 (k 값)
형태 형태나 가능 (비구형도 가능) (원형)에 가까운 형태로 제한
처리 자동 식별 가능
데이터가 반드시 어떤 군집에 포
매개변수
, min_sam
(군집 개수)
성격 (Hierarchical), 밀도 기반 , 중심점(centroid) 기반

Copyright © by CYRAM. All rights reserved. 16
BERTopicBERTopic의 주요 절차
Step 4. 토픽의 대표 단어를 추출하여 토픽을 표현
※ Source: https://maartengr.github.io/BERTopic/algorithm/algorithm.html
분류 결과 문서들 문서 내 단어
Cluster 1
AI is changing the world.
Technology is transforming our lives.

AI, change, world,
Technology, transform,
live,…
Cluster 2
Climate change affects global society.

Climate change, affect,
global, society,…
Cluster 3
Healthcare systems adopt AI solutions.
….
Healthcare, system,
adopt, AI, solution,..
c-TF-IDF
토픽별 대표 단어
AI, change, world, …
Climate change, …
Healthcare, …
c-TF-IDF(class-based TF-IDF)
•일반적으로, TF-IDF는 문서에서의 단어 중요도를 계산하기 위해 널리 사용되는 지표로, TF(단어가 문서에서 얼마나 나왔는지)와 IDF(단어가 전체 문서에서 얼마나 드물게 나왔는지)를 계산하여, 각 문서
에만 특징적으로 나오는 단어를 파악할 수 있음
•BERTopic에서는 기존 문서대신 ‘토픽(클래스)’를 기준으로 하여TF-IDF를 계산함. 즉, 특정 토픽에서 자주 등장하면서 다른 토픽에 등장하지 않으면 대표 단어로 나타날 수 있음

Copyright © by CYRAM. All rights reserved. 17
BERTopicBERTopic의 주요 결과
토픽별 대표 단어 문서 클러스터링
•점: 문서
•색상: 토픽

Copyright © by CYRAM. All rights reserved. 18
BERTopicBERTopic의 주요 결과
토픽 간 유사도 매트릭스 (Heatmap)토픽 간 거리 지도
•원: 토픽
•크기: 해당 토픽에 속한 문서 수

Copyright © by CYRAM. All rights reserved. 19
BERTopicBERTopic의 주요 결과
※ Source: https://maartengr.github.io/BERTopic/algorithm/algorithm.html
토픽 계층 구조
토픽 간 계층 구조
-토픽 간 대표 단어 결과를 활용하여, 토픽 간 유사도 계산
-의미적으로 가까운 토픽을 단계적으로 병합하여 계층적 구조를 형성
-상위 주제와 하위 주제 간의 관계를 시각적으로 탐색

Copyright © by CYRAM. All rights reserved. 20
SESSION 03
LDA와 BERTopic& Demo

Copyright © by CYRAM. All rights reserved. 21
LDA와 BERTopicLDA vs. BERTopic
요약 단어에서 출발해 주제를 찾는 방식 의미에서 출발해 주제를 찾고 단어로 설명하는 방식
기본 원리 단어 동시 등장 빈도에 기반한 확률적 모델 언어모델 기반 문서 임베딩 + 군집화
활용 데이터
Bag of Words (문서별 단어 출현)
-광범위한 텍스트 전처리 필요
텍스트 원문 → 문서 임베딩 (의미 벡터)
-최소한의 전처리만 필요
주제 탐지 방식
단어들의 확률 분포
-한 문서는 여러 토픽에 속할 수 있다는 가정을 전제
문서 의미 유사도 기반 군집
주제 수 결정 연구자가 직접 설정해야함 클러스터링을 기반으로 최적의 수를 자동으로 찾아냄
이상치 처리 모든 문서를 주제에 할당, 간혹 주제 품질을 희석시킬 수 있음 클러스터링 단계에서 ‘노이즈’를 식별하여 분리
장점 속도가 빠르고 모델 구조가 명확하여 해석이 용이 의미 기반 분석이 가능하고, 전처리가 덜 필요
단점
•문서 의미를 고려하지 못함
•짧고 희소한 텍스트에서 성능이 나쁨
•토픽 수 설정 필요
•계산량이 많아 시간이 오래 걸림
•이상치(미분류)가 많이 나타날 수 있음
•여러 주제가 혼함된 긴 문서는 전처리가 필요
LDA BERTopic
※ Source: Egger, R., & Yu, J. (2022). A topic modeling comparison between lda, nmf, top2vec, and bertopicto demystify twitter posts. Frontiers in sociology, 7, 886498.

Copyright © by CYRAM. All rights reserved. 22
Demo

Copyright © by CYRAM. All rights reserved. 23
유사 고객 그룹화
4분기
기간 한정 할인
•대상 라이선스
-정부·공공·연구기관 1년/영구
-학술 영구
•혜택: 30% 할인
* NetMiner추천 프로그램 동시 적용 가능
유사 고객 그룹화 유사 고객 그룹화
버전
업그레이드
•NetMiner4→5 하면,
•혜택
-50% 할인
-텍스트 분석 중심의 사용 가이
드 세션 참여 기회 제공
2026년
선구매
•사용 중인 NetMiner5 라이선
스를 미리 연장하거나 새 라이선
스를 사전 구매하면,
•혜택: 15% 할인
-1년 이상은 1개월 추가
-2명 이상 구입 시,
별도 온보딩 세션 제공* Academic, Standard 라이선스에 한함
* 기존 NetMiner4는 자동으로 비활성화
* 무료 온보딩 세션은 집합 교육으로, 11월 말 예정
~25년 11월 30일
* Academic, Standard 라이선스에 한함

Copyright © by CYRAM. All rights reserved. 24
Q&A

Copyright © by CYRAM. All rights reserved. 25
감사합니다.
[안내 사항]
•웨비나 설문조사에 참여해주세요 ! 오늘 웨비나에 대한 의견과보고싶은 웨비나 주제를 남기실 수 있습니다.
•참석자를 위한 NetMiner5 할인 혜택이 있습니다. 이후에 발송되는 웨비나 감사 메일을 확인하세요!
www.netminer.com
1660-4230
[email protected]

CYRAM CONNECT : MINI WEBINAR