초보자를 위한 토픽 모델링 소개

차례[숨다][보여 주다]

토픽 모델링이란?
주제 모델링의 구성 요소+-
- 확률 모델
- 정보 검색
다양한 주제 모델링 방법+-
Python의 주제 모델링 실습+-
- 탐색 적 데이터 분석
- 주제 모델링을 위한 태그 사용
주제 모델링의 응용
결론

기계 학습 및 자연어 처리(NLP)와 같은 단어뿐만 아니라 인공 지능에 대해서도 들어보셨을 것입니다.

특히 매일 수천 건은 아니더라도 수백 건의 고객 컨택을 처리하는 회사에서 일하는 경우에는 더욱 그렇습니다.

소셜 미디어 게시물, 이메일, 채팅, 개방형 설문 응답 및 기타 소스에 대한 데이터 분석은 단순한 프로세스가 아니며, 사람에게만 맡겨지면 더욱 어렵습니다.

그렇기 때문에 많은 사람들이 잠재력에 열광하고 있습니다. 인공 지능 일상 업무와 기업을 위해

AI 기반 텍스트 분석은 언어를 유기적으로 해석하기 위해 광범위한 접근 방식 또는 알고리즘을 사용합니다. 그 중 하나는 텍스트에서 주제를 자동으로 검색하는 데 사용되는 주제 분석입니다.

기업은 주제 분석 모델을 사용하여 데이터가 너무 많은 작업자에게 부담을 주지 않고 쉬운 작업을 기계로 전송할 수 있습니다.

컴퓨터가 매일 아침 끝없는 고객 설문 조사 또는 지원 문제 목록을 필터링할 수 있다면 팀이 얼마나 많은 시간을 절약하고 더 중요한 작업에 할애할 수 있는지 생각해 보십시오.

이 가이드에서는 토픽 모델링, 다양한 토픽 모델링 방법을 살펴보고 이에 대한 실질적인 경험을 얻을 것입니다.

토픽 모델링이란?

토픽 모델링은 비지도 및 감독 통계를 사용하는 텍스트 마이닝 유형입니다. 기계 학습 기술은 말뭉치 또는 상당한 양의 구조화되지 않은 텍스트에서 추세를 감지하는 데 사용됩니다.

방대한 문서 모음을 가져와 유사성 방법을 사용하여 단어를 용어 클러스터로 정렬하고 주제를 찾을 수 있습니다.

조금 복잡하고 어려워 보이므로 주제 모델링 절차를 단순화합시다!

손에 색색의 형광펜을 들고 신문을 읽고 있다고 가정해 보겠습니다.

구식 아닌가요?

나는 요즘 인쇄된 신문을 읽는 사람이 거의 없다는 것을 알고 있습니다. 모든 것이 디지털이며 형광펜은 과거의 일입니다! 아버지나 어머니인 척!

따라서 신문을 읽을 때 중요한 용어를 강조 표시합니다.

또 하나의 가정!

다양한 테마의 키워드를 강조하기 위해 다른 색조를 사용합니다. 제공된 색상과 주제에 따라 키워드를 분류합니다.

특정 색상으로 표시된 각 단어 모음은 주어진 주제에 대한 키워드 목록입니다. 선택한 다양한 색상의 양은 테마의 수를 나타냅니다.

가장 기본적인 토픽 모델링입니다. 그것은 큰 텍스트 컬렉션의 이해, 구성 및 요약을 돕습니다.

그러나 효과적이고 자동화된 주제 모델에는 많은 콘텐츠가 필요하다는 점을 명심하십시오. 짧은 종이가 있다면 구식으로 가서 형광펜을 사용하고 싶을 수도 있습니다!

데이터를 알아가는 데 시간을 보내는 것도 도움이 됩니다. 이것은 당신에게 토픽 모델이 무엇을 찾아야 하는지에 대한 기본적인 감각을 줄 것입니다.

예를 들어, 그 일기는 현재 및 이전 관계에 관한 것일 수 있습니다. 따라서 텍스트 마이닝 로봇 친구가 비슷한 아이디어를 내기를 기대합니다.

이렇게 하면 식별한 주제의 품질을 더 잘 분석하고 필요한 경우 키워드 세트를 조정할 수 있습니다.

주제 모델링의 구성 요소

확률 모델

확률 변수와 확률 분포는 확률 모델에서 사건이나 현상의 표현에 통합됩니다.

결정론적 모델은 이벤트에 대한 단일 잠재적 결론을 제공하는 반면 확률론적 모델은 확률 분포를 솔루션으로 제공합니다.

이 모델은 상황에 대한 완전한 지식이 거의 없다는 현실을 고려합니다. 거의 항상 고려해야 할 무작위 요소가 있습니다.

예를 들어, 생명 보험은 우리가 죽을 것이라는 것을 알고 있지만 언제 죽을지 모른다는 현실에 근거합니다. 이러한 모델은 부분적으로 결정적이거나 부분적으로 임의적이거나 완전히 임의적일 수 있습니다.

정보 검색

정보 검색(IR)은 문서 저장소에서 정보, 특히 텍스트 정보를 구성, 저장, 검색 및 평가하는 소프트웨어 프로그램입니다.

이 기술은 사용자가 필요한 정보를 찾는 데 도움이 되지만 질문에 대한 답변을 명확하게 전달하지는 않습니다. 필요한 정보를 제공할 수 있는 서류의 유무와 위치를 알려줍니다.

관련 문서는 사용자의 요구를 충족하는 문서입니다. 결함 없는 IR 시스템은 선택한 문서만 반환합니다.

주제 일관성

주제 일관성은 주제의 고득점 용어 간의 의미적 유사성 정도를 계산하여 단일 주제에 점수를 매깁니다. 이러한 메트릭은 의미론적으로 해석 가능한 주제와 통계적 추론 인공물인 주제를 구별하는 데 도움이 됩니다.

주장이나 사실의 그룹이 서로를 뒷받침하는 경우 일관성이 있다고 합니다.

결과적으로 응집력 있는 사실 집합은 사실의 전부 또는 대부분을 포괄하는 맥락에서 이해될 수 있습니다. "게임은 팀 스포츠입니다", "게임은 공을 가지고 진행됩니다", "게임은 엄청난 육체적 노력을 필요로 합니다"는 모두 응집력 있는 팩트 세트의 예입니다.

다양한 주제 모델링 방법

이 중요한 절차는 다양한 알고리즘이나 방법론에 의해 수행될 수 있습니다. 그 중에는 다음이 있습니다.

잠재 디리클레 할당 (LDA)
비음수 행렬 분해(NMF)
잠재 의미 분석(LSA)
확률적 잠재 의미 분석(pLSA)

잠재 디리클레 할당(LDA)

말뭉치에서 여러 텍스트 간의 관계를 감지하기 위해 Latent Dirichlet Allocation의 통계 및 그래픽 개념이 사용됩니다.

VEM(Variational Exception Maximization) 접근 방식을 사용하여 전체 텍스트 모음에서 가장 큰 가능성 추정치를 얻을 수 있습니다.

LTD

전통적으로 단어 모음에서 상위 몇 단어가 선택됩니다.

그러나 문장은 완전히 무의미합니다.

이 기법에 따르면 각 텍스트는 주제의 확률적 분포로 표현되고 각 주제는 단어의 확률적 분포로 표현됩니다.

비음수 행렬 분해(NMF)

음수가 아닌 행렬 인수 분해는 최첨단 기능 추출 접근 방식입니다.

자질이 많고 속성이 모호하거나 예측 가능성이 낮을 때 NMF가 유리합니다. NMF는 특성을 결합하여 중요한 패턴, 주제 또는 테마를 생성할 수 있습니다.

음이 아닌 행렬 분해

NMF는 원래 속성 집합의 선형 조합으로 각 기능을 생성합니다.

각 기능에는 해당 기능에 대한 각 속성의 중요도를 나타내는 계수 세트가 포함되어 있습니다. 각 숫자 속성과 각 범주 속성의 각 값에는 고유한 계수가 있습니다.

모든 계수가 양수입니다.

잠재 의미 분석

문서 세트에서 단어 간의 연관성을 추출하는 데 사용되는 또 다른 비지도 학습 방법은 잠재 의미 분석입니다.

이것은 적절한 문서를 선택하는 데 도움이 됩니다. 주요 기능은 방대한 텍스트 데이터 코퍼스의 차원을 줄이는 것입니다.

이러한 불필요한 데이터는 데이터에서 필요한 통찰력을 얻는 데 배경 잡음 역할을 합니다.

잠재 의미 분석

확률적 잠재 의미 분석(pLSA)

확률적 잠재 의미론적 인덱싱(PLSI, 특히 정보 검색 서클에서)이라고도 하는 확률적 잠재 의미 분석(PLSA)은 XNUMX-모드 및 동시 발생 데이터를 분석하기 위한 통계적 접근 방식입니다.

사실, PLSA가 등장한 잠재 의미론적 분석과 유사하게, 관찰된 변수의 저차원 표현은 특정 숨겨진 변수에 대한 친화성 측면에서 파생될 수 있습니다.

확률적 잠재 감각 분석

Python의 주제 모델링 실습

이제 Python으로 주제 모델링 과제를 안내해 드리겠습니다. 프로그래밍 언어 실제 사례를 사용하여

나는 연구 기사를 모델링 할 것입니다. 여기서 사용할 데이터 세트는 kaggle.com에서 가져옵니다. 내가 이 작업에서 사용하는 모든 파일을 여기에서 쉽게 얻을 수 있습니다. 페이지.

모든 필수 라이브러리를 가져와서 Python을 사용한 주제 모델링을 시작해 보겠습니다.

라이브러리 가져오기

다음 단계는 이 작업에서 사용할 모든 데이터 세트를 읽는 것입니다.

데이터 세트 읽기

탐색 적 데이터 분석

EDA(탐색 데이터 분석)는 시각적 요소를 사용하는 통계 방법입니다. 통계 요약 및 그래픽 표현을 사용하여 추세, 패턴 및 테스트 가정을 발견합니다.

데이터에 패턴이나 관계가 있는지 확인하기 위해 주제 모델링을 시작하기 전에 탐색적 데이터 분석을 수행하겠습니다.

Train Dataset의 Null 값 찾기

기차 Null 값의 출력

이제 테스트 데이터 세트의 null 값을 찾습니다.

테스트 데이터셋의 Null 값 찾기

테스트 Null 값의 출력

이제 변수 간의 관계를 확인하기 위해 히스토그램과 상자 그림을 그릴 것입니다.

플로팅

플로팅 1의 출력

Abstracts of the Train 세트의 캐릭터 수는 매우 다양합니다.

기차에는 최소 54자에서 최대 4551자가 있습니다. 1065는 평균 문자 수입니다.

플로팅 2

플로팅 2의 출력

테스트 세트에는 46개의 문자가 있고 훈련 세트에는 2841자가 있기 때문에 테스트 세트는 훈련 세트보다 더 흥미롭게 보입니다.

결과적으로 테스트 세트의 중앙값은 1058자로 훈련 세트와 유사합니다.

플로팅 3

플로팅 출력 3

학습 세트의 단어 수는 문자 수와 유사한 패턴을 따릅니다.

최소 8단어, 최대 665단어를 입력할 수 있습니다. 결과적으로 중간 단어 수는 153입니다.

플로팅 4

플로팅 4의 출력

초록에는 최소 452단어, 테스트 세트에는 최대 XNUMX단어가 필요합니다.

이 경우 중앙값은 153이며 훈련 세트의 중앙값과 동일합니다.

주제 모델링을 위한 태그 사용

몇 가지 주제 모델링 전략이 있습니다. 이 연습에서는 태그를 사용하겠습니다. 태그를 검사하여 그렇게 하는 방법을 살펴보겠습니다.

주제 모델링에 태그 사용

주제 모델링의 출력

주제 모델링의 응용

텍스트 요약은 문서나 책의 주제를 식별하는 데 사용할 수 있습니다.
시험 점수에서 후보자 편향을 제거하는 데 사용할 수 있습니다.
주제 모델링은 그래프 기반 모델에서 단어 간의 의미 관계를 구축하는 데 사용될 수 있습니다.
고객문의 키워드를 감지하고 대응하여 고객 서비스를 향상시킬 수 있습니다. 고객은 적절한 순간에 고객에게 번거로움 없이 필요한 지원을 제공했기 때문에 고객이 더 많이 신뢰하게 될 것입니다. 결과적으로 고객 충성도가 급격히 상승하고 회사의 가치가 높아집니다.

결론

토픽 모델링은 텍스트 모음에 존재하는 추상적인 "주제"를 밝히는 데 사용되는 일종의 통계 모델링입니다.

에 사용되는 통계적 모형의 한 형태이다. 기계 학습 텍스트 세트에 존재하는 추상적인 개념을 밝히기 위한 자연어 처리.

본문에서 잠재 의미 패턴을 찾는 데 널리 사용되는 텍스트 마이닝 방법입니다.

초심자를 위한 토픽 모델링 소개

토픽 모델링이란?