모든 유형의 기업 활동에 대한 기본 기준 중 하나는 정보의 효과적인 활용입니다. 어느 시점에서 생성되는 데이터의 양이 기본 처리 용량을 초과합니다.
기계 학습 알고리즘이 작동하는 곳입니다. 그러나 이러한 일이 발생하기 전에 정보를 연구하고 해석해야 합니다. 간단히 말해서, 비지도 머신 러닝이 사용되는 것입니다.
이 기사에서는 알고리즘, 사용 사례 등을 포함하여 감독되지 않은 기계 학습을 심층적으로 조사할 것입니다.
비지도 머신 러닝이란 무엇입니까?
비지도 머신 러닝 알고리즘은 알려지거나 레이블이 지정된 결과가 없는 데이터 세트의 패턴을 식별합니다. 감독 기계 학습 알고리즘 레이블이 지정된 출력이 있습니다.
이 차이점을 알면 출력 데이터에 대한 값/답이 무엇인지 모르기 때문에 비지도 머신 러닝 방법을 회귀 또는 분류 문제를 해결하는 데 사용할 수 없는 이유를 이해하는 데 도움이 됩니다. 값/답을 모르면 알고리즘을 정상적으로 훈련할 수 없습니다.
또한 비지도 학습을 사용하여 데이터의 기본 구조를 식별할 수 있습니다. 이러한 알고리즘은 사람의 개입 없이 숨겨진 패턴이나 데이터 그룹을 감지합니다.
정보의 유사점과 대조를 감지하는 능력은 탐색적 데이터 분석, 교차 판매 기술, 소비자 세분화 및 사진 식별에 탁월한 선택이 됩니다.
다음 시나리오를 고려하십시오. 식료품점에서 전에 본 적이 없는 미확인 과일을 봅니다. 모양, 크기, 색상을 관찰하면 주변의 다른 과일과 다른 미지의 과일을 쉽게 구별할 수 있습니다.
비지도 머신 러닝 알고리즘
클러스터링
클러스터링은 의심할 여지 없이 가장 널리 사용되는 비지도 학습 접근 방식입니다. 이 접근 방식은 관련 데이터 항목을 무작위로 생성된 클러스터에 넣습니다.
자체적으로 ML 모델은 분류되지 않은 데이터 구조에서 패턴, 유사점 및/또는 차이점을 발견합니다. 모델은 데이터에서 자연스러운 그룹화 또는 클래스를 발견할 수 있습니다.
유형
사용할 수 있는 클러스터링에는 여러 가지 형태가 있습니다. 먼저 가장 중요한 것부터 살펴보자.
- "하드" 클러스터링이라고도 하는 독점 클러스터링은 단일 데이터 조각이 하나의 클러스터에만 속하는 그룹화 유형입니다.
- 종종 "소프트" 클러스터링으로 알려진 중첩 클러스터링을 사용하면 데이터 개체가 다양한 정도로 둘 이상의 클러스터에 속할 수 있습니다. 또한 확률적 클러스터링은 "소프트" 클러스터링 또는 밀도 추정 문제를 해결하고 특정 클러스터에 속하는 데이터 포인트의 확률 또는 가능성을 평가하는 데 사용할 수 있습니다.
- 이름에서 알 수 있듯이 그룹화된 데이터 항목의 계층을 만드는 것이 계층적 클러스터링의 목표입니다. 데이터 항목은 계층을 기반으로 분해되거나 결합되어 클러스터를 생성합니다.
사용 사례:
- 이상 탐지:
클러스터링을 사용하여 데이터의 모든 유형의 이상값을 감지할 수 있습니다. 예를 들어 운송 및 물류 회사는 이상 감지를 활용하여 물류 장애를 발견하거나 손상된 기계 부품을 공개할 수 있습니다(예측 유지보수).
금융 기관은 이 기술을 사용하여 사기 거래를 감지하고 신속하게 대응하여 잠재적으로 많은 비용을 절약할 수 있습니다. 비디오를 시청하여 비정상 및 사기를 발견하는 방법에 대해 자세히 알아보십시오.
- 고객 및 시장 세분화:
클러스터링 알고리즘은 유사한 특성을 가진 사람들을 그룹화하고 보다 효과적인 마케팅 및 타겟 이니셔티브를 위한 소비자 페르소나를 생성하는 데 도움이 될 수 있습니다.
K- 평균
K-평균은 분할 또는 분할이라고도 하는 클러스터링 방법입니다. 데이터 포인트를 K로 알려진 미리 결정된 수의 클러스터로 나눕니다.
K-평균 방법에서 데이터에서 식별하려는 클러스터 수를 컴퓨터에 알려 주기 때문에 K는 입력입니다. 각 데이터 항목은 이후에 중심(그림의 검은 점)으로 알려진 가장 가까운 클러스터 중심에 할당됩니다.
후자는 데이터 저장 공간으로 사용됩니다. 클러스터링 기술은 클러스터가 잘 정의될 때까지 여러 번 수행할 수 있습니다.
퍼지 K-평균
퍼지 K-평균은 중첩 클러스터링을 수행하는 데 사용되는 K-평균 기술의 확장입니다. K-평균 기법과 달리 퍼지 K-평균은 데이터 포인트가 각각에 대한 근접도가 다양한 많은 클러스터에 속할 수 있음을 나타냅니다.
데이터 포인트와 클러스터의 중심 사이의 거리는 근접성을 계산하는 데 사용됩니다. 그 결과 다양한 클러스터가 겹치는 경우가 있을 수 있습니다.
가우스 혼합 모델
가우스 혼합 모델(GMM)은 확률적 클러스터링에 사용되는 방법입니다. 평균과 분산을 알 수 없기 때문에 모델은 각각 고유한 클러스터를 나타내는 고정된 수의 가우스 분포가 있다고 가정합니다.
특정 데이터 포인트가 속한 클러스터를 결정하기 위해 기본적으로 이 방법이 사용됩니다.
계층 적 클러스터링
계층적 클러스터링 전략은 다른 클러스터에 할당된 각 데이터 포인트로 시작할 수 있습니다. 그런 다음 서로 가장 가까운 두 클러스터가 단일 클러스터로 혼합됩니다. 맨 위에 하나의 클러스터만 남을 때까지 반복 병합이 계속됩니다.
이 방법은 상향식 또는 응집으로 알려져 있습니다. 동일한 클러스터에 연결된 모든 데이터 항목으로 시작한 다음 각 데이터 항목이 별도의 클러스터로 할당될 때까지 분할을 수행하는 경우 이 방법을 하향식 또는 분할 계층적 클러스터링이라고 합니다.
Apriori 알고리즘
장바구니 분석은 선험적 알고리즘을 대중화하여 음악 플랫폼 및 온라인 상점에 대한 다양한 추천 엔진을 낳았습니다.
다른 제품의 소비를 기반으로 한 제품을 소비할 가능성을 예측하기 위해 트랜잭션 데이터 세트에서 빈번한 항목 집합 또는 항목 그룹을 찾는 데 사용됩니다.
예를 들어, Spotify에서 "Counting Stars"로 OneRepublic의 라디오를 재생하기 시작하면 이 채널의 다른 노래 중 하나는 "Bad Liar"와 같은 Imagine Dragon의 노래가 될 것입니다.
이것은 나의 이전 듣기 습관과 다른 사람들의 듣기 패턴을 기반으로 합니다. Apriori 방법은 해시 트리를 사용하여 항목 집합을 계산하고 데이터 집합 너비 우선을 순회합니다.
차원 축소
차원 축소는 데이터 세트의 기능 또는 차원 수를 최소화하기 위해 전략 모음을 사용하는 일종의 비지도 학습입니다. 우리가 명확히 할 수 있습니다.
생성하는 동안 가능한 한 많은 데이터를 통합하고 싶을 수 있습니다. 머신 러닝을 위한 데이터 세트. 오해하지 마십시오. 이 전략은 일반적으로 더 많은 데이터가 더 정확한 결과를 산출하므로 잘 작동합니다.
데이터가 N차원 공간에 저장되고 각 기능이 다른 차원을 나타낸다고 가정합니다. 데이터가 많은 경우 수백 개의 차원이 있을 수 있습니다.
특성을 나타내는 열과 데이터 항목을 나타내는 행이 있는 Excel 스프레드시트를 고려하십시오. 차원이 너무 많으면 ML 알고리즘이 제대로 수행되지 않을 수 있으며 데이터 시각화 어려워질 수 있습니다.
따라서 특성이나 차원을 제한하고 적절한 정보만 전달하는 것이 논리적입니다. 차원 축소가 바로 그것입니다. 데이터 세트의 무결성을 손상시키지 않으면서 관리 가능한 양의 데이터 입력을 허용합니다.
주성분 분석 (PCA)
주성분 분석은 차원 축소 접근 방식입니다. 거대한 데이터 세트의 기능 수를 최소화하는 데 사용되므로 정확성을 희생하지 않고도 데이터 단순성을 높일 수 있습니다.
데이터 세트 압축은 특징 추출이라는 방법으로 수행됩니다. 원래 세트의 요소가 더 작은 새 세트로 혼합되었음을 나타냅니다. 이러한 새로운 특성을 기본 구성 요소라고 합니다.
물론 비지도 학습 응용 프로그램에서 사용할 수 있는 추가 알고리즘이 있습니다. 위에 나열된 것들은 단지 가장 널리 퍼진 것이므로 더 자세히 논의합니다.
비지도 학습의 적용
- 비지도 학습 방법은 물체 인식과 같은 시각적 인식 작업에 활용됩니다.
- 비지도 머신 러닝은 영상 식별, 분류 및 분할과 같은 의료 영상 시스템에 중요한 측면을 제공하며, 이는 방사선 및 병리학에서 환자를 빠르고 안정적으로 진단하는 데 사용됩니다.
- 비지도 학습은 소비자 행동에 대한 과거 데이터를 활용하여 보다 효과적인 교차 판매 전략을 만드는 데 사용할 수 있는 데이터 추세를 식별하는 데 도움이 될 수 있습니다. 체크아웃 과정에서 온라인 비즈니스에서 고객에게 올바른 추가 기능을 제안하는 데 사용됩니다.
- 비지도 학습 방법은 엄청난 양의 데이터를 선별하여 이상값을 찾을 수 있습니다. 이러한 비정상은 장비 오작동, 사람의 실수 또는 보안 침해에 대한 알림을 높일 수 있습니다.
비지도 학습의 문제
비지도 학습은 다음과 같은 중요한 통찰력을 찾을 수 있는 가능성에서 다양한 방식으로 매력적입니다. 값비싼 데이터 레이블 지정을 피하기 위한 데이터 작업. 그러나 이 전략을 사용하여 훈련하는 데에는 몇 가지 단점이 있습니다. 기계 학습 모델 당신이 알고 있어야합니다. 여기 몇 가지 예가 있어요.
- 입력 데이터에 응답 키 역할을 하는 레이블이 없기 때문에 비지도 학습 모델의 결과가 덜 정확할 수 있습니다.
- 비지도 학습은 종종 대규모 데이터 세트와 함께 작동하므로 계산 복잡성이 증가할 수 있습니다.
- 이 접근 방식을 사용하려면 문의 주제에 대한 내부 또는 외부 전문가인 인간의 출력 확인이 필요합니다.
- 알고리즘은 시간이 걸리는 훈련 단계 전반에 걸쳐 가능한 모든 시나리오를 검사하고 계산해야 합니다.
결론
효과적인 데이터 활용은 특정 시장에서 경쟁 우위를 구축하는 열쇠입니다.
감독되지 않은 기계 학습 알고리즘을 사용하여 데이터를 분할하여 대상 고객의 선호도를 조사하거나 특정 감염이 특정 치료에 어떻게 반응하는지 결정할 수 있습니다.
몇 가지 실용적인 응용 프로그램이 있으며, 데이터 과학자, 엔지니어 및 설계자가 목표를 정의하고 회사를 위한 고유한 ML 솔루션을 개발하는 데 도움을 줄 수 있습니다.
댓글을 남겨주세요.