일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 디자인 패턴
- 데이터 마이닝
- c++
- python
- 파이썬
- 데이터 분석
- numpy 기초
- 머신러닝
- 넘파이 기초
- ack
- 코딩테스트
- 코드트리
- lambda
- 합성곱 신경망
- 클러스터링
- cpp
- cpp class
- 기계학습
- java
- 넘파이
- 차원축소
- 자바
- 넘파이 배열
- Design Pattern
- OOP
- 네트워크 기초
- 코딩테스트실력진단
- Machine Learning
- NumPy
- 코테
- Today
- Total
준비하는 대학생
[기계학습] 군집분석 - 비계층적 클러스터링(k-means) 본문
1. K-means 클러스터링이란?
K-means 클러스터링은 군집분석의 한 방법으로, 데이터를 비슷한 특징을 가진 그룹으로 나누는 기법입니다. K-means 클러스터링은 각 데이터 포인트와 그룹의 중심 간의 거리를 측정하여 가장 가까운 그룹에 할당하는 방식으로 동작합니다. 이를 반복하여 그룹의 중심을 업데이트하고, 그룹 간의 거리를 줄여나가며 클러스터를 형성합니다.
K-means 클러스터링은 비계층적인 방식으로 동작하며, 클러스터의 개수를 미리 지정해주어야 합니다. 클러스터의 개수는 사용자가 정해주어야 하며, 적절한 클러스터 개수를 선택하는 것이 중요합니다.
2. K-means 클러스터링 예시
K-means 클러스터링 예시를 보겠습니다. 먼저, 필요한 라이브러리들을 import합니다.
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
다음으로, 랜덤한 데이터를 생성합니다.
np.random.seed(0)
n = 100
X = np.random.randn(n, 2)
생성한 데이터를 시각화해 보겠습니다.
plt.scatter(X[:,0], X[:,1])
plt.show()
이제, KMeans 클래스를 사용하여 클러스터링을 수행합니다.
k = 3
kmeans = KMeans(n_clusters=k)
kmeans.fit(X)
n_clusters는 클러스터의 개수를 나타냅니다. fit 메서드를 사용하여 클러스터링을 수행합니다.
클러스터링 결과를 시각화해 보겠습니다.
labels = kmeans.labels_
centers = kmeans.cluster_centers_
plt.scatter(X[:,0], X[:,1], c=labels, cmap='viridis')
plt.scatter(centers[:,0], centers[:,1], marker='*', s=300, c='r')
plt.show()
위 그래프에서 색상이 다른 점들은 서로 다른 클러스터에 속한 데이터 포인트들입니다. 빨간 별표는 각 클러스터의 중심을 나타냅니다.
3. K-means 클러스터링의 활용
K-means 클러스터링은 데이터 마이닝 및 기계학습 분야에서 매우 중요한 역할을 합니다. 예를 들어, 마케팅 분야에서는 고객들을 그룹으로 나누어 마케팅 전략을 세우거나, 고객 특성을 파악하여 새로운 상품을 개발하는 데 활용됩니다. 또한 의료 분야에서는 유전자 데이터를 군집분석하여 특정 질병에 대한 유전적인 원인을 파악하거나, 환자들을 그룹으로 나누어 개별적인 치료 방법을 제시하는 데 활용됩니다.
또한, K-means 클러스터링은 이미지 처리에도 매우 유용합니다. 예를 들어, 이미지의 픽셀을 클러스터링 하여 각 영역의 색상을 대표하는 색상값을 추출할 수 있습니다. 이를 이용하여 이미지의 특징을 파악하거나, 이미지의 색상을 조작하는 등의 작업을 수행할 수 있습니다.
4. 결론
K-means 클러스터링은 데이터를 비슷한 특징을 가진 그룹으로 나누는 기법 중 하나로, 데이터 분석 및 기계학습 분야에서 매우 중요한 역할을 합니다. 비계층적인 방식으로 동작하며, 클러스터의 개수를 미리 지정해주어야 합니다. 데이터를 시각화하고 이해하는 데 매우 유용하므로, 데이터 분석 및 기계학습 분야에서는 필수적인 기법 중 하나입니다.
'Programming > Machine learning' 카테고리의 다른 글
[Machine Learning] 주성분 분석(PCA) (0) | 2023.03.28 |
---|---|
[기계학습] k-means 클러스터링 - 최적의 k값 탐색 (2) | 2023.03.17 |
[기계학습] 군집분석 - 계층적 클러스터링 (0) | 2023.03.17 |
[NumPy] random 난수 생성 (0) | 2023.03.16 |
[NumPy] 확장 슬라이싱 (0) | 2023.03.15 |