K-Means 알고리즘의 원리와 이해 한판에 배워보기

K-Means 클러스터링은 머신러닝에서는 가장 대중적인 비지도학습(Unsupervised) 클러스터링 방법 중 하나입니다.

각 데이타그룹의 중심점에 대표되는 K숫자를 정의하는 것으로 각 클러스터의 중심점을 대표하는 중심점을 찾는 방법입니다. 이 중심점이 바로 Centroid입니다. Python에서 K-Means가 작동하는 방법에 대해 알아보겠습니다.

실전에서도 바로 사용이 가능합니다.

1. K-Means 알고리즘 작동 방식

데이터를 처리하기 위해 K-Means 알고리즘은 모든 클러스터의 데이타를 무작위로 선택하여 중심점이 되는 데이타를 구한 후 반복 계산을 통해 중심 위치를 최적화하는 방식을 취합니다.

이 중심점이 안정화되었다고 하면 더이상 클러스터링을 할 수 없다고 판단하고 다른 중심점을 임의적으로 선정해 이 순서를 무한 반복해나갔니다.

2. K-Means 알고리즘 예제

Step1. Import LIbrary

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

데이타를 읽고 쓰기 위한 Pandas
효율적인 계산을 수행하기 위해 Numpy
Data를 비쥬얼로 표현하기 위한 matplotlib

Step2. Random Data 생성

X= -2*np.random.rand(100,2)
X1 = 1+2*np.random.rand(50,2)
X[50:100, :] = X1
plt.scatter(X[:, 0], X[:, 1], s=50, c='b')
plt.show()

random으로 100개와 50개의 데이타 그룹을 생성하고 2개 그룹으로 분류합니다. Two-Dimentioal Space를 이용하여 데이타가 분포되어 있는 내용을 확인합니다.

Step3. Scikit-Learn으로 K-Means를 선언하고 데이타 연결

from sklearn.cluster import KMeans
# Kmean = KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300, n_clusters=2, n_init=10, n_jobs=1, precompute_distances='auto',random_state=None, tol=0.0001, verbose=0)
Kmean = KMeans(n_clusters=2)
Kmean.fit(X)

Data를 처리하기 위해 Scikit-Learn의 Kmeans Library를 사용합니다. 여러가지 Option을 사용할 수 있으나 여기서는 단순하게 c_clusters만 사용하여 2개의 Cluster로 나누겠습니다.

Step4. 중심점(centroid)과 그래프 표시

print(Kmean.cluster_centers_)
print(Kmean.cluster_centers_[0])
plt.scatter(X[ : , 0], X[ : , 1], s =50, c='b')
plt.scatter(Kmean.cluster_centers_[0][0], Kmean.cluster_centers_[0][1], s=200, c='g', marker='s')
plt.scatter(Kmean.cluster_centers_[1][0], Kmean.cluster_centers_[1][1], s=200, c='r', marker='s')
plt.show()

2개 그룹의 중심점은 Kmean.cluster_centers_로 알 수 있으며 Arrary형식으로 되어 있어 X, Y좌표를 넣어주면 됩니다.

Step5. 알고리즘의 테스트

print(Kmean.labels_)

각 데이타가 어느 그룹에 Cluster가 되어 있는지 보기 위해 Kmean.labels_를 사용합니다.

도움이 되셨나요. 감사합니다.

'ML with SckitLearn' 카테고리의 다른 글

심장질환 발병 예측하기 - SVM, K Nearset Neighbour, ANN Multilayer Perceptron (0)	2021.03.27
Kmeans의 K값을 정하는 기준 : Elbow Method, Silhouette Score(실루엣 스코어) (0)	2020.12.15
데이터 전처리하기 : 레이블 인코딩 (Label Encoding), 원-핫 인코딩(One-Hot Encoding), get_dummies()를 Pandas에서 사용하기 (0)	2020.12.09
머신러닝, 클러스터 가우시안 가상데이터 생성하는 make_blobs를 이용한 K-means 실습 (Elbow Method 사용) (0)	2020.12.03
Light GBM(LGBM)의 개요와 파라미터 정의에 대해 (0)	2020.11.19
Faiss를 이용한 K-means구현 [사이킷런에 비해 8X 빠르고, 27X 적은 에러 구현] (0)	2020.11.14
로지스틱 회귀 : Logistic Regression, 시그모이드(sigmoid)를 이용한 분류 회귀 (0)	2020.10.25
라쏘 / 엘라스틱넷 회귀 : Lasso / ElasticNet Model 이란? Scikit Learn에서의 실습 (0)	2020.10.24

둔 앵거스 [:Dun Aengus:]

K-Means 알고리즘의 원리와 이해 한판에 배워보기

1. K-Means 알고리즘 작동 방식

2. K-Means 알고리즘 예제

Step1. Import LIbrary

Step2. Random Data 생성

Step3. Scikit-Learn으로 K-Means를 선언하고 데이타 연결

Step4. 중심점(centroid)과 그래프 표시

Step5. 알고리즘의 테스트

'ML with SckitLearn' 카테고리의 다른 글

티스토리툴바

K-Means 알고리즘의 원리와 이해 한판에 배워보기

1. K-Means 알고리즘 작동 방식

2. K-Means 알고리즘 예제

Step1. Import LIbrary

Step2. Random Data 생성

Step3. Scikit-Learn으로 K-Means를 선언하고 데이타 연결

Step4. 중심점(centroid)과 그래프 표시

Step5. 알고리즘의 테스트

'ML with SckitLearn' 카테고리의 다른 글

'ML with SckitLearn' Related Articles

티스토리툴바