Most Favorite
-
ML with SckitLearn
Kmeans의 K값을 정하는 기준 : Elbow Method, Silhouette Score(실루엣 스코어)
K-means 알고리즘의 적정의 K값을 선택하는 어려움이 있습니다. 다양한 방법으로 최적의 K를 구하는 방법이 있습니다. 이 중 가장 보편적으로 사용하는 Elbow Method, Silhouette Score에 대해 알아보겠습니다. Elbow Method 가장 보편적으로 이용되는 방법으로 클러스터 내의 총 변동을 설명하는 WCSS(Within Clusters Sum of Squares)를 이용합니다. WCSS= ∑Pi in Cluster1 distance (Pi C1)2 +∑Pi in Cluster2distance (Pi C2)2+∑Pi in CLuster3 distance (Pi C3)2 다음의 방법으로 이용합니다. 1. 사용하고자 하는 클러스터 범위를 지정한다. 2. 각 클러스터를 WCSS방법으로 계..
-
Lecture ML
머신러닝 강좌 #7] 머신러닝 모델 성능 평가 - 정확도 (Accuracy), Confusion Matrix
머신러닝 모델은 여러 가지 방법으로 예측 성능을 평가할 수 있습니다. 성능 평가 지표(Evaluation Metrics)는 일반적으로 모델이 분류냐 회귀냐에 따라 여러 종류로 나뉩니다. 회귀의 경우 대부분 실제값과 예측값의 오차 평균값에 기반합니다. 예를 들어 오차에 절댓값을 씌운 뒤 평균 오차를 구하거나 오차의 제곱 값에 루트를 씌운 뒤 평균 오차를 구하는 방법과 같이 기본적으로 예측 오차를 가지고 정규화 수준을 재가공하는 방법이 회귀의 성능 평가 지표 유형입니다. 분류의 평가방법도 일반적으로는 실제 결과 데이터와 예측 결과 데이터가 얼마나 정확하고 오류가 적게 발생하는가에 기반하지만, 단순히 이러한 정확도만 가지고 판단했다가는 잘못된 평가 결과에 빠질수 있습니다. 특히 0과 1로 결정값이 한정되는 이..
-
NPL with ML
감성 분석 (Sentiment Analysis) - 비지도학습 기반, VADER
비지도 감성 분석은 Lexicon을 기반으로 합니다. 많은 감성 분석용 데이터는 이러한 결정된 레이블 값을 가지고 있지 않습니다. 이러한 경우에 Lexicon은 유용하게 사용될 수 있습니다. (검색을 통해 여러가지 한글 Lexicon을 찾아볼 수 있습니다.) 텍스트 분석(Text Analytics)을 하다보면 시맨틱(Semantic)이라는 용어를 자주 접하게 될 것입니다. '문맥상 의미'입니다. 이 문맥상 의미에 따라 동일한 단어라도 완전하게 달라지기 떄문에 제공되는 감성사전은 이 문맥을 파악하는데 가장 중점을 두고 있습니다. 감성사전을 위한 몇가지 사전은 하기와 같습니다. 1. NLTK: 시맨틱을 프로그램적으로 인터페이스화 할 수 있게 제공합니다. 제공되는 WordNet은 다양한 상황에서 같은 어휘라도..
-
IT Tech & Knowledge
원격제어 프로그램 PARSEC 파섹 셋팅하기 : 언제나 원격제어 가능
01. 원격제어 프로그램 PARSEC 게임 공유용으로 만들어진 PARSEC(파섹)은 지금까지 사용해본 최고의 원격제어 프로그램이다. 최고의 장점은 셋팅을 하면 상대방의 허락없이 언제나 화면 공유가 가능하다는데 있다. 프로그램 납품이 많아 이슈사항 해결을 해야 하는 직군에게 최고의 원격제어 프로그램이라 할 수 있다. 02. PARSEC 설치하기 파섹 사이트 접속 후 프로그램 다운 Connect to Work or Games from Anywhere | Parsec Parsec is a remote desktop you'll actually love. Connect to work, games, or projects wherever you are, whenever you want. parsec.app 03. ..
-
04.컨볼루션 신경망
01. 심층 컨블루션 신경망(DCNN)
심층 컨볼루션 신경망(DCNN)은 여러 신경망 계층으로 구성합니다. 일반적으로 컨볼루션과 폴링(Pooling)이라는 두 유형의 계층이 번갈아 가며 사용됩니다. 각 필터의 깊이는 왼쪽에서 오른쪽으로 갈수록 깊어진다. 마지막 단계는 일반적으로 하나 이상의 완전 연결 계층으로 구성된다. 컨볼루션 개념에는 3가지 핵심 키워드로 로컬 수용 필요(Receptive Field), 가중치 공유, 풀링(Pooling)이 있다. 완전연결 계층의 문제점과 합성곱층(Convolutional Layer)의 발전 완전연결 계층(fully Connected Layer)을 이용해 MNIST데이터셋을 분류하는 모델을 만들 때, 3차원(세로, 가로, 채널)인 MNIST 데이터(28, 28, 1)를 입력층(Input Layer)에 넣어주..
Pandas
-
Pandas
Pandas Sidetable: 판다스 똑똑하게 사용하기 - Freq, Counts, Missing, Subtotal
-
Pandas
데이타 결측치(누락값, 결측값) 처리하기 : fillna (ffill, bfill), dropna, isnull
-
Pandas
Pandas에서 시간, 날짜 다루기 - to_datetime만 잘 다루면 끝!
-
Pandas
Pandas, read_excel()을 이용한 데이타 읽은 후 K-Means에 적용하기: 실습
-
Pandas
Pandas 기초 통계를 위한 groupby 응용 - nunique()와 matplot로 그래프 간단하게 그리기
-
Pandas
[TIP] Pycharm, Run Window에서 결과 값 전체 보이게 하기
-
Pandas
Pandas 데이터 추출, 활용 하기 : loc, iloc 활용 [슬라이싱]
-
Pandas
Pandas 데이터 추출, 활용 하기 : loc, iloc 활용 [행단위]
Analyst Life & Information