Most Favorite
- ML with SckitLearn Light GBM(LGBM)의 개요와 파라미터 정의에 대해 LightGBM(LGBM) 개요? Light GBM은 Kaggle 데이터 분석 경진대회에서 우승한 많은 Tree기반 머신러닝 알고리즘에서 XGBoost와 함께 사용되어진것이 알려지며 더욱 유명해지게 되었습니다. GMB(Gradient Boosting Machine) 이란? 틀린부분에 가중치를 더하면서 진행하는 알고리즘 Gradient Boosting 프레임워크로 Tree기반 학습 알고리즘입니다. 기존의 다른 Tree기반 알고리즘과 다른점은 Tree구조가 수평적으로 확장하는 다른 Tree기반 알고리즘에 비해 수직적으로 확장을 하는것에 있습니다. 즉, Light GBM은 leaf-wise인 반면 다른 알고리즘은 level-wise입니다. leaf-wise의 장점은 속도가 빠르다는 것이 가장 큰 장점입니다. ..
- Lecture ML 머신러닝 강좌 #7] 머신러닝 모델 성능 평가 - 정확도 (Accuracy), Confusion Matrix 머신러닝 모델은 여러 가지 방법으로 예측 성능을 평가할 수 있습니다. 성능 평가 지표(Evaluation Metrics)는 일반적으로 모델이 분류냐 회귀냐에 따라 여러 종류로 나뉩니다. 회귀의 경우 대부분 실제값과 예측값의 오차 평균값에 기반합니다. 예를 들어 오차에 절댓값을 씌운 뒤 평균 오차를 구하거나 오차의 제곱 값에 루트를 씌운 뒤 평균 오차를 구하는 방법과 같이 기본적으로 예측 오차를 가지고 정규화 수준을 재가공하는 방법이 회귀의 성능 평가 지표 유형입니다. 분류의 평가방법도 일반적으로는 실제 결과 데이터와 예측 결과 데이터가 얼마나 정확하고 오류가 적게 발생하는가에 기반하지만, 단순히 이러한 정확도만 가지고 판단했다가는 잘못된 평가 결과에 빠질수 있습니다. 특히 0과 1로 결정값이 한정되는 이..
- ML with SckitLearn Kmeans의 K값을 정하는 기준 : Elbow Method, Silhouette Score(실루엣 스코어) K-means 알고리즘의 적정의 K값을 선택하는 어려움이 있습니다. 다양한 방법으로 최적의 K를 구하는 방법이 있습니다. 이 중 가장 보편적으로 사용하는 Elbow Method, Silhouette Score에 대해 알아보겠습니다. Elbow Method 가장 보편적으로 이용되는 방법으로 클러스터 내의 총 변동을 설명하는 WCSS(Within Clusters Sum of Squares)를 이용합니다. WCSS= ∑Pi in Cluster1 distance (Pi C1)2 +∑Pi in Cluster2distance (Pi C2)2+∑Pi in CLuster3 distance (Pi C3)2 다음의 방법으로 이용합니다. 1. 사용하고자 하는 클러스터 범위를 지정한다. 2. 각 클러스터를 WCSS방법으로 계..
- ML with SckitLearn 데이터 전처리하기 : 레이블 인코딩 (Label Encoding), 원-핫 인코딩(One-Hot Encoding), get_dummies()를 Pandas에서 사용하기 데이터 전처리(Data Processing)는 ML알고리즘만큼 중요합니다. ML 알고리즘을 데이터에 기반하고 있기 때문에 어떤 데이터를 입력으로 가지느냐에 따라 결과도 크게 달라질 수 있습니다. (Garbage In, Garbage Out) 기본적으로 결손값, 즉 NaN, Null 값은 허용되지 않습니다. 따라서 이러한 Null 값은 고정된 다른 값으로 변환해야 합니다. Null 값을 어떻게 처리해야 할지는 경우에 따라 다릅니다. 피처 값 중 Null 값이 얼마 되지 않는다면 피처의 평균값 등으로 간단히 대체할 수 있습니다. 하지만 Null 값이 대부분이라면 오히려 해당 피처는 Drop 하는 것이 좋습니다. 가장 결정이 힘든 부분이 Null값이 일정 수준 이상 되는 경우입니다. 정확히 몇 퍼센트까지를 일..
- NPL with ML 감성 분석 (Sentiment Analysis) - 비지도학습 기반, VADER 비지도 감성 분석은 Lexicon을 기반으로 합니다. 많은 감성 분석용 데이터는 이러한 결정된 레이블 값을 가지고 있지 않습니다. 이러한 경우에 Lexicon은 유용하게 사용될 수 있습니다. (검색을 통해 여러가지 한글 Lexicon을 찾아볼 수 있습니다.) 텍스트 분석(Text Analytics)을 하다보면 시맨틱(Semantic)이라는 용어를 자주 접하게 될 것입니다. '문맥상 의미'입니다. 이 문맥상 의미에 따라 동일한 단어라도 완전하게 달라지기 떄문에 제공되는 감성사전은 이 문맥을 파악하는데 가장 중점을 두고 있습니다. 감성사전을 위한 몇가지 사전은 하기와 같습니다. 1. NLTK: 시맨틱을 프로그램적으로 인터페이스화 할 수 있게 제공합니다. 제공되는 WordNet은 다양한 상황에서 같은 어휘라도..
ML with SckitLearn
- ML with SckitLearn 심장질환 발병 예측하기 - SVM, K Nearset Neighbour, ANN Multilayer Perceptron
- ML with SckitLearn Kmeans의 K값을 정하는 기준 : Elbow Method, Silhouette Score(실루엣 스코어)
- ML with SckitLearn 데이터 전처리하기 : 레이블 인코딩 (Label Encoding), 원-핫 인코딩(One-Hot Encoding), get_dummies()를 Pandas에서 사용하기
- ML with SckitLearn K-Means 알고리즘의 원리와 이해 한판에 배워보기
- ML with SckitLearn 머신러닝, 클러스터 가우시안 가상데이터 생성하는 make_blobs를 이용한 K-means 실습 (Elbow Method 사용)
- ML with SckitLearn Light GBM(LGBM)의 개요와 파라미터 정의에 대해
- ML with SckitLearn Faiss를 이용한 K-means구현 [사이킷런에 비해 8X 빠르고, 27X 적은 에러 구현]
- ML with SckitLearn 로지스틱 회귀 : Logistic Regression, 시그모이드(sigmoid)를 이용한 분류 회귀
NPL with ML
- NPL with ML Python 머신러닝, 한글 감정분석을 위한 리뷰 분석 : 프로그램부터 실전적용까지 (rhinoMorph이용
- NPL with ML Python에서 SpaCy를 사용한 텍스트 분류를 위한 기계 학습
- NPL with ML 텍스트 분석 실습 - Mercari Price Suggestion Challenge
- NPL with ML 토픽 모델링 [Topic Modeling] - LDA기법 소스포함
- NPL with ML 감성 분석 (Sentiment Analysis) - 비지도학습 기반, VADER
- NPL with ML 감성 분석 (Sentiment Analysis) - 지도학습 기반
- NPL with ML 문서 유사도 측정 - 코사인 유사도(Cosine Similarity)와 실전 연습 코드
- NPL with ML 한글 텍스트 처리 위한 KoNLPy를 이용한 네이버 영화 평점 감정 분석
Recommendation
- ML Recommendation 포트폴리오를 위한 추천 알고리즘 구현 [3장] : Scikit-Surprise
- ML Recommendation 포트폴리오를 위한 추천 알고리즘 구현 [2장] : Scikit-Surprise
- ML Recommendation 포트폴리오를 위한 추천 알고리즘 구현 [1장] : Scikit-Surprise
- ML Recommendation 아이템 기반 최근접 이웃 협업 필터링 실습 - MovieLens
- ML Recommendation 콘텐츠 기반 필터링 : TMDB 5000 Movie Dataset
- ML Recommendation 추천 시스템의 이해 : 콘텐츠 기반 필터링 추천 시스템 / 최근접 이웃 협업 필터링 / 잠재 요인 협업 필터링
ML & AI Theory
- ML & AI Theory tf.keras 모델의 저장과 복원
- ML & AI Theory tf.keras API. Sequential 모델 실습
- ML & AI Theory 텐서플로의 계산 그래프 : 1.0 vs 2.x 버젼 차이
- ML & AI Theory 텐서를 다차원 배열로 변환하기
- ML & AI Theory 텐서플로, 랭크와 텐서를 확인하는 방법
- ML & AI Theory 다층 신경망의 활성화 함수 : 시그모이드, 소프트맥스, 하이퍼볼릭탄젠트, 렐루함수
- ML & AI Theory 케라스 실습] tf.keras API를 사용한 다층 신경망 훈련 기본
- ML & AI Theory 텐서플로우 #1] 텐서플로우의 시작과 배열 구조 다루기
Pandas
- Pandas Pandas Sidetable: 판다스 똑똑하게 사용하기 - Freq, Counts, Missing, Subtotal
- Pandas 데이타 결측치(누락값, 결측값) 처리하기 : fillna (ffill, bfill), dropna, isnull
- Pandas Pandas에서 시간, 날짜 다루기 - to_datetime만 잘 다루면 끝!
- Pandas Pandas, read_excel()을 이용한 데이타 읽은 후 K-Means에 적용하기: 실습
- Pandas Pandas 기초 통계를 위한 groupby 응용 - nunique()와 matplot로 그래프 간단하게 그리기
- Pandas [TIP] Pycharm, Run Window에서 결과 값 전체 보이게 하기
- Pandas Pandas 데이터 추출, 활용 하기 : loc, iloc 활용 [슬라이싱]
- Pandas Pandas 데이터 추출, 활용 하기 : loc, iloc 활용 [행단위]
Python
- Python 제휴 모델 자동화[1 : 애드픽(AdPick)의 뉴스픽(NewsPick) 링크 자동으로 만들기
- Python Python으로 코호트 분석(Cohort Analysis)하고 Pandas 명령어 시행
- Python 입문자 위한 Python 기본 안내서 [2] : 제어문에 대해
- Python 입문자 위한 Python 기본 안내서 [1] : 자료형에 대해
- Python [실습] 매일 경제 기사 Python 크롤링 후 Dataframe에 넣은 후 CSV에 저장하기
- Python Top Python Libraries for Data Science, Data Visualization & Machine Learning
- Python [TIP] Jupyter에서 다른 폴더의 library, import 호출하기
- Python Python에서의 lambda(람다) Function의 사용
IT Tech
- IT Tech & Knowledge 액세스토큰 자동 발행기 : 티스토리를 위한 AccessToken 발
- IT Tech & Knowledge ChatGPI API 발급을 위한 OpenAI 절차
- IT Tech & Knowledge 티스토리API 자동글쓰기를 위한 오픈 API 발급 절차
- IT Tech & Knowledge ChatGPT API 연동 티스토리 자동글쓰기 포스팅 해보기 (2/2)
- IT Tech & Knowledge ChatGPT API 연동 티스토리 자동글쓰기 포스팅 해보기 (1/2) : 프로그램 포함
- IT Tech & Knowledge SQL Query 연습을 위한 기본 준비
- IT Tech & Knowledge 원격제어 프로그램 PARSEC 파섹 셋팅하기 : 언제나 원격제어 가능
- IT Tech & Knowledge 구글코랩 - 구글의 클라우드에서 GPU를 무료로 사용하는 분석
Analyst Life & Information
- Analyst Life 데이터 과학자 (Data Scientist) 인터뷰에 나오는 질문 Top8
- Analyst Life Data Scientist, ML Engineer가 구독해야 할 Youtube - 렉스 프리드먼 (Lex F ridman), 켄 지(Ken Jee), 야닉 킬처(Yannic Kilcher), 조던 해로 드(Jordan Harrod)
- Analyst Life [지식라이브ON] 세상을 읽는 새로운 언어, 빅데이터 (서울대 산업공학과 조성준 교수)
- Analyst Life 경영학 전공자가 뽑은 가장 매력적인 회사 TOP 50 : 삼성 43위
- Analyst Life Business Analyst와 Data Analyst : 업무, 책임, 기술, 연봉, 채용회사
- Analyst Life 팔란티어 투자를 시작합니다.
- Analyst Life GPT-3 유료화
- Analyst Life ‘머신러닝을 쉽게’··· 추천 오픈소스 도구 14선