본문 바로가기

Lecture ML

머신러닝 강좌 #24] 사이킷런 LinearRegression을 이용한 보스턴 주택 가격 예측

반응형

사이킷런의 linear_models모듈은 매우 다양한 종류의 선형 기반 회귀를 클래스로 구현해 제공합니다. 선형 모델 중 규제가 적용되지 않은 선형 회귀를 사이킷런에서 구현한 클래스인 LinearRegression을 이용해 보스턴 주택 가격 예측 회귀를 구현합니다.

 

LinearRegression 클래스 - Ordinary Least Squares

LinearRegression 클래스는 예측값과 실제 값의 RSS(Residual Sum of Squares)를 최소화해 OLS(Ordinary Least Squares)추정 방식으로 구현한 클래스입니다. LinearRegression클래스는 fit()메소드로 X, y배열을 입력 받으면 회귀 계수(Coefficients)인 W를 coef_속성에 저장합니다.

 

관련 파라미터와 속성은 다음과 같습니다.

  • fit_intercept: 불린 값으로, 디폴트는 True입니다. intercept(절편) 값을 계산할 것인지 말지를 지정합니다. 만일 False로 지정하면 intercept가 사용되지 않고 0으로 지정됩니다.
  • normalize: 불린 값으로 디폴트는 False입니다. fit_intercept가 False인 경우에는 이 파라미터가 무시됩니다. 만일True이면 회귀를 수행하기 전에 입력 데이터 세트를 정규화합니다.
  • coef_: fit()메소드를 수행했을 때 회귀 계수가 배열 형태로 저장하는 속성. Shape는 (Target값 개수, 피처 개수)
  • intercept_: 절편(intercept)값

 

Ordinary Least Squares기반의 회귀 계수 계산은 입력 피처의 독립성에 많은 영향을 받습니다. 피처간의 상간관계가 매우 높은 분산이 매우 커져서 오류에 매우 민감해집니다. 이러한 현상을 다중공선성(multi-colinearity)문제라고 합니다. 일반적으로 상관관계가 높은 피처가 많은 경우 독립적인 중요한 피처만 남기고 제거하거나 규제를 적용합니다. 또한 매우 많은 피처가 다중 공선성 문제를 가지고 있다면 PCA를 통해 차원 축소를 수행하는 것도 고려해 볼 수 있습니다.

 

 

회귀 평가 지표

회귀의 평가를 위한 지표는 실제 값과 회귀 예측값의 차이 값을 기반으로 한 지표가 중심입니다. 실제 값과 예측값의 차이를 그냥 더하면 +와 -가 섞여서 오류가 상쇄됩니다. 이런 이류로 오류의 절댓값 평균이나 제곱, 또는 제곱한 뒤 다시 루트를 씌운 평균값을 구합니다.

 

- 자세한 사항은 이곳 - 

 

선형 회귀 분석 - LinearRegression

LinearRegression 선형 회귀 분석 - LinearRegression LinearRegression 클래스는 예측값과 실제 값의 RSS(Residual Sum of Squares)를 최소화해 OLS(Ordinary Least Squares)추정 방식으로 구현한 클래스입니..

nicola-ml.tistory.com

 

반응형