KT-Aivle School (AI)/머신러닝 8

[모델링심화] 4. 시계열분석

Chapter 0. 선 요약 시계열 데이터 전처리 날짜 인덱스 만들기 사전확인 오류를 피하기 위한 Y 값 만들기 시간의 흐름에 맞는 NaN 조치 Cross-Validation 시계열 모델링 절차 모델 생성 > 잔차분석(train err) > 검증 > 예측평가(잔차분석(val_err), 평가지표) 잔차분석 ➔ 자기상관성, 편자기상관성이 없어야 한다. ➔ 정규분포여야 한다.(정규성 검정) ➔ 정상 데이터야 한다.(정상성 검정 : 평균 동일, 분산 일정, 임의 시점 공분산 일정) 전통적 시계열 모델링 ARIMA : AR(자기회귀) + I(차분) + MA(이동평균) 결합 모델 SARIMA : S(계절성) + ARIMA SARIMAX : SARIMA + X(Linear Regression) Chapter 1. 시..

[모델링심화] 2. Ensemble

Chapter 0. 선 요약 앙상블 ➔ 여러 모델을 가지고 종합적으로 판단 ➔ 앙상블의 종류: Bagging, Boosting, Stacking Bagging Bagging - Random Forest 1. 알고리즘의 원리, 개념 ➔ 여러 개의 tree를 만들어서 각 예측 값의 평균으로 최종 예측 ➔ 행과 변수(feature)에 무작위성이 부여되어, 조금씩은 다른 랜덤한 트리가 생성됨 (마치 다양한 사람들이 모여 집단지성을 이루듯) 2. 전제조건 ➔ NaN 조치, 가변수화 3. 성능 : hyper parameter, 복잡도 결정 요인 ➔ tree의 수(n_estimators)가 많으면 많을 수록 오히려 과적합을 회피하게 됨 ➔ 주요 하이퍼파라미터인 n_estimators, max_features를 기본값..

[모델링심화] 1. 성능

Chapter 0. 선 요약 성능 튜닝 1. 선형 모델 변수가 많을 수록 복잡한 모델 변수 선택법으로 AIC가 제일 작은 변수조합의 모델을 찾기 AIC = - 적합도 + 복잡도 (AIC 값으로 판단하는 모델은 선형모델, 로지스틱 회귀, 시계열) 2. 하이퍼파라미터 튜닝 Random Search : 주어진 범위 내에서, 지정된 횟수 만큼 무작위로 시도 Grid Search : 주어진 범위 내에서, 모든 조합을 시도 3. 튜닝 시 주의할 점 주어진 데이터에서 최고의 성능을 얻었을 지라도, 운영환경에서 그 성능이 보장되지 않을 수 있다. (데이터는 계속 변해간다) (너무 미세하게 조정할 필요 없다) 모델링의 목표 : 적절한 복잡도 + 적절한 예측력 일반화 성능 1. 성능 Variance(성능의 편차)와 Bia..

[모델링기초] 5. SVM

Chapter 0. 선 요약 서포트벡터 머신 (SVM) 1. 알고리즘의 원리, 개념 ➔ 마진을 최대화 하는 결정경계 찾기 ➔ 커널 트릭으로 비선형 결정경계 모델 생성 2. 전제조건 ➔ NaN 조치, 가변수화, 스케일링 3. 성능 : hyper parameter, 복잡도 결정 요인 ➔ C 가 클수록 모델이 복잡 (마진이 줄어듦) ➔ gamma가 클수록 모델이 복잡 (곡률반경이 줄어듦) (SVM은 모델 자체는 직선이나, 데이터에 트릭을 가해 곡선인 것처럼 보임) Chapter 1. Support Vector Machine SVM 기본 아이디어 ➔ 두 클래스 사이에 가장 넓은 도로(마진)를 내는 것. ➔ 마진을 가장 크게 하는 결정 경계선 ➔ 분류, 회귀 모두 사용 가능 중요한 용어 정리 ✓ 결정 경계(Dec..

[모델링기초] 4. Decision Tree

Chapter 0. 선 요약 의사결정 나무 (Decision Tree) 1. 알고리즘의 원리, 개념 ➔ 정보 전달량이 가장 높은 변수와 기준으로 split (트리 구조) ➔ 정보전달량 = 부모의 불순도 - 자식의 불순도 ➔ 불순도 계산방법: 지니, 정보엔트로피 2. 전제조건 ➔ NaN 조치, 가변수화 3. 성능 : hyper parameter, 복잡도 결정 요인 ➔ max_depth : 클수록 모델이 복잡 ➔ min_samples_leaf : 작을수록 모델이 복잡 세상에는 크게 3가지의 알고리즘군이 있다고 한다. 1. 딥러닝 (이미지, 자연어, 이상탐지 ...) 2. 베이지안 3. 트리기반 앙상블 그 기반이 되는 결정트리에 대하여 Chapter 1. Decision Tree Tree 기반 알고리즘 ➔ 특..

[모델링기초] 3. 분류모델

Chapter 0. 선 요약 로지스틱 회귀 1. 알고리즘의 원리, 개념 ➔ 선형 판별식을 찾고(선형회귀분석처럼 직선을 먼저 찾음), 선형 판별식으로 부터의 거리를 0~1로 변환 (로지스틱 회귀의 선형판별식은 데이터가 선형회귀분석과 같을지라도 기울기나 절편이 다름) (선형회귀와 로지스틱 회귀의 오차계산은 다르기 때문) (MSE - Log loss) 2. 전제조건 ➔ NaN 조치, 가변수화, feature들 간의 독립 3. 성능 : hyper parameter, 복잡도 결정 요인 ➔ 어떤 변수를 포함할 것인가?, 변수 선택이 중요. 변수가 많을 수록 복잡해짐 분류모델의 평가 1. 분류모델의 평가 ➔ 실제값과 예측 값에 대한 교차표(confusion matrix)를 만들고 이것으로 부터 성능지표 계산 2. 성..

[모델링기초] 2. K-최근접이웃 (K-Nearest Neighbors)

Chapter 0. 선요약 KNN 1. 알고리즘의 원리, 개념 ➔ 거리를 계산하는 알고리즘 (스케일링이 필요) ➔ 학습데이터와 예측해야할 데이터의 거리를 계산하여 가까운 k 개 이웃의 label을 확인하고 나서 평균으로 예측 (이웃은 Train Data에서 찾음) 2. 전제조건 ➔ NaN 조치, 가변수화, 스케일링(필수) 3. 성능 : hyper parameter, 복잡도 결정 요인 ➔ k 값이 클수록 단순한 모델. 작을 수록 복잡한 모델 (K값은 최대로 train의 개수만큼 올릴 수 있으나, 이 모델은 평균모델과 동일하다.) ➔ 거리계산법에 의해서도 성능이 달라짐 (거리계산법에는 유클리드와 맨하탄이 있다.) Chapter 1. K-Nearest Neighbors (KNN) KNN KNN은 거리를 계산하..

[모델링기초] 1. 선형회귀

Chapter 0. 선 요약 선형회귀 (Linear Regression) 1. 알고리즘의 원리 개념 ➔ 선형회귀식(직선, 평면식)으로 Target과의 관계를 설명하는 모델 ➔ 오차를 최소화해주는 선형회귀식을 찾는 최적화과정 2. 전제조건 ➔ NaN 조치, 가변수화, feature들은 독립성 가정을 충족해야 함 (다중 공선성 문제 등) 3. 성능: hyper parameter, 복잡도 결정 요인 ➔ 어떤 변수를 포함할 것인가? 즉, 선형회귀에서는 변수 선택이 가장 중요. ➔ 변수가 많을 수록 복잡해짐. 회귀모델 평가 1. 오차 비 : R-squared(평균모델 오차 대비, 회귀모델이 오차를 해결한 비율) = 모델의 설명력, 결정계수 (최소값: -∞, 최대값: 1) 2. 오차의 양 : MSE, RMSE (오..