보스턴 주택 가격 예측
사이킷런 LinearRegression을 이용한 보스턴 주택 가격 예측
문제
주택 가격을 Regression으로 예측하는 것
데이터는 scikit-learn 패키지에 있는 boston 데이터 사용
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
from scipy import stats
from sklearn.datasets import load_boston
%matplotlib inline
# boston 데이타셋 로드
boston = load_boston()
# boston 데이...
자주 헷갈리는 함수들
train_test_split
stratify
문제: trainX, testX, trainY, testY 로 나눌것이라고 하고, Y는 binary[0, 1]로 구성되어있으며 0: 25%, 1: 75% 있다고 하자
trainX 안에서 0, 1인 label을 이루는 ‘데이터’ 비율을 25% 75%로 그대로 유지하고 싶다면 stratify = Y 로 설정해야함
그렇지 않으면 trainX에 10% 90% / testX에 30% 70% 이런식으로 비율이 달라질 수도 있음
사용할 때 간단 요령
feature data, label data 분류할 때 헷갈리지 않는 법
인자 순서대...
산탄데르 고객 만족 예측
파이썬 머신러닝 완벽가이드 내용임.
데이터를 어떻게 다뤄서 모델의 성능을 높이는지에 주목
문제
370개의 피처로 주어진 데이터 세트 기반으로 고객 만족 여부(0 or 1) 예측하는 것
Kaggle-Data
성능평가
ROC-AUC로 평가
대부분이 만족하며 불만족인 데이터는 일부일 것이기 때문에 정확도 수치보다는 ROC-AUC가 더 적합함
진행과정
바로 lightGBM에 적용시켜서 accuracy, roc_auc 값 출력해봄
import pandas as pd
import numpy as np
from ...
123 post articles, 25 pages.