Home

보스턴 주택 가격 예측

사이킷런 LinearRegression을 이용한 보스턴 주택 가격 예측 문제 주택 가격을 Regression으로 예측하는 것 데이터는 scikit-learn 패키지에 있는 boston 데이터 사용 import numpy as np import matplotlib.pyplot as plt import pandas as pd import seaborn as sns from scipy import stats from sklearn.datasets import load_boston %matplotlib inline # boston 데이타셋 로드 boston = load_boston() # boston 데이...

Read more

미분 성질

시그마 미분 RSS 최적해 식 유도중 시그마 관련 항의 미분을 어떻게 해야 하는가 의문이였음 ${d\over dx}\sum x^n = \sum {d \over dx}x^n$ 위 식의 의미는 시그마에 속해있는 항에 대한 미분을 먼저 진행하고 시그마를 적용해도 된다는 것 미분 성질 이중적분 합성함수 미분 합성함수 합성함수는 두개 이상의 함수를 합쳐서 새로운 함수를 만드는 것 의문점 $f(x) = 1 + 4x$ 같은것도 합성함수라고 할 수 있는가?...

Read more

자주 헷갈리는 함수들

train_test_split stratify 문제: trainX, testX, trainY, testY 로 나눌것이라고 하고, Y는 binary[0, 1]로 구성되어있으며 0: 25%, 1: 75% 있다고 하자 trainX 안에서 0, 1인 label을 이루는 ‘데이터’ 비율을 25% 75%로 그대로 유지하고 싶다면 stratify = Y 로 설정해야함 그렇지 않으면 trainX에 10% 90% / testX에 30% 70% 이런식으로 비율이 달라질 수도 있음 사용할 때 간단 요령 feature data, label data 분류할 때 헷갈리지 않는 법 인자 순서대...

Read more

신용카드 사기검출

문제 신용카드 사기 검출 데이터 링크 클래스 0: 정상적인 트랜잭션 클래스 1: 사기 트랜잭션 분석 사기 검출, 이상 검출등은 레이블 값이 불균형한 경우가 많음. 대부분 정상이고 극소수가 비정상이기 때문 이를 해결하기 위한 기법 Oversampling 이상 데이터와 같은 적은 데이터 세트를 증식시켜 충분한 데이터를 확보함 동일한 데이터를 증식시키는건 과적합 되기 때문에 의미가 없으므로 원본 데이터 피쳐 값들을 아주 약간만 변형시켜 증식시킴 대표적 증식방법으로 SMOTE(Syntheti...

Read more

산탄데르 고객 만족 예측

파이썬 머신러닝 완벽가이드 내용임. 데이터를 어떻게 다뤄서 모델의 성능을 높이는지에 주목 문제 370개의 피처로 주어진 데이터 세트 기반으로 고객 만족 여부(0 or 1) 예측하는 것 Kaggle-Data 성능평가 ROC-AUC로 평가 대부분이 만족하며 불만족인 데이터는 일부일 것이기 때문에 정확도 수치보다는 ROC-AUC가 더 적합함 진행과정 바로 lightGBM에 적용시켜서 accuracy, roc_auc 값 출력해봄 import pandas as pd import numpy as np from ...

Read more