캐글 대회 문제

MovieLens 협업 필터링 추천 시스템

아이템 기반 최근접 이웃 협업 필터링 추천 시스템을 공부하던 중 칼럼 이름을 바꿀 상황이 생겨서 글로 정리한다. MovieLens 데이터를 사용했으며 데이터 형태는 아래와 같다. import pandas as pd import numpy as np movies = pd.read_csv('./data/movies.csv') ratings = pd.read_csv('./data/ratings.csv') print(movies.shape, ratings.shape) (9742, 3) (100836, 4) movies.head() movieId tit...

Read more

TMDB 영화 데이터

Kaggle TMDB 데이터 콘텐트 기반 필터링 import pandas as pd import ast credit = pd.read_csv('./data/tmdb_5000_credits.csv') movies = pd.read_csv('./data/tmdb_5000_movies.csv') print(movies.columns) Index(['budget', 'genres', 'homepage', 'id', 'keywords', 'original_language', 'original_title', 'overview', 'popularity', 'production_companies', ...

Read more

에임스 지방 주택 가격 예측

문제 미국 아이오와 주의 에임스(Ames) 지방의 주택 가격 정보를 알아보는 회귀 문제 성능 평가는 RMSLE(Root Mean Squared Log Error)로 진행됨 가격이 비싼 주택일수록 예측 결과 오류가 전체 오류에 미치는 비중이 커지므로 이를 상쇄하기 위해 오류 값을 로그 변환한 RMSLE로 사용함 데이터 데이터 사전 처리(Preprocessing) import warnings warnings.filterwarnings('ignore') import pandas as pd import numpy as np import seaborn as sns import...

Read more

자전거 수요 예측

문제 자전거 대여 수요 예측 자전거를 대여하는 Count 값을 예측하는 Regression 문제 데이터 Bike Sharing Demand 답안 코드 보기 전 내가 먼저 접근해보기 접근 목표 선형 회귀, 트리 기반 회귀 성능 비교 pipeline을 통해 표준정규분포화, linearRegression 학습까지 동시에 진행 점수 산출은 rmse로! 주의해야 할 점은 rmse로 할 때 cross_val_score는 neg를 꼭 붙여줘야함 접근하면서 의문점 ...

Read more

보스턴 주택 가격 예측

사이킷런 LinearRegression을 이용한 보스턴 주택 가격 예측 문제 주택 가격을 Regression으로 예측하는 것 데이터는 scikit-learn 패키지에 있는 boston 데이터 사용 import numpy as np import matplotlib.pyplot as plt import pandas as pd import seaborn as sns from scipy import stats from sklearn.datasets import load_boston %matplotlib inline # boston 데이타셋 로드 boston = load_boston() # boston 데이...

Read more

신용카드 사기검출

문제 신용카드 사기 검출 데이터 링크 클래스 0: 정상적인 트랜잭션 클래스 1: 사기 트랜잭션 분석 사기 검출, 이상 검출등은 레이블 값이 불균형한 경우가 많음. 대부분 정상이고 극소수가 비정상이기 때문 이를 해결하기 위한 기법 Oversampling 이상 데이터와 같은 적은 데이터 세트를 증식시켜 충분한 데이터를 확보함 동일한 데이터를 증식시키는건 과적합 되기 때문에 의미가 없으므로 원본 데이터 피쳐 값들을 아주 약간만 변형시켜 증식시킴 대표적 증식방법으로 SMOTE(Syntheti...

Read more

산탄데르 고객 만족 예측

파이썬 머신러닝 완벽가이드 내용임. 데이터를 어떻게 다뤄서 모델의 성능을 높이는지에 주목 문제 370개의 피처로 주어진 데이터 세트 기반으로 고객 만족 여부(0 or 1) 예측하는 것 Kaggle-Data 성능평가 ROC-AUC로 평가 대부분이 만족하며 불만족인 데이터는 일부일 것이기 때문에 정확도 수치보다는 ROC-AUC가 더 적합함 진행과정 바로 lightGBM에 적용시켜서 accuracy, roc_auc 값 출력해봄 import pandas as pd import numpy as np from ...

Read more