MovieLens 협업 필터링 추천 시스템
아이템 기반 최근접 이웃 협업 필터링
추천 시스템을 공부하던 중 칼럼 이름을 바꿀 상황이 생겨서 글로 정리한다.
MovieLens 데이터를 사용했으며 데이터 형태는 아래와 같다.
import pandas as pd
import numpy as np
movies = pd.read_csv('./data/movies.csv')
ratings = pd.read_csv('./data/ratings.csv')
print(movies.shape, ratings.shape)
(9742, 3) (100836, 4)
movies.head()
movieId
tit...
TMDB 영화 데이터
Kaggle TMDB 데이터 콘텐트 기반 필터링
import pandas as pd
import ast
credit = pd.read_csv('./data/tmdb_5000_credits.csv')
movies = pd.read_csv('./data/tmdb_5000_movies.csv')
print(movies.columns)
Index(['budget', 'genres', 'homepage', 'id', 'keywords', 'original_language',
'original_title', 'overview', 'popularity', 'production_companies',
...
에임스 지방 주택 가격 예측
문제
미국 아이오와 주의 에임스(Ames) 지방의 주택 가격 정보를 알아보는 회귀 문제
성능 평가는 RMSLE(Root Mean Squared Log Error)로 진행됨
가격이 비싼 주택일수록 예측 결과 오류가 전체 오류에 미치는 비중이 커지므로 이를 상쇄하기 위해 오류 값을 로그 변환한 RMSLE로 사용함
데이터
데이터 사전 처리(Preprocessing)
import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import numpy as np
import seaborn as sns
import...
보스턴 주택 가격 예측
사이킷런 LinearRegression을 이용한 보스턴 주택 가격 예측
문제
주택 가격을 Regression으로 예측하는 것
데이터는 scikit-learn 패키지에 있는 boston 데이터 사용
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
from scipy import stats
from sklearn.datasets import load_boston
%matplotlib inline
# boston 데이타셋 로드
boston = load_boston()
# boston 데이...
산탄데르 고객 만족 예측
파이썬 머신러닝 완벽가이드 내용임.
데이터를 어떻게 다뤄서 모델의 성능을 높이는지에 주목
문제
370개의 피처로 주어진 데이터 세트 기반으로 고객 만족 여부(0 or 1) 예측하는 것
Kaggle-Data
성능평가
ROC-AUC로 평가
대부분이 만족하며 불만족인 데이터는 일부일 것이기 때문에 정확도 수치보다는 ROC-AUC가 더 적합함
진행과정
바로 lightGBM에 적용시켜서 accuracy, roc_auc 값 출력해봄
import pandas as pd
import numpy as np
from ...