통계학


시계열 데이터 분석 관련해서 좋은 무료강의 사이트: K-MOOC

데이터 사이언티스트를 위한 통계 기초 지식 사이트: 친절한 데이터사이언티스트되기 강좌


정규분포(가우시안 분포)

정규 분포 \[f(x) = {1 \over \sqrt{2\pi}\sigma}e^{-(x-m)^2 \over (2\sigma)^2}\] 평균 $ \mu $와 표준편차 $\sigma^2$에 의해 그 분포가 확정된다 평균값과 분산값을 이용해 구한 범위에서 위와같이 확률이 결정된다. 즉, 평균과 분산을 알면 확률값을 알 수 있다. 평균, 표준편차가 달라짐에 따라 위 그림과 같이 Gaussian 분포의 모양이 달라진다. Gaussian blur를 적용하기 위한 fuzzy filter가 있다고 할 때 표준편차가 커지면, fuzzy filter의 크기가 커지게 된다. 표준 정규 분포 평균 0, 표준...

Read more

Kernel Density Estimation

밀도추정(Density Estimation) 파이썬 머신러닝 완벽가이드 책을 읽다가 KDE(Kernel Density Estimation)에 대한 개념이 나와서 작성함 KDE(Kernel Density Estimation) 커널함수를 이용한 밀도추정 방법 밀도추정(Density Estimation) 우리가 확인할 수 있는 데이터는 어떤 변수가 가질 수 있는 다양한 가능성 중 하나가 구체화 된 것 데이터의 본질, 특성을 파악하기 위해서는 하나로는 부족. 많은 수의 데이터를 봐야함 많은 수의 데이터를 봄으로써 데이터의 분포를 확인할 수 있고 이 분포로부터 원래 변수의...

Read more

확률과 통계 기초 총정리

평균, 분산, 표준편차 개념잡기 위 정규분포 변환 공식의 직관적 이해 데이터 값을 평균으로 빼주면 평균이 0이 된다는것은 받아들여짐 표준편차라는 값의 의미는 데이터가 퍼진 정도를 의미함. 이 값으로 평균이 0으로 옮겨진 모든 데이터들을 각각 나눠주면 각 데이터들의 상대적 위치 변화는 없고 절대적인 위치의 변화만 이뤄지는 스케일링 작업이 된다 공분산과 상관관계 분산: 하나의 변수가 변수의 평균에서 얼마나 멀리 떨어져 있는가? 이때 하나의 변수라는건 하나의 값을 의미하는게 아니라 가능한 ...

Read more

조건부 확률

(확률통계) 조건부 확률의 정의 \[P(A|B) = {P(A \cap B) \over P(B)}\] 왜 분모에 P(B)가 들어가는가? 분자의 입장에서 분모는 최대 1임. 분모가 작아질수록, 분자의 영향력이 커짐 조건부 확률이라는 것은 힌트를 미리 준 것이라고 생각하면 편함. 예로, 전체 학교에서 특정 학생을 지목할 확률을 구하라는 문제가 있는데, 힌트를 주는 것임. 그 학생은 남자라고. 그러면 전체 경우의 수가 확 줄어듬 그 힌트가 바로 조건 비가 오는날 교통사고가 일어날 확률 비가 왔을때 교통사고가 일어날 확률 ...

Read more