1. 표준화(standardization)란?
표준화는 데이터를 평균이 0이고 분산이 1이 되도록 변환해주는 것이다. 어떤 데이터든 표준화를 거치게 되면 평균은 0이 되고, 분산은 1이 된다. 표준화한 값은 z-score 라고도 부르고, 아래와 같이 데이터의 각각의 값에서 데이터의 평균을 뺀 후, 표준편차로 나누어 주면 된다.
먼저, 데이터에서 평균을 빼면 어떻게 되는지 보자. 아래 그래프와 같이 원래 평균이 175 근처인 데이터가 평균이 0이 되도록 데이터의 모든 포인트들이 평행 이동 한다고 보면 된다.
여기까지만 하면 평균이 0이 된 것이므로, 여기서 표준편차로 나누어 주면 아래와 같이, 분산까지 1로 바꾸어 준다.
2. 비정규분포를 따르던 데이터에 대한 표준화
그런데 만약 원래 데이터의 분포가 비정규분포를 따른다면 어떨까? 이때에는 아래 그래프에서 보이듯이 원래 데이터의 형태를 그대로 유지한다.
이번 포스팅의 내용은 곧 출판될 통계학 기초 서적의 일부를 미리 공개한 것으로 책에서는 책 나름대로의 결이 있고, 블로그에서는 블로그 나름의 결이 있어서 본인에게 맞게 공부할 수 있도록 공유하였다. 그리고 영상으로 배우는게 편한 분들을 위해서 아래 유튜브(그림과학자)로도 제작했으니 참고 바란다.
아래에 출판된 종이책과 전자책 링크가 있으니 필요하신 분들은 참고 바란다.
*통계학 책(종이책) 구매 링크*
예스24: https://gilbut.co/c/25050075Ti
교보문고: https://gilbut.co/c/25051568EH
알라딘: https://gilbut.co/c/25057245JN
*통계학 책(전자책-e북) 구매 링크*
- YES24: https://gilbut.co/c/25057305cd
- 교보문고: https://gilbut.co/c/25053249ve
- 리디북스: https://gilbut.co/c/25050598Bq
- 구글플레이북: https://gilbut.co/c/25053398ve
댓글 쓰기