테마 이미지 제공: Igniel

블로그 내 검색

그림과학자
그림과학자

[통계학 필수지식 for 데이터분석] 비정규분포를 표준화 하게 되면?

1. 표준화(standardization)란?

표준화는 데이터를 평균이 0이고 분산이 1이 되도록 변환해주는 것이다. 어떤 데이터든 표준화를 거치게 되면 평균은 0이 되고, 분산은 1이 된다. 표준화한 값은 z-score 라고도 부르고, 아래와 같이 데이터의 각각의 값에서 데이터의 평균을 뺀 후, 표준편차로 나누어 주면 된다. 


먼저, 데이터에서 평균을 빼면 어떻게 되는지 보자. 아래 그래프와 같이 원래 평균이 175 근처인 데이터가 평균이 0이 되도록 데이터의 모든 포인트들이 평행 이동 한다고 보면 된다. 


여기까지만 하면 평균이 0이 된 것이므로, 여기서 표준편차로 나누어 주면 아래와 같이, 분산까지 1로 바꾸어 준다. 


여기서 보면, 원래 데이터가 정규 분포를 따르는 경우에는 표준화를 거치며 따로 부르는 이름이 있는데, 그것은 '표준 정규 분포'이다. 

2. 비정규분포를 따르던 데이터에 대한 표준화

그런데 만약 원래 데이터의 분포가 비정규분포를 따른다면 어떨까? 이때에는 아래 그래프에서 보이듯이 원래 데이터의 형태를 그대로 유지한다. 


즉, 원래 비정규분포를 따르던 데이터는 표준화를 한다고 해서 정규분포가 된다던지 하지 않고, 그대로 본래의 비정규분포를 유지한다. 아래의 그림에서는 합성 데이터를 생성하여 실제 R을 사용하여 비정규분포로 감마 분포를 따르는 데이터를 표준화 전 후 히스토그램을 그려보았고, 정규분포에 대해서도 그려보았다. 역시 마찬가지 결과가 나온 것을 볼 수 있다. 


결론: 비정규분포를 따르던 데이터에 표준화를 한다고 해서 정규분포를 따르지 않는다. 원래 자신의 분포를 그대로 유지한채 평균이 0이 되고 분산이 1이 될 뿐이다. 

이번 포스팅의 내용은 곧 출판될 통계학 기초 서적의 일부를 미리 공개한 것으로 책에서는 책 나름대로의 결이 있고, 블로그에서는 블로그 나름의 결이 있어서 본인에게 맞게 공부할 수 있도록 공유하였다. 그리고 영상으로 배우는게 편한 분들을 위해서 아래 유튜브(그림과학자)로도 제작했으니 참고 바란다. 


아래에 출판된 종이책과 전자책 링크가 있으니 필요하신 분들은 참고 바란다. 

*통계학 책(종이책) 구매 링크*

예스24: https://gilbut.co/c/25050075Ti

교보문고: https://gilbut.co/c/25051568EH

알라딘: https://gilbut.co/c/25057245JN


*통계학 책(전자책-e북) 구매 링크*

- YES24: https://gilbut.co/c/25057305cd

- 교보문고: https://gilbut.co/c/25053249ve

- 리디북스: https://gilbut.co/c/25050598Bq

- 구글플레이북: https://gilbut.co/c/25053398ve


댓글 쓰기