1. 오른쪽으로 치우친 데이터란?
우선 치우쳤다는 의미가 확률분포에서는 어떻게 되는지부터 알아보자. 오른쪽으로 치우쳤다고 하면 아래 그림과 같이 전체적인 데이터의 밀집도가 오른쪽으로 치우쳤다고 생각하기 쉽다.
![]() |
왼쪽으로 치우친 분포 (left-skewed distribution) |
그래서 많은 분들이 거꾸로 이야기 할 때가 있다. 오른쪽으로 치우친 분포, 오른쪽으로 왜곡된 분포, 또는 오른쪽으로 꼬리가 긴 분포, 이 셋은 모두 같은 의미이며, 이 분포는 사실 위에서 보이는 분포가 아니라, 아래와 같은 형태의 분포를 일컫는다. 즉, 의미적으로는 왼쪽으로 데이터들이 몰린 형태가 된다.
![]() |
오른쪽으로 치우친 분포 (right-skewed distribution) |
확률분포에서 말하는 치우쳤다는 것은 데이터의 밀집도가 아닌, 꼬리가 오른쪽으로 치우쳤다는 것을 의미한다. 따라서, 기준을 꼬리가 어디에 있는지를 두고 치우쳤다고 하면 까먹지 않을 수 있겠다. 이때 이러한 분포의 비대칭성을 왜도라는 값을 통해 측정할 수 있으며, 이 값이 양수일 때 위의 그림에서와 같이 오른쪽으로 꼬리가 치우친 분포가 된다.
2. 오른쪽으로 치우친 데이터를 정규분포로 만드는 방법: 정규성 변환
자, 그럼 이제는 데이터가 오른쪽으로 치우쳤을 때, 정규분포로 만드는 방법에 대해서 알아보겠다. 이렇게 비정규분포를 따르는 데이터를 정규분포가 되도록 변환하는 방법을 정규성 변환이라고 부른다.
이것을 가능케하는 방법으로는 로그변환(log transformation), 제곱근 변환(square root transformation), 그리고 역수 변환(inverse or reciprocal transformation) 등 다앙하게 존재하는데, 여기서는 가장 자주 사용되는 로그 변환의 작동원리를 알아보도록 하겠다. 아래의 로그 함수를 보자.
여기서 보면, 1보다 작은 값들은 그 차이가 로그를 씌우게 되면 더욱 늘어나는 반면, 1보다 큰 값들은 그 차이가 로그를 씌우게 되면 더욱 줄어든다. 예를 들어, 0.01과 0.001의 차이는 원래 0.009였는데, 로그를 씌우게 되면 0.01은 log(0.01) = -2가 되고, 0.001은 log(0.001) = -3이 되어 그 차이는 1로 늘어난다.
반면, 1보다 큰 10과 1,000의 차이는 원래는 990이었는데, 로그를 씌우게 되면 10은 log(10) = 1이 되고, 1,000은 log(1,000) = 3이 되어서 그 차이는 2로 줄어든다.
이러한 원리를 바탕으로 아래 그림과 같이 오른쪽으로 치우친 분포를 따르는 데이터에게 로그 변환을 하게 되면, 1보다 작은 지역에 있는 조밀한 데이터는 로그 변환 이후 간극이 늘어나고, 1보다 큰 지역에 있는 듬성듬성한 데이터는 로그 변환 이후 간극이 줄어든다.
그리하여 결론적으로 비대칭성이 사라지고, 대칭 분포인 정규 분포와 유사하게 변환 되는 것이다. 그런데, 여기서 데이터에서 1이 봉우리에 위치하지 않는 경우에는 그 효과가 미비하겠지만, 보통 이렇게 오른쪽으로 치우친 데이터의 경우에는 1보다 작은 초반부터 굉장히 높은 값을 가질 가능성이 높기 때문에 이러한 부분만 변환시켜 줘도 어느 정도 정규성을 확보할 수 있다. 물론, 봉우리가 1 근처에 있다면 이 효과는 극대화 될 것이다.
이것을 실제로 컴퓨터를 사용하여 합성 데이터를 생성하여 로그 변환 시켜 본 전과 후의 데이터의 히스토그램을 그려보면 아래와 같다. 여기서 보면 오른쪽으로 치우친 대표적인 분포인 지수 분포를 따르는 데이터를 1만개 정도 생성하여 로그 변환 해보았더니, 어느 정도 정규성을 띈다는 것을 확인했다. 여기서 봐도 알 수 있듯이, 완벽한 정규분포는 아니지만, 어느 정도의 대칭성은 확보한 것을 볼 수 있다.
그런데, 로그 변환을 했더니, 완벽히 정규분포를 따르는 경우도 있다. 이러한 분포를 우리는 로그-정규 분포(log-normal distribution)라고 한다. 아래와 같이 실제 로그-정규 분포를 따르는 데이터에 로그 변환을 씌워보면 정확히 정규분포를 따르는 것을 합성 데이터를 통해서 확인할 수 있다.
마지막으로, 비정규분포를 따른다고 해서 무조건 정규분포로 만들 필요는 없다. 왜냐하면 비정규분포가 정답일 수 있기 때문에, 해당 분포를 기반으로 추론을 진행하면 되기 때문이다. 만약에 포아송 분포를 따르는 데이터를 회귀분석한다면, 포아송 회귀분석을 하면 된다. 선형 회귀분석을 자주 하는데, 이때 정규성이 가정되는 것이지, 포아송 회귀분석에서는 포아송 분포가 가정되기 때문에 만약에 데이터의 진짜 분포가 비대칭이라면, 해당 분포를 따르는 모델을 선택하면 된다는 점을 명심하자!
이번 포스팅의 내용은 곧 출판될 통계학 기초 서적의 일부를 미리 공개한 것으로 책에서는 책 나름대로의 결이 있고, 블로그에서는 블로그 나름의 결이 있어서 본인에게 맞게 공부할 수 있도록 공유하였다. 그리고 영상으로 배우는게 편한 분들을 위해서 아래 유튜브(그림과학자)로도 제작했으니 참고 바란다.
아래에 출판된 종이책과 전자책 링크가 있으니 필요하신 분들은 참고 바란다.
*통계학 책(종이책) 구매 링크*
예스24: https://gilbut.co/c/25050075Ti
교보문고: https://gilbut.co/c/25051568EH
알라딘: https://gilbut.co/c/25057245JN
*통계학 책(전자책-e북) 구매 링크*
- YES24: https://gilbut.co/c/25057305cd
- 교보문고: https://gilbut.co/c/25053249ve
- 리디북스: https://gilbut.co/c/25050598Bq
- 구글플레이북: https://gilbut.co/c/25053398ve



댓글 쓰기