프리즘을 이용한 통계에 대해서 살펴보기 이전에 일단 통계학적 기본 개념에 대해서 살펴보고 넘어가자.



② 데이터의 처리 및 통계처리의 기초

일단 이런 기본 개념에 대해서는 높이 비상하는 즐거운 상상 블로그 (http://dermabae.tistory.com)에 가면 통계학의 기본에 대한 강의를 잘 들을 수 있다. 책으로 구매하려면, 인터넷 서점에서 "닥터배의 술술 보건의학통계"책을 구매하면 된다. 본 블로그하고는 아무런 친분관계도 없고, 이해관계도 없다. 오히려 저희가 빌붙는 처지입지요, 헤헤.


연속형자료와 범주형자료

통계처리를 하기 전 가장 중요한 것은 "자료를 어떻게 분류하는가" 이다. 우리가 흔히 실험결과를 통해서 얻어내는 수치적인 자료들은 연속적인 수로 이루어진 연속형 자료이다. A라는 처리를 했을 때, B라는 물질의 농도. 뭐 이런식의 연속형 자료일 것이다. 이에 비해 범주형 자료들의 경우는 종양의 병기, 질병의 중등도 등과 같은 범주형자료이다. 이러한 연속형자료와 범주형자료의 경우 각기 통계처리를 하는 방식이 상이하기 때문에, 데이터를 처리함에 있어서 가장 첫 단계는 원자료가 연속형자료인지, 범주형자료인지를 파악하는 단계이다. 근데 앞서서도 이야기했듯 우리가 흔히 얻게 되는 실험결과데이터들은 연속형자료가 대부분이다. 물론 연속형자료를 범주형으로 만들 수도 있다. 예를 들어 연속형자료인 환자의 나이를 나이대 (10대, 20대 등)으로 변형해서 사용한다거나 하는 식으로 말이다. 


가설의 검정방법

뭐 이건 귀무가설과 대립가설에 대한 이야기인데, 이 바닥이 워낙 회의주의적인 인간들이 득실대서 그런 것인지, 귀무가설 (null hypothesis, H0)은 "별 차이 없을껄"이고, 대립가설 (alternative hypothesis, H1)은 "거봐 차이 나잖어"로 생각하면 될 듯 싶다. 우리가 흔히 이야기하는 p value < 0.05라 함은 귀무가설 (차이없을껄)이 일어날 확률이 5% 이하인 경우를 말한다. 즉, 100번 중 5번 이하로 차이가 없는 결과가 나올 경우를 뜻한다. 예를 들어 약물 A에 의한 혈중농도 B를 측정한 실험을 가정해보자. 이 실험을 총 20마리의 마우스를 가지고, placebo와 약물A를 각각 10마리씩 투여했을 때, 혈중 농도 B의 양이다. 

자 위의 데이터가 원자료라고 가정해보자. 이경우 귀무가설과 대립가설은 다음과 같이 설정될 것이다.

자, 그러면 이러한 데이터들을 prism에 후두르찹찹 넣고, unpaired t-test를 돌려보면, 다음과 같은 그래프가 나온다. 

그래프는 mean ± SEM으로 표시했고, 통계는 unpaired t-test를 사용했다. 결과를 보면 알겠지만, p value는 0.0052으로 0.05이하이다. 이 말인 즉슨, 귀무가설 (placebo랑 drug A랑 농도 B에 미치는 영향이 없다)이 나올 확률이 100번 중 5번 이하이기 때문에 귀무가설을 기각하고, 대립가설을 체택할 수 있다는 뜻이다. 이처럼 회의주의자들이 많은 통계바닥에서는 귀무가설은 별차이 없을 것으로, 대립가설은 차이가 있을 것으로 설정하게 된다. 아, 단 정규분포에서는 이게 반대로 된다. 데이터의 정규분포 여부를 확인하는 경우에 있어서는 귀무가설은 정규분포를 따르는 것으로 대립가설은 정규분포를 따르지 않는 것으로 설정한다. 

뭐 대충 이런식이다. 동등성 검정의 경우도 위와 비슷하지만 이는 나중에 시간되면 설명하기로 하자.


그런데 이쯤에서 한가지 명심해둘 점이 있다. 

n수는 깡패이니, 통계를 맹신하지 말지어다.

자, 위의 원데이터를 다시 한번 살펴보자. 위의 원 데이터에서 5번 마우스까지의 결과만을 가지고 통계를 돌려보자. 그러면 다음과 같은 통계 데이터를 얻을 수 있다.

자, 5번째 실험까지의 결과는 위와 같다. p value는 0.0634. 당연히 p < 0.05를 성립하지 않기 때문에 귀무가설을 체택해서 "drug A의 투여는 B농도의 변화에 별 영향 없다"로 결론을 내릴 수 있다. 근데, 이 데이터 디게 아깝다. 5번 더 반복실험하니깐 p value 나왔잖어. 이 말인 즉슨, 실험을 담당하는 너님은 5번 더 반복실험을 해야한다는 이야기이고, 충분치 못한 n 수에서 통계를 돌릴 경우 p value가 나오지 않는다고 그게 모두 사실은 아니다는 점이다. 그리고 사실 이 예제는 t-test돌리는게 아니다. 허허허. 걍 t-test가 가장 쉬우니깐 예제로 보여준거지, 원래는 정규성 검정 → 정규분포를 따르지 않으므로 → Mann-Witney test 돌리는게 맞다. 우리는 야매니깐 괜찮기는 하지만, 그래도 명색이 통계 강의 포스팅인데. 허허허. 자, 그러면 이 정규성 검정이라는게 뭔 소리인지 알아보자.


중심극한정리와 정규성 검정

중심극한정리는 사실 한 마디로 요약할 수 있다. 

n수가 많으면 엔간하면 정규분포 따른다.

되게 야매같은 말이다. 근데, 이게 중심극한정리다. 자세한 내용은 아래 링크를 따라가서 보고 오자.

중심극한정리 (닥터배의 술술 보건의학통계 블로그)

이 말인 즉슨 우리 실험에서도 반복실험 많이 한 경우에는 엔간해서는 정규성을 가진다는거다. 그렇다면 몇 번이나 반복해야 대충 정규분포를 따르는걸까? 

n>30이면 정규분포를 따른다.

10<n<30이면 정규분포 따르는지 확인해 봐야한다.

n<10이면 정규분포 안따를껄

뭐 이렇게만 알고 있으면 된다. n>30이면 뭐 묻지도 따지지도 않고 정규분포를 따를테니, t-test를 진행할 수 있는 것이고 10<n<30이면 정규분포를 따르는지를 확인해봐야 하고 이러한 정규분포를 따르는지의 여부는 대게 Shapiro-Wilk test, Kolmogorov-Smirnov (KS) test, D'Agostino & Pearson omnibus normality test를 하게 된다. 앞서서도 설명했듯 이 경우에는 귀무가설이 "엔간하면 정규분포 따를 것"이므로 p<0.05인 경우에는 귀무가설기각=대립가설체택="정규분포를 안 따른다"가 되게 된다. 뭐 n<10이면 묻지도 않고 따지지도 않고 정규분포를 안 따르는 건 아니고, 한번 통계 돌려봐라. 돌려봐서 나오면 좋은거지 뭐. 근데 십중팔구 안나올껄. 

그런고로, 우리 실험결과들을 가지고 통계적인 처리를 하기 이전에 일단 정규분포를 따르는지의 여부를 살펴보는 것이 먼저이다. Prism에서는 column statics를 통해 정규성을 검정할 수 있다. 

요래 요래 new analysis → column statics를 누르면

그러면 이것 저것 설정하는 창이 나온다. 걍 다 클릭해버리자.

그럼 대충 이렇게 나오는데, 뭐 중요한 건 다 들어있다. 우리가 normality test를 하는 방식은 D'Aostino&Pearson omnibus, Shapiro-Wilk normality test, KS normality test인데, 모두 다 p value가 0.05 이상을 보여준다. 앞서서도 이야기했듯 정규성 검정의 경우 귀무가설이 "엔간하면 정규분포 따를껄"이기 때문에 귀무가설을 체택하여, Data set A, Data set B 모두 정규분포를 따른다고 할 수 있다. 그러면 이 둘의 차이에 대해서 student t-test로 검정을 할 수 있게 된다. 

자, 서론은 이 정도로 하고 실전 (을 가장한 야매)로 들어가보자.


③ Column graph 

Column graph는 그래프에서 가장 기본적인 그래프이다. 엔간한 종류의 데이터는 column graph로 가공될 수 있다. 이러한 column graph에 대한 통계 처리에서 가장 중요한 점은 바로 변수의 갯수이다.


ⓐ 단일변수

unpaired t-test

세포A에 약물B를 처리하여, cytokine C의 농도를 측정한 실험의 데이터를 살펴보자. 실험군은 약물 B를 1 μM의 농도로 처리한 것이고, 대조군은 vehicle을 처리한 것으로 설정하자. 이 실험의 귀무가설은 "약물 B가 세포A가 생성하는 cytokine C의 양에 변화를 일으키지 않는다"일 것이고, 대립가설은 "약물 B가 세포 A가 생성하는 cytokine C의 양에 변화를 일으킨다"일 것이다. 측정한 cytokine C양 데이터는 다음과 같다.

이 데이터셋을 프리즘에 후두르챱챱 넣고, 그래프를 클릭하면 다음과 같이 나온다. (mean ± SEM)

딱 봐도 통계적 유의성이 없을 것 같은 느낌이 들지만, 이게 정말 통계적 유의성이 없는지도 검증해야 한다. 자, 아까첨에 이야기했던 것과 같이, 각 데이터가 정규분포를 따르는지를 확인해보자. insert → new analysis → column statics를 누르자.

자, 이렇게 column statics를 확인해보니, D&P test, SW test, KS test 모두 p value가 0.05 이상으로 유의성을 가지지 않는다. 뭐 정규분포 따르는 거지 뭐. 11번 반복실험한 것이니 정규성을 띄는거지 뭐. 자, 그러면 우리는 이 drug B가 A세포의 사이토카인C 생성에 미치는 영향에 대해서 student's t-test를 시행할 수 있게 되었다. new analysis → t-test를 선택하자. 고고!

요로코롬 누르면 다음과 같은 창이 뜬다.

만일 환자 한명 한명당 치료전/후의 특정 물질의 수치 등을 측정한 것이라면 paired data이겠지만, 우리는 자, 이 데이터는 세포를 각각 대조군/실험군으로 나누어서 진행한 실험이므로 unpaired data이다. 자, 다음으로는 가우시안 분포를 따르는지의 여부인데, 아까 해봤듯이 두 데이터 모두 정규분포를 따르므로, 모수적 방법인 parametric test를 시행할 수 있다. 다음으로는 두 군의 SD가 같다고 추정할지의 여부를 가지고 welch's correction을 사용해야할지의 여부를 물어보는데, 이건 나도 몰러 허허허허. 걍 t-test 돌려용 (사실 Welch's corretion에 의한 t-test는 Behren-Fisher problem을 풀 수 있는 방법으로 제시된 방법이라고 합니다. 즉 두 군이 동일한 평균을 가지고 각기 다른 분산과 샘플사이즈를 가졌을 때, unpaired student's t-test의 correction을 위해 사용한다고 합니다. 더 자세한 내용은 위키를 참조하세용 https://goo.gl/SAMDkz). 자, 그리고 나서 옆의 옵션창을 봐 보자. 여기에서는 one-tailed인지, two-tailed인지를 결정할 수 있고, 두 군의 차이를 어떤 식으로 리포트할지를 결정할 수 있으며 (여기에서는 drug B-veh로 표현함), 신뢰구간을 95%로 할지를 결정할 수 있다. 보통 우리가 행하는 두 군간의 비교에서는 95%의 신뢰구간을 사용하므로 통계적인 유의성은 p < 0.05일 때 (5%미만), 귀무가설을 기각할 수 있게 된다. 세군등의 비교를 하는 경우, 즉 ANOVA 등을 시행하는 경우는 전체 유의수준을 5% 미만으로 설정하고, 사후분석 (post-hoc)테스트에서는 각 그룹별로 괴장히 낮은 수준의 개별 유의수준을 유지하게 된다. 이에 대해서는 세 군 이상의 분석 - ANOVA 파트에서 조금 자세히 알아보고, 여기에서는 걍 95%, p < 0.05만 기억해두자. 자, 그리고 OK를 누르면 다음과 같이 나오게 된다.

뭐 그러면 뿅 하고 나온다. 그러면 뭐 다 필요없고 p value만 눈에 보이겠지 뭐. 0.3208이다. p < 0.05 (5%미만)을 만족하지 않으므로 귀무가설인 "약물 B가 세포A가 생성하는 cytokine C의 양에 변화를 일으키지 않는다"를 체택하게 되는 결과를 도출할 수 있다. 그리고 mean ± SEM, difference between means 등의 기술을 가져다 쓸 수 있게 된다.

자, 그렇다면 만일 정규성 검정에서 정규분포를 따르지 않는 경우에는 어떻게 통계처리를 해야 하는지를 알아보자.


Mann-Whitney test

다음은 약물 C가 실험동물의 혈중 A농도에 미치는 영향을 검증하는 실험이다. 귀무가설은 "약물 C 줘봤자 혈중 A농도에 별 영향 안 미칠껄"이고 대립가설은 "아니여, 약물 C가 혈중 A 농도를 변화시킬껴~"이다. 데이터셋은 다음과 같다.


자, n=5인 경우이다. 앞서서도 이야기했듯 n<10인 경우에는 정규분포 안 따른다. 그래서 묻지도 따지지도 않고 걍 Mann-whitney test를 하자. 

자, unpaired test이고, 가우시안 분포를 추정할 수 없으므로 "No. Use nonparametric test"를 클릭하면, choose test에 Mann-whitney test와 Kolmogorov-Smirnov test가 나오게 된다. 여기에서 Mann-whitney test를 클릭하고, option으로 들어가면 t-test때와 별반 다를 것 없는 메뉴가 나온다. 걍 OK 눌러라. 

그러면 뿅 하고 통계 결과가 나온다. p = 0.0079 이므로 p < 0.05를 만족하여, 대립가설 체택이다. 그러면 그래프에 다음과 같이 별표 두개를 적어 넣을 수 있다. 요로코롬 말이지.

별이 다섯개! 는 통계에서는 있을수가엄어서 아쉽다. 별세개 나오면 빼도 박도 못하는 결과이지만, 별만 나와도 좋은거지 뭐. 아니, 어떤 실험에서는 별이 나오면 안 되는 실험들도 있을테니, 뭐 별 나오면 통계적 유의성이 있는거에요. 뭐 이렇게 알고 넘어가자. 


정리하면서 

자, 오늘 시간을 정리해보자. 오늘 우리가 배운 건 많은 것 같지만 사실 그다지 많은 양을 배운 건 아니다.

② 데이터의 처리 및 통계처리의 기초

 연속형 자료와 범주형 자료 - 실험데이터는 대부분 연속형 자료이다. 

 가설의 검정방법

귀무가설 - 별 차이 없을껄 

대립가설 - 거봐 차이 나잖어

5% 유의수준, 유의확률 p < 0.05이면 대립가설 체택

단, n 수는 깡패이니, 통계를 맹신하지 말지어다.

 중심극한정리와 정규성검정

n수가 많으면 엔간하면 정규분포 따른다.

n>30이면 엔간하면 정규분포 따를껄

10<n<30이면 정규분포 돌려보자.

n<10이면 정규분포 안따를껄

정규분포 검증은 SW, KS, DP test를 사용한다.

③ Column graph 

ⓐ 단일변수 

- unpaired t-test

- Mann-Whitney test

자, 오늘은 이 정도로 하고, 추석 연휴 이후에 포동 포동 올라온 뱃살을 두들기면서 다시 만나십시다. 안농~ 


아. 그리고 이 글들은 Mimi Zeiger의 essentials for writing biomedical research papers를 주된 교재로 작성 중이였습니다만, 이제부터는 이를 기반으로 오리지널 스토리로 들어갑니다. 논문 작성법에 관련된 내용은 위 책을 참조하시면 됩니다. 감기때문에 죽겠네요. 모두 환절기 감기 조심하세요. 그리고 저는 이제 슬슬 비정규직을 탈피하기 위해 자소서를 쓰고 있어요. 헝헝. 팔자에도 없던 자소서를 쓰려니 아주 죽겠군요. 근데 저는 남자들한테만 인기가 있는 것 같아요. 허허허. 큰일이네.

+ Recent posts