논문작성법 (6) 그래프,표 그리고 통계 part I논문작성법 (6) 그래프,표 그리고 통계 part I

Posted at 2015.09.15 10:32 | Posted in Research Tips/English for Research

⓪ 들어가면서

① 그래프의 종류

ⓐ column graph

ⓑ grouped graph

ⓒ x-y graph

ⓓ contingency

ⓔ survival graph

오늘부터는 그래프와 표 그리고 통계학적 고려사항들에 대해서 살펴보자. 사실, 통계는 이 바닥에 있는 사람들이 매일같이 사용하고 있음에도 불구하고, 체계적인 교육을 받지는 못한 경우가 대부분일 것이다. 개인적으로도 실험실에 들어와서 선배들이 가르쳐 준 것에 대해서 알음알음 배웠던 기억이 있고, 대학원 통계 시간은 열심히 강의해주던 교수님들께는 죄송하지만, 숙면시간으로 잘 활용했었던 기억이 있다. 

논문작성법에서 이러한 통계에 대해서 자세히 설명하는 것은 좀 어불성설이고, 개인적으로도 통계에 대해서 강의를 할 만한 능력은 아니기 때문에, 논문작성에서 필요한 통계학적 고려사항들에 대해서 수박 겉핥기 정도로 공부하고, 어플리케이션을 이용한 그래프/표 작성에 대해서 살펴보도록 하자. 


⓪ 들어가면서


실험실에서 뭔 놈의 통계를 써야 하는가? t-test면 땡 아녀?

의과학을 하는 입장에서 실험하기도 바빠 죽겠는데, 왜 통계인가?라는 질문을 던질 수도 있을 것이다. 하지만, 모든 과학결과는 통계적으로 유의함을 보여주어야만 그 의미를 지니게 된다. 아무리 신기한 발견을 하였더라도, 그 실험이 재현되지 않는다면 말짱 황이요, 통계적으로 유의하지 않는다면 우연한 결과에 지나지 않는다. 이러한 통계학적 고려사항은 내가 발견한 것이 정말 유의한 발견인지 아닌지를 결정하는 역할을 하게 된다. 그리고 내가 설정한 가설이 통계적으로 유의한지를 검정하고, 이 결과를 바탕으로 논문을 쓰게 되는 것이고 말이다. 

의학논문을 작성함에 있어서, 코호트나 환자-대조군 연구의 경우는 모집단을 판명이 주된 목적이다. 내가 만지고 있는 것이 코끼리의 앞다리인지, 코인지를 파악하는게 중요하지 뭐. 신뢰구간이니 뭐니 하는 것도 결국은 모집단을 정확하게 알고 있지 못하기 때문에 이를 추정하는 역할을 하게 되는 것이고 말이다.

환자를 대상으로 한 환자-대조군 연구논문들을 살펴보고 있노라면, 장님 코끼리 만지는 것 같다는 생각을 한다. 똑같은 환자군을 가지고 낸 결과가 저자마다 다른 경우들도 참 많다.

그렇다면, 우리가 하는 실험결과들의 통계는 어떤건지 대충 살펴보자. 자, 다음은 한 논문의 material method에 나온 통계 단락이다.

Statistical Analysis

Continuous variables were tested for normal distribution by using the Kolmogorov-Smirnoff test. Data are presented as mean 6 SEM or as median (line) and interquartile range (box); whiskers indicate 5% and 95% percentiles. Statistical analysis was performed by one-way ANOVA followed by Bonferroni or LSD post hoc test for normally distributed data, or Kruskal-Wallis test with Mann-Whitney-U post hoc test, as appropriate. For comparison of two groups of non-normally distributed data, Mann- Whitney U test was used. A value of P,0.05 was considered statistically significant. All calculations were carried out by using SPSS Statistics 20 for Mac.

"실험동물을 이용한 결과의 normal distribution을 Kolmogorov-Smirnoff test로 검정하고, normal distributed data의 경우는 one-way ANOVA test와 posthoc test로 Bonferroni/LSD를 사용을 했으며, undistributed data의 경우는 Kruskal-Wallis test와 posthoc test로 Mann-Whitney-U test를 사용을 했다. 두 그룹의 비교의 경우, non-normally distributed data의 경우는 Mann-Whitney test를 사용했고, normal distributed data의 경우는 t-test 사용했겠지 뭐. 유의수준은 5% 통계프로그램의 경우는 SPSS 사용했어염."

이걸 보면 예전에 t-test만 죽어라 붙잡고 있었던 박사시절이 생각나면서 무지 쪽팔려진다. 위의 예를 보면 우리가 실험실에서 흔히 사용하는 통계학적 기법이 대부분 나와있다. 정규성검정, 티테스트, 아노바, 본페로니 포스트혹 테스트, 만휘트니 테스트. 뭐 빠진 부분이 있다면 survival에 대한 통계검정 등이 있을 수는 있지만, 대부분은 t-test와 ANOVA로 거의 해결가능할 것이다. 

뭐 임상통계나 실험실통계나 통계는 거기서 거기다. 다만, 우리가 하는 실험은 임상데이터들에 비해서 조금 더 통제가 가능하고, 실험결과가 모집단 전체를 구성하고 있다는 점만 빼고 말이다. 물론 이 외에도 다른 점들이 수두룩빽빽하지만 대충 이정도로 퉁치고 넘어가자. 우리는 야매니깐.


어떤 도구를 사용할 것인가?

연구논문에서 통계의 활용은 실험을 통해 만들어진 데이터에서 어떻게 통계적 유의성을 뽑아내는가가 될 것이다. 이를 위해서는 연필로 직접 써가면서 계산할 것이 아니라면야 당연히도 도구가 필요하다. 많이 활용되는 통계 프로그램으로는 SPSS, SAS, R 등이 있지만, 우리가 같이 공부하면서 사용할 통계 프로그램은 graphpad에서 나온 prism이다. 

한참 석사때에는 two-way ANOVA 때문에 sigmaplot도 사용했었는데, 결국 prism이 제일 사용하기가 용이하더라. 직관적이고 엔간한 통계는 거진 다 돌릴 수 있고. 하긴 여기 있는 툴 외의 것들은 거의 사용할 필요가 없더라. 이 프로그램을 선택한 이유는 내가 제일 많이 써봐서 제일 익숙하니깐! 불만 있으면 직접 포스팅을 하시라! MDPHD 블로그는 어떠한 필진분들도 다 환영합니다.

뭐 이런 저런 이유를 떠나서, 상당히 좋은 프로그램이다 가격도 아카데믹 프라이스로는 450$ 정도로 저렴한 편이고, 왠만한 통계 툴은 거의 사용 가능하고, 만들어지는 그래픽 퀄리티가 매우 좋은 편이기 때문이다. 뭐, 이 외에도 프로그램이 안정적이라 crash나는 경우가 거의 없고, 대용량의 데이터를 handling하는 데에도 적합하다. 이런 저런 이유로 이 프로그램을 사용해서 공부를 진행하자.


통계에 대한 기본적인 지식

문제는 통계를 야매로 배운 내가 이걸 다룬다는게 가장 큰 문제인데, 이를 보완하기 위해서 다음의 블로그를 소개한다. 높이 비상하는 즐거운 상상 블로그 (http://dermabae.tistory.com)에 가면 통계학의 기본에 대한 강의를 잘 들을 수 있다. 저자이신 배정민 선생님이 책도 내셨으니 한번 사서 읽어보는 것도 좋을 듯 싶고 말이다.(http://www.yes24.com/24/goods/6756234) 여하간, 기본적인 지식은 각자 공부 해오시는 걸로 하고, 우리 글에서는 실전 위주로 진행할 예정이다. 그리고 항상 명심해두자.

 MDPHD Warning 

이 글에서 다루는 통계는 기본적으로 야매입니다. 

정확한 통계의 사용법을 알기 위해서는 

더 전문적인 분야의 통계 서적 및 참고 문헌을 참조하세용 ~ 데헷~ 

(무더운동경 배경음악)

자, 들어가는 글은 이 정도로 마무리하고, 이제부터 논문작성법 (6) 그래프, 표 그리고 통계에 대해서 자세히 살펴보자. 


① 그래프의 종류

그래프의 종류는 정말 무궁무진하다. 하지만, 큼직 큼직하게 나누어 보자면 다음과 같이 나눌 수 있다. 


 Column 

이게 가장 기본적인 통계자료의 기술방식일 것이다. 일반적으로 bar graph (막대그래프)로 표현할 수 있으며, 수평/수직 등의 모습을 취할 수 있다. whisker형식의 그래프도 있고, 뭐 엔간한 그래프들은 이걸로 거의 소화할 수 있다. 

대게 이런 놈들이지 뭐. bar graph들. 맨 오른쪽은 치료전/후 그래프에서 각 샘플의 변화를 꺽은선으로 연결한거다. 이것도 대충 column graph로 퉁치자.

엔간한 데이터들은 이걸로 퉁칠 수 있다. 가장 가까이는 데이터의 도수분포를 보여주는 frequency distribution부터, t-test (paired/unpaired), one-way ANOVA 등을 사용해서 통계적인 처리를 할 수 있다. 여기에서 쪼금 더 나간 것이 grouped graph이다.


 Grouped 

단일 변수 이상의 변수들이 표함될 경우이다. 예를 들어, 성별이라는 변수 (남자/여자), 치료라는 변수 (치료 전/후) 이렇게 두 가지 이상의 변수가 있는 경우 이를 그래프상에 표현한 것이라고 보면 된다. 

요런 것들 말이다. 위의 column graph보다 할 말이 디게 많은 그래프이다.

이런 경우들은 대게 two-way ANOVA 등을 돌려서 통계적인 처리를 하게 된다. 


 XY 그래프

말 그대로 x축과 y축으로 나누어진 그래프이다. 뭐 대충 아래같은 그래프들 말이다.


x 축은 대게 시간이나 농도 등이고, y축은 정말 여러가지로 작성할 수 있다. 그래프들에 대해서 잠깐 설명하자면, 가장 왼쪽의 그림은 일반적인 xy 그래프로 시간의 경과에 따른 apoptosis의 변화를 각 시간대별로 찍고, 선으로 연결한 류의 그래프이고, 가운데 그림은 calcium fluorescence를 5초간격으로 측정한뒤 이를 선으로 연결한 것이고, 가장 오른쪽의 그래프는 농도에 따른 activity 변화를 가지고 IC50을 구하는 dose-response curve의 예이다. 

이와 같은 그래프는 시간대별, 농도별 변화를 관찰하는데 많이 사용되며, linear regression/nonlinear regression, enzyme kinetics, correlation, dose response, area under the curve 등등을 확인하는데 주로 쓰일 수 있다. 물론 각 시간대별로 대조군과의 차이를 통계적으로 검정할 수도 있다. 


ⓓ Contingency

임상데이터를 분석할 때 많이 사용하는 contingency이다. 환자-대조군 연구/코호트 등에서 모집단에서의 위험인자에 따른 질병 발생률 등을 분석할 때 많이 쓰는 그래프이다. 전향적 연구에서 placebo와 aspirin의 복용에 따른 myocardial infarction의 유무를 보는 분할표를 가정해보면 대충 이런 그래프가 나온다.

원 데이터는 왼쪽 위의 contingency table이 될꺼고, 논문에 들어가는 그래프는 우측 그래프가 될 것이다. 그리고 아래는 chi-square test로 검정한 결과일 것이고. 이거는 프리즘 프로그램 내의 예시이므로 뭐 대충 만든 그래프이다.

이런 contingency 그래프의 경우에는 chi-square test(prospective data)나 Fisher test(retrospective data) 등을 사용하여서 통계적인 검정을 하게 된다. 뭐 교차비, 상대위험도 이런거 구하고 우도비 이런거 살펴보고 회귀분석은 뭐를 사용하고 교란변수/교호작용 따지고 이래야 하는거라 이런 건 나도 잘 몰러. 허허허. 대충 논문보고 비슷하게 따라하는거죠 뭐. 저보다 잘 하시는 분들이 세상에 쎄고 쎈 마당에 제가 이것까지 하려면은 가랭이가 찢어져요. 대충 보고 따라하자. 생각해보니 디게 무책임하지만 뭐 어쩌겠어요? 허허허.


ⓔ Survival

Survival. 말 그대로이다. survival graph. 질환등에 의한 사망률이나, 실험을 통한 실험동물의 생존률 데이터를 기반으로 치료등 일정한 변수가 사망률에 유의한 변화를 일으키는지 등의 여부를 살펴보는 그래프이다. 아래의 예를 살펴보자.

왼쪽 그래프는 실험동물에 LPS injection을 한 뒤의 사망률을 살펴본 것이고, 오른쪽의 그래프는 follow-up year에 따른 fatal에 의한 survival graph이다. 뭐 사망률 반대는 생존율이지 뭐. 저 데이터 거꾸로 그리면 사망률 그래프됩니다. 허허허. 이글은 기본적으로 야매글이에요. ㅎㅎ

이런 그래프들의 경우 검정은 log-rank test (Mantel-Cox) 등으로 하면 된다. 


자, 대충 오늘은 이정도 까지만 알아보고, 다음 시간부터는 prism을 이용해서 각각의 그래프를 그리는 방법 등에 대해서 알아보자. 아, 이 "그래프, 표, 그리고 통계" 섹션은 꽤 길꺼다. 지금 그래프 끝내는 것만 해도 몇 번의 포스팅이 진행되어야할지 가늠하기가 좀 힘들고, 나머지 부분도 꽤 길 듯 싶다. 그러니 차근차근 같이 공부해나가자. 사실 나도 통계 잘 몰러. 통계를 야매로 배웠어요 허허허.


아. 그리고 이 글들은 Mimi Zeiger의 essentials for writing biomedical research papers를 주된 교재로 작성 중이였습니다만, 이제부터는 이를 기반으로 오리지널 스토리로 들어갑니다. 논문 작성법에 관련된 내용은 위 책을 참조하시면 됩니다. 사실 저는 통계를 야매로 배웠습니다. 실험실 꼬꼬마 시절 선배들이 통계 데이터를 돌릴 때, 저에게 가르쳐 주었던 것은 "이것 저것 돌려봐서 p value 나오면 걍 그걸로 때워"였지요. 박사가 되고 나서도 별반 다를게 없었던 것 같아요. 그래서 통계를 쪼끔 공부하고 나서 통계를 돌려보는데도 불구하고 선배들이 가르쳐 준 바와 결과가 크게 다르지 않다는게 함정 걍 이것 저것 돌려봐서 p value 나오면 걍 그걸로 때우세요 데헷~



신고
Posted by 우울증에걸린마빈
  1. 비밀댓글입니다
    • 2016.02.12 17:17 신고 [Edit/Del]
      안녕하세요. 오지의 마법사입니다.

      글쓴 마빈님은 아니지만, 답변을 드리면, 프리즘은 앱스토어에서 다운받을 수 있어요. 어둠의 경로는 저도 잘 몰라요. ^^

      그리고 궁금한게 더 있으시면 물어보세요. :)

Name __

Password __

Link (Your Website)

Comment

SECRET | 비밀글로 남기기