이번에는 키에 대해 이야기를 해볼까 한다.

(사람들은 정신과 의사가 이런 주제로 이야기를 하면 좋아하더라고. 키에 관한 열등감 문제 같은 거. 뭐, SNS에 올리는 수준의 글이라서 그냥 반말체로 적겠습니다.)

  나는 키가 참 작다. 165센치니까 여고생 평균키 쯤 되는가? 여튼 반에서 4~5번째로 작았고, 30세경 논산에 징병의 훈련갔을 때는 40명중 두번째로 작았다. 그래서 2번을 달았어야하는데, 나보다 더 작아서 1번이 되어야했던 부산대 출신 안과 선생을 다른 부산대 출신들이 슬쩍 자기들 옆으로 끌고 가는 바람에 내가 1번이 되어버렸다. 공식적으로는 2009년 징병의 훈련병들 중 최단신이라고 할 수 있겠다.

초등학교 때는 꽤 큰 쪽에 속해있던 것으로 기억한다. 여튼 뒤쪽 2/3 정도에 앉았었다. 그러더니 중학교 때부터 잘 안 크더라. 의과대학에서 소아과학을 배울 때 자녀의 키를 예측하는 공식이 있었다. 그 공식대로 계산을 해보았더니 딱 지금의 내 키가 나오더라. 그런데 중학교 때는 그런 걸 알지도 못했었고, 만약에 알았더라도 무시하고 헛된 기대를 했을 것이다. 뻔한 이야기지만, 고등학교 올라가니까 더 이상 아예 키가 크지 않았다. 그때부터는 나도 포기. 

그래도 키 때문에 불이익을 받거나, 억울하다는 경험을 당한 적은 적어도 내 기억에는 거의 없다. 키가 작다고 해서 큰 아이들이 괴롭히지도 않았고(키는 작아도 깡다구가 있다는 걸 알아서 건드리지 않았다. 두드려 맞더라도 할 말은 하고 살았다) 말이다. 단, 고 1때 이런 이야기를 들었던 기억이 난다. “야, 이게 가족 사진이가? 너거 가족은 다 난쟁이고” 그 때는 그냥 웃고 지나갔었는데, 가족을 건드려서 그런가, 참 기분이 좋지 않았고 지금도 그 자식의 표정이 머리 속에 남아있다. 뭐, 그렇다. 내가 어쩌지 못하는 현실에 대해서 고민하는 것은 시간 낭비, 에너지 낭비다. 키 작다고 좌절할 필.요.가 전혀 없다. 어차피 교정 불가능한 현실이기 때문이다.

이제는 키라는 인간의 '조건'에 대해 객관적으로 한번 따져보자. 키가 크면 어떤 장점이 있을까. 인간은 왜 큰 키를 선호하는가. 크게 두 가지 이유에서다. 첫 번째, 키가 큰놈이 힘이 쌔다. 힘이 쌘 놈은 싸울 때 유리하다. 적에게 죽지 않을 확률이 높아지기 때문에 자연 선택에 의해 키가 큰 놈이 살아남는다. 둘째, 키가 큰 게 보기 좋다. 이것은 성선택 영역으로 넘어가서 여자들이 키 큰 남자를 선호하게 만든다. 진화학적 시각으로 볼 때 크게 위의 이유 딱 두 가지라고 판단된다. 뭐, 농구를 잘 한다느니, 전구를 좀 더 쉽게 갈 수 있다느니 하는 이유는 유전자 전달에 영향을 주는 게 아니므로 하찮은 것들이다.

그럼 현대 사회에서도 키 큰 놈이 유리한가? 중고등학교 때 키 큰 놈이 가오잡고, 싸움 잘 하고 이런 것은 현실이다. 그러나, 현대는 주먹으로 사람 때려죽여서 무언가를 쟁취하는 시대가 아니다. 그런 시대는 이미 구석기 시대 지나면서 사라져 버렸다. 

그럼 인류의 가장 큰 무기는? 바로 뇌다. 어떤 도구를 사용하면 효율적인 살인을 할 수 있는가. 그게 핵심이다.

 키가 콩알만 했던 로마 군인이 어떻게 해서 덩치 우람한 게르만 민족을 지배할 수 있었는가. 문명화에 그 답이 있다. 결국 뇌의 활용이라는 말이다. 키로 인한 자연 선택의 옵션은 완전히 사라진 상태라고 해도 무난할 듯 보인다.

그렇다면, 남아있는 유일한 요소는 성선택이다. 아무리 자연 선택의 측면에서 불리한 요소라 하더라도 암컷이 원한다면 그 요소는 발달을 하게 된다. 공작새의 깃털이 대표적인 예다. 인간에게는 키가 그런 요소 아니겠나 싶다. 키가 크면 보기 좋고, 섹스어필에 유리하다. 이건 어떻게 교정할 수가 없다. 그래서 수컷들은 다른 섹스어필 무기를 만들었다. 노래, 유머, 지능의 과시, 편지, 로맨틱한 언어들. 따져보면 결국 뇌를 사용하는 것들이다. 그래도 키가 큰 놈이 여전히 유리하다. 남자 역시도 배우자를 선택할 때 키가 큰 여자를 선호하는 경향이 있다(성적 기호와는 전혀 상관없이). 내가 키가 작으니까, 그런 걸 자식에게 물려주기는 싫다는 의식적 혹은 무의식적 압박이 상당한 것 같다.

솔직히 딱 까놓고, 현대 사회에서 키 작은 게 키 큰 거보다 유리하지. 음식을 먹어도 큰 놈이 더 많이 먹어야 하고, 같은 차를 타도 큰 놈이 타면 더 작게 느껴질 거고, 같은 집에 살아도 작은 놈이 더 유리하지. 우리가 만약 샤킬 오닐 같은 덩치라, 지금 살고 있는 집이 좁아터져서 어떻게 생활하겠나. 덩치 큰 놈은 더 큰 집, 더 큰 자동차를 사야하니까 작은 놈보다 더 열심히 공부하고, 더 오랫동안 일을 해야하고 그렇지. 그래서, 나는 키가 작아서 참 좋다.(이게 바로 현실 부정을 통한 정신 승리? 아니면, 현실 직시? 어쨌든 저쨌든 정신 승리는 정신 승리.)



사도 OST - 아모리 만조상해원경 

올 가을 극장가를 강타하고 있는 "사도: 가장 비극적인 연차평가 이야기"의 예고편입니다. 난생 처음 연구비를 받고 재미있게 연구를 하고 싶어하는 사교수의 요절복통 연차평가 이야기가 아주 애잔하게 그려져 있습니다. 커밍 순.


간만에 다시 돌아온 우울한마빈의 문화산책입니다. 사실 오늘 페이스북을 보다가 mad scientist님의 글(https://goo.gl/8o8Zwh)을 보고 필 받아서 발로 만들었습니다. 

사실 선진국의 반열에 올라선 우리나라의 연구비는 다른 선진국들에 비해서 형편없이 모자란 건 아니에요. 다만, 방향성에 있어서는 좀 생각해 볼 부분이 많은 것 같습니다. 특히 선정된 연구과제들이 보다 재미난 연구결과들을 도출할 수 있도록 만들기 위해 진지하게 고민하기 보다는 기계적으로 정량화된 평가를 통해 연구의 창의력을 억누르는 결과로 나오는 경우들이 많습니다. 그리고 이 과정에서 많은 연구자들이 재미있는 연구보다는 살아남기 위한 연구를 하게 되는 결과로 이어지게 되는거구요. 

노벨상 노벨상 말로만 떠드는 것이 아니라, 정말 많은 연구자들이 자신이 재미있어 하는 연구를 안정적으로 할 수 있는 환경을 만들어야 하는데, 그게 쉽지 않으니 문제이지요. 특히 IBS등 대단위 연구로 대표되는 연구비의 블랙홀들이 많은 연구자들의 연구기회를 상대적으로 박탈하고 있다고 느끼게 하는 것도 큰 문제입니다. 연구과제보다는 사람을 향하는 연구비가 필요합니다. 그것도 몇 몇의 사람들이 아니라 다양한 사람들이 다양한 연구를 할 수 있는 환경 말이에요. 

뭐, 위의 내용은 패러디입니다. 저 정도로 빡쎄지는 않아요. 하지만, 과장을 좀 하기는 했어도, 연구자들에게 돌아오는 압박은 현실에서 크게 벗어나 있다고는 생각하지 않아요. 이건 다~ mad scientist 때문입니다! 전 연구재단을 사랑해요! 우!윳!빛!깔 미!창!부! 교육부 반자이! 그러니깐 연구비 좀 ㅎㅎ

논문작성법 (6) 그래프, 표 그리고 통계 part III


③ Column graph 

ⓐ 단일변수 

      - unpaired t-test

      - Mann-Whitney test

      - paired t-test

ⓑ 다변수

      - one-way ANOVA

자, 이번 시리즈 포스팅의 대략적인 타임테이블은 글의 맨 뒤에 있다. 별 다른 변동사항이 없을 경우 맨 뒤의 표와 같은 순서로 포스팅을 진행할 예정이다.★외★는 상황 상황에 따라 추가될 수도 있으니 너무 신경쓰지는 말자. 자, 오늘 우리가 공부를 할 부분은 뻘건색으로 표시된 부분들이다. 즉, paired t-test와 다변수 중 one-way ANOVA에 대해서 같이 공부를 해보십시다. 근데 이거 야매로 만들라고 했는데 우째 일이 자꾸 커진다. 그래도 기본 베이스는 야매입니다. 틀린 부분이 많을터이니 이에 대한 지적질이나 설명질에 대해서는 당연히 미리 감사드립니다만, 너무 나무라지는 마세요. 너무 의기소침해지면 또 방구석에 틀어박혀서 SSRI나 처묵 처묵 하게될지도 몰라염. 


결국 오양의 논문은 주작으로 자연誌에서 확인사살한 모양입니다. 황모씨때가 오버랩되면서 씁쓸해지는군요. 황모씨나 오양이나 과학자라기 보다는 양아치들이죠 뭐.

③ Column graph


ⓐ 단일변수 - paired t-test


우리가 지난시간에 살펴봤던 paired t-test와 Mann-Whitney test의 경우는 피실험체 개개인의 데이터를 기반이 아니라 그룹별 데이터를 기반으로 하고 있었다. 그런데, 다음과 같은 경우를 상정해보자. 마우스 한마리 한마리에서 약물을 주기 전/후 혈중에서 특정 물질의 농도를 측정한 데이터. 이를 환자기반 연구로 비유하면, 환자 한명 한명에게 약물을 주기 전/후의 반응을 관찰하는 경우 말이다. 이런 경우에는 각 데이터가 환자별/마우스별로 약물투여 전/후의 데이터가 나오게 된다. 다음과 같이 말이다.

왼쪽의 column에는 각 환자/마우스별 데이터가 숫자로 정렬되어있다. 그리고 group A는 control (pre-treatment)이고 group B는 treatment 후의 특정 물질의 농도라고 치자. 뭐 대충 이런식으로 데이터셋이 나올꺼다. 자, 그러면 이제부터 통계처리를 시작해볼까? 따라란 따라란 딴딴~



일단 이 데이터들이 정규분포를 따르는지 안 따르는지부터 살펴보는게 먼저일꺼다. 각 그룹별 n수가 딱 10개씩이므로 정규분포를 따르는지의 여부를 살펴보자. 쨘.


그러면 두 그룹 모두 정규분포를 따르는 것으로 나온다. 그러면, 우리는 paired t-test를 할 수 있게 된다. 


요로코롬 뿅뿅하면,

통계 결과가 뿅 하고 나온다. p value가 0.0098이다. 우앙ㅋ굿ㅋ 그러면 그래프를 요로코롬 그릴 수 있게 된다.


별이 두개인 그래프가 생겨요. 자, 그런데 만일 정규성검정 결과 정규분포를 따르지 않는다고 나온다면 (p < 0.05) 어떻게 해야 하는가? 뭘 어쩌긴 어째, "No. use nonparametric test" 클릭해서 Wilcoxon matched-pairs signed rank test해야지. 윌콕슨씨의 랭크테스트는 데이터의 숫자는 다 날리고 순위별로 검정하는거라고 보면 된다. 자세한 내용은 아래링크를 참조하세요. 

Wilcoxon signed rank test (술술보건의학통계 블로그)

여하간 아래처럼 nonparametric > wilcoxon matched-pairs signed rank test 하면 결과가 나온다.


뭐 이런 식으로 치료 전/후의 데이터에 대한 통계 처리를 할 수 있다.


 다변수 - one way ANOVA


저기요, 근데요. 제가 실험을 했는데요. 약물을 주고 억제제를 줬걸랑요? 이처럼 변수가 많으면 어떻게 t-test 하나염? 걍 각 그룹별로 t-test하면 되는건가염?

살면서 이런 질문을 해보거나 받아본 적이 있을꺼다. 답은 간단하다. 아노바 돌려요. 끝


t-test/Mann-Whitney test는 하나의 변수를 가지고 두 그룹을 비교하는데 쓰이는 통계처리 방법이다. 이에 비해 ANOVA는 다변수를 가지고 통계처리를 하는 방법이다. 앞선 예와 같이 약물A, 약물A에 대한 억제제B처럼 2개의 변수가 존재를 할 경우 이들간의 상관관계에 대한 통계처리 방법이라고 보면 된다.


단변수의 경우 그룹의 정규성 검정에 따라 각기 t-test와 Mann-Whitney test를 돌린 것과 같이 다변수의 경우도 그룹의 정규성 검정에 따라 One way ANOVA와 Kruskal-Wallis test로 나뉘게 된다. (two-way 이상의 ANOVA 검정에 대해서는 차후에 알아보도록 하자.)


뭐, 간단하게 데이터 그룹들이 정규분포를 따르면 ANOVA, 안 따르면 Kruskal Wallis test 돌리면 된다고 보면 된다. 아래 그림처럼 말이다.


자, 그렇다면 세 군의 비교의 경우 귀무가설과 대립가설을 어떻게 설정하는지를 살펴보자.


One-way ANOVA의 가설은 위와 같이 정해지고, 이에 대해서 유의수준 5%에서 검정이 들어가게 된다. 자, 그렇다면 만일 대립가설이 성립되는 경우, 즉 "읭? 그룹 A,B,C간의 뭔가 차이가 나넹?"가 되면 우왕ㅋ굿ㅋ 끝이당~인가? 애석하게도, 이 회의주의자들이 득실한 환경에서는 뭐가 얼마만큼 어떻게 차이가 나는지를 이야기해주지 않는다면 아무도 인정을 해주지 않는다. 이를 검증하는 방법이 바로 post-hoc test이다. 


post-hoc test

사후분석 (post-hoc) 검정법으로 주로 사용되는 방법은 Bonferroni와 Tukey, Sidak, Dunn을 주로 사용하게 된다. 먼저 Bonferroni test의 경우는 각 그룹간 t-test를 돌린다고 생각하면 된다. 다만, 전체 유의수준을 5%으로 고정된 상태에서 t-test를 진행하는 것이기 때문에, 각 그룹간 검정력은 0.05/3 = 0.0167. 대략 1.66%의 수준의 유의수준으로 각 그룹간을 검정하게 된다. 이게 뭔 말이냐 하면, 더럽게 p value가 안나와.  이게 워낙 보수적으로 통계를 돌리는 것이기 땜시롱 그렇다. (아 그런데, 이거는 모든 그룹간 비교하는 경우에 해당하는 거고, 만일 Control group A vs Group B, Control group A vs Group C, 이런 식으로 control group하고만 비교한다고 하면 검정력이 높아지게 된다. 이 경우는 2번만 posthoc test를 진행하는 경우이므로 0.05/2 = 0.025. 쪼금만 생각해서 돌리면 유의수준을 쥐똥만큼 더 올릴 수 있다.) 


회의주의자들이 득세하는 이 바닥이라고 할지라도 이게 해도 해도 드럽게 p value 맞추기 힘들었는지 adjusted p value를 구할 수 있는 여러가지 post-hoc test들이 개발되었다.  Tukey, Sidak, Holm-Sidak, Newman-Keuls, Fisher's LSD 등의 테스트가 그것이다. 얘들의 기본적인 개념은 위에서 보았듯 bonferroni로는 죽어라 안 나오는 post-hoc tes에서의 p value를 어떻게든 발악을 해서라도 쥐똥만큼이라도 나오게 만들어주자이다. (허허허. 전 야매에요. 더 정확한 설명은 통계에 빠삭한 주변분들이나 정통 통계학자분에게 물어보세용)

그렇다면 여기에서 우리는 가장 중요한 문제에 봉착하게 된다. 바로 
그럼 post-hoc test로 뭘 쓰란 말입니까!

야매스럽고도 무책임한 답은 의외로 간단하다.
일단 bonferroni 돌려봐. 안 나오면 Tukey 써보고. 그래도 안 나오면 검정력이 더 높다는 Holm-Sidak이나 Newman-Keuls 쓰세요. 그래도 안 나오면 답 없는겁니다. 

뭐 이건 정말 답 없다. 통계학자분들의 주장에 따르면 어떤 경우에는 어떤 것이 검정력이 조금 더 좋으니 뭐 뭐를 사용하고, 어쩌고 말들이 많기는 한데, 우리처럼 비루한 의과학자 따위들이 어디 고귀하신 통계학자분들의 고견을 알아들을리야 만무하고, 걍 prism에서 기본으로 추천되어 있는 Tukey나 유서깊은 Bonferroni로 통계처리 하면 된다. 이 정도로만 해도 통계 때문에 논문 리젝 안 먹는다. 

아, 그리고 Bonferroni나 Tukey는 그룹이 정규분포를 따를 경우에 사용하는 post-hoc test이고 정규분포를 따르지 않는 경우. 즉, Kruskal-Wallis test를 돌릴 경우에는 Dunn test를 사용하면 된다. 정통 야매 통계를 표방하는 우리는 걍 posthoc 테스트로 Tukey, Bonferroni/Dunn을 사용한다고만 알고 넘어가자. 혹시라도 더 자세히 알고 싶으신 분은 아래 위키피디아 링크를 참조해서 스스로 공부하세용~데헷
Post-hoc analysis (Wikipedia)

자, 설명은 이 정도로 끝내고 실전으로 넘어가보자. 다음과 같은 예를 상정해보자.

HEK293 세포에, 자극제 ⓐ를 주었을 때 HEK293세포가 분비하는 cytokine ⓒ의 양을 측정하였다. 그리고 이 자극제 ⓐ의 수용체에 대한 억제제인 ⓑ를 주었을 때 HEK293세포가 분비하는 cytokine ⓒ의 양이 억제되었는지를 살펴본 실험이다. 

그러면 실험 모식도와 그룹은 다음과 같이 나뉠 것이다.

뭐 당연히 데이터값은 cytokine ⓒ의 농도가 될 것이다. 다음과 같이 데이터가 나왔다고 상정해보자. 

자, 정규성 검정을 돌려보면 정규분포를 따르는 것으로 나오니 스킵하고, 이에 대한 one-way ANOVA를 돌려보자. 이 통계처리의 가설은 다음과 같다.

자, 아노바를 돌려보실까나.

요로코럼 one-way ANOVA를 클릭하고, 모든 그룹을 클릭하면

이런 창이 뜬다. 우리가 상정했었던 데이터는 pair데이터가 아니다. 만일 한 환자에게서 약물주고 혈중농도, 억제제주고 혈중농도 뭐 이런식으로 실험을 했다면 "Each row represents matched, or repeated measures, data"를 클릭하면 된다. 자, 다음으로는 정규분포를 따르므로 ANOVA를 진행하면 된다. 그러면 뿅 하고 결과가 나와용. 


그러면 one-way ANOVA test 결과가 나온다. p value < 0.0001 이므로 귀무가설을 기각하고, 대립가설을 체택해서 각 그룹간의 차이가 있다는 것을 알 수 있다. 오예~

아싸라비야~

근데 우리는 중요한 것을 까먹고 있다. 회의주의자들이 득실한 이 바닥에서 뭐가 어떻게 유의하게 차이가 나는지를 누군가는 물어볼 것이다. 

오빠 포스트혹 테스트 결과는? 혹시 까먹은거야? 어떻게 그럴 수 있어? 수지가 좋아? 내가 좋아? 얼릉 말해. 오빠는 사실 수지가 더 좋기는 하지만, 너도 좋기는 한데, 이걸 뭐라고 말해야 하나, 사실 시노자키 아이도 좋아하고, 이시하라 사토미도 좋아하기는 하는데.. 그렇다고 각키를 싫어하는 건 아니고...뭐랄까 요즈음은 걸스데이의 유라의 유라유라함에 한참 빠져있었다가, 지금부터우리는 노래는 참 좋은데, 오미아걸의 아린 두산 홈경기 공연영상을 보고 뿅가죽네★ 했는데, 사실 이상형은 마이너한 모델 송연주양입니다. 한국연구재단 대전청사 입구에 들어가면 왼쪽에 큼지막하게 프린트되어 있어요. 송연주양 마음으로 응원합니다. 화이팅!

자. 아까 one-way ANOVA 메뉴로 잠깐 시간을 다시 돌려보면, Experimental design 탭 옆에 다음과 같은 탭이 있었던 것을 확인할 수 있다.

자, 이 탭이 post-hoc test를 설정할 수 있는 탭이다. 기본으로는 "no multiple comparison test"가 설정되어 있다. 이 메뉴 아래로 각 comparison test를 설정하는 메뉴가 나온다. 우리 예에서는 그냥 A,B,C 그룹 모두를 검정하면 되는 것인데, 만일 검정능력을 조금이라도 높이려면 특정 그룹과의 검정만을 시행할 수 있도록 설정할 수 있다. 자, 그리고 이 탭 옆으로는 option 탭이 있다. 이를 눌러보자.

바로 여기에서 어떤 post-hoc test를 사용할지를 결정할 수 있게 된다. 기본으로는 Tukey test가 설정되어 있으며, 그 외 신뢰구간부터 이런 저런 옵션들을 바꿀 수 있게 되어 있다. 걍 OK 누르자. 그러면 뿅 하고 결과가 나타난다.

자 그러면 Control vs agonist ⓐ는 별이 세개, agonist ⓐ vs agonist ⓐ+antagonist ⓑ도 별이 세개가 나오는 것을 알 수 있다. 그러면 그래프를 다음과 같이 그릴 수 있게 된다.

그래프가 기본적으로 이쁘다. 근데 이게 전부가 아니라 여러 그래프 형태로 나타낼 수 있다. 다음처럼 말이다.



Scatter plot 이외에도 Scatter plot with bar, Box & Whiskers, Floating bars 등등 예뻐서 뿅가죽는 그래프를 만들 수 있다. 뭐 그래프를 옆으로 뉘일 수도 있고 기본적으로 아주 예쁜 그래프를 만들 수 있다.

자, 이 정도면 column graph에서 onw-way ANOVA까지 공부를 끝냈다. 다음 부터는 grouped graph로 넘어가자. 

논문작성법 (6) 그래프, 표 그리고 통계


⓪ 들어가면서

① 그래프의 종류

ⓐ column graph

ⓑ grouped graph

ⓒ x-y graph

ⓓ contingency

ⓔ survival graph

② 데이터의 처리 및 통계처리의 기초

ⓐ 연속형 자료와 범주형 자료 

ⓑ 가설의 검정방법

ⓒ 중심극한정리와 정규성검정

③ Column graph 

ⓐ 단일변수 

      - unpaired t-test

      - Mann-Whitney test

      - paired t-test

ⓑ 다변수

      - one-way ANOVA

④ Grouped graph 

ⓐ grouped graph의 기본적인 설명

ⓑ Two-way ANOVA

ⓒ Grouped bar graph

⑤ X-Y graph 

ⓐ X-Y graph의 기본적인 설명

ⓑ Linear regression

ⓒ Non-linear regression

ⓓ Correlation

ⓔ Dose-response 

ⓕ Enzyme kinetics - Michaelis-Menten

ⓖ Enzyme kinetics - Competitive inhibition

⑥ Contingency

ⓐ Contingency graph의 기본적인 설명

ⓑ Chi-square prospective

ⓒ Fishers exact test of retrospective data

⑦ Survival

ⓐ Survival graph의 기본적인 설명

ⓑ Comparing two groups

ⓒ Three groups

★ 번외 Graphpad prism 소프트웨어 설명


아. 그리고 이 글들은 Mimi Zeiger의 essentials for writing biomedical research papers를 주된 교재로 작성 중이였습니다만, 이제부터는 이를 기반으로 오리지널 스토리로 들어갑니다. 논문 작성법에 관련된 내용은 위 책을 참조하시면 됩니다. 이거 작성하기 힘들다! 무지 힘들어요! 저는 통계학자도 아니고 어디에서 야매로 배워서 실험결과 통계처리나 근근히 해나가면서 먹고 사는 사람인데 하나 하나 설명하려니 뱁새가 황새 쫓아가다가 가랑이 찢어지는 느낌이네요. 걍 프리즘 소프트웨어 설명만 하고 넘길껄. 껄껄껄. 그래도 일단 할 수 있는데 까지는 해봅시다. 이거 포스팅하면서 저도 다시 공부하는게 많아서 개인적으로 나쁘지는 않아요. 허허허. 틀린 부분이 많더라도 이해와 지도편달 및 고진선처를 부탁드립니다. 그리고 "저 새X 저거 통계도 모르면서, 저딴식으로 글을 써대네" 하시는 분들은 꼬우시면 직접 쓰셔서 포스팅 해주시면 감사합니다. 저희 블로그는 외부 필진을 환영합니다. 언제나 열린 블로그 MDPHD 블로그! 


자 오늘은 그래프, 표 그리고 통계 세번째 시간이다.


아차, 그러고 보니 지난 번 포스팅에서 잠깐 까먹은게 있다. 프로그램을 소개하면서 기본적인 레이아웃이나 메뉴도 소개를 안 해버렸네~ 데헷~

뭐 지금이라도 기본적인 레이아웃 메뉴에 대해서 설명하고 넘어가자.


★ 번외 Graphpad prism 소프트웨어 설명

Graphpad prism은 graphpad 사에서 만든 프로그램으로, 통계처리에서 광범위하게 사용되는 프로그램 중 하나이다. 그 프로그램의 장점은

① 쉽다

② 저렴하다

③ 그래프의 퀄리티가 좋다. 예뻐서 뿅간다.

④ 프로그램이 안정적이다 (crash dump가 잘 안난다)

뭐 이 정도다. 그래프패드 홈페이지에 가면 구매할 수 있고 (http://www.graphpad.com), 가격은 아카데믹 프라이스로는 $450 하고 있으며, 학생 디스카운트도 있는 것으로 알고 있으니 직접 홈페이지에 문의하면 된다. 뭐 SPSS 스탠다드가 2500$ 정도하니깐, 이에 비하면 양반이다. 2015년 현재 버전은 prism 6이다. 

요거 걍 사면 됩니다. 실험실에 하나 구비해두면 아주 좋아요.

자 그러면 인터페이스에 대한 설명이다. 프리즘을 실행시키면 다음과 같은 창이 짠 하고 뜬다.

이 창에는 어떠한 종류의 테이블과 그래프를 구성할지가 그림으로 잘 설명되어 있다. 지금 보이는 창은 column 형태의 그래프 창이고, 세부내용으로는 어떠한 데이터셋을 사용할지를 정할 수 있다. 그리고 sample data를 가져올 수 있어서 이게 무슨 그래프인지를 감잡는데 아주 용이하다. 한번 use sample data에서 "t test-unpaired"를 클릭해서 열어보자. 그러면 다음과 같은 창이 열린다.

1번 부분은 메뉴 부분이다. 여기에서 기본적인 작업을 진행할 수 있다. 2번 창 부분을 보면 Data table, info, results, graph, layout 등의 메뉴가 생성된다. results 부분은 아직 통계처리를 하지 않았으니 비어있고, 통계처리가 끝나고 나면 각 통계별 결과가 생성된다. 3번 창은 data table을 보여주고 있다. 여기에서는 t test-unpaired의 샘플 데이터가 들어있다. 그리고 옆의 포스트잇 박스는 이게 샘플이기 때문에 어찌 어찌 하라는 설명이 나와있는 것인데, 실제 데이터 작성시에는 없어지니깐 별로 신경쓰지 말자. 자. 이제 2번 박스에서 unpaired t test data를 클릭하면 다음과 같이 뜬다. 

그래프 패밀리에서는 어떤 종류의 그래프로 보여줄지를 정할 수 있고, 그 아래의 각 그래프별 샘플 그림을 보여주고 있어서 직관적으로 그래프 타입을 설정할 수 있다. 그리고 plot에서는 어떤 방식으로 보여줄지 (mean, mean with SD, mean with SEM, mean with 95% CI, mean with range 등등)를 설정할 수 있다. 그러고 나면 아래 큰 그림 부분에 현재 데이터를 사용한 미리보기를 할 수 있다. column방식, mean with SEM을 클릭하면 아까 2번 창에 있던 데이터를 기반으로한 그래프가 생성된다. 뿅

요로코롬 그래프가 생성된다. 그래프 더블 클릭하면 창이 더 뜨는데, 이건 그래프를 예쁘게 만들 수 있는 창이다. 

뭐 나머지는 디자인에 대한 문제이니 설명하기는 거시기하고, 일단 막 눌러보자. 각자 마음에 드는 그래프로 변경해서 사용하자. 그리고 난 뒤, 제일 중요한 통계처리로 넘어가자. insert > new analysis를 누르자.

그러면 익숙한 창이 나오고, 통계처리를 진행할 수 있게 된다. 

뭐 익숙한 창이다. 클릭 클릭한 뒤에 메인창의 왼쪽 부분을 살펴보면 results에 통계처리 (이 경우는 Mann-Whitney test) 결과가 생성된 것을 확인할 수 있다.

자. 이 정도까지가 graphpad prism의 인터페이스이다. 나머지는 각자 이것 저것 만져보면 금방 이해할 수 있을 것이라고 생각한다.

아차, 그리고 한가지 더. 그래프를 바로 command-C해서 복사한 뒤 keynote나 prism, photoshop에 paste하면 embedded graph로 바로 뜬다. 당연히 벡터기반이기 때문에 크기를 키워도 깨지지 않는 장점이 있다. 아래처럼 말이지.


ppt나 keynote에서 그래픽 작업하는데 아주 요긴하다. 아, 그리고 혹시 photoshop 쓰시는 분들이 한가지 알아두면 좋을 점은, prism에서 폰트 10이면 photoshop에서도 폰트 10입니다. 1:1 이라는 점을 유념해두면 좋다. 개인적으로는 figure 작업을 포토샵에서 진행하는데, prism 그래프를 1:1로 paste할 경우에 prism 그래프가 너무 작아져서 수정하기가 용이하지 않는 관계로 prism 그래프를 실제 figure 보다 2배 크게 작업을 진행한다. 즉, 내가 원하는 figure의 선 굵기가 1인 경우, prism에서는 2로 그리고, figure의 글씨 크기가 10 인 경우, prism에서는 20으로 그린다. 그리고 난 뒤에 photoshop에 paste할 때, 50%로 prism 그래프 크기를 줄여주면 된다. 요거 은근 꿀팁이다. 아니, 꿀팁이라기 보다는 prism에서 글자나 이런거 작업할 때 겁나 짜증나. 이건 한 번 써보면 안다. 개인적으로 powerpoint를 잘 안쓰게 되는 이유와 동일한데, 오브젝트에 대한 스마트 핸들 뭐시기인지 망할 놈의 핸들 클릭하기 겁나 짜증난다. 이건 정말 해보면 알게 된다. 자, 인터페이스에 대한 설명은 이 정도로 마치고 다음 시간부터는 다시 그래프, 표 그리고 통계로 돌아가자. 


아. 그리고 이 글들은 Mimi Zeiger의 essentials for writing biomedical research papers를 주된 교재로 작성 중이였습니다만, 이제부터는 이를 기반으로 오리지널 스토리로 들어갑니다. 논문 작성법에 관련된 내용은 위 책을 참조하시면 됩니다. 어제 매콤한게 땡겨서 불닭볶음면 2개를 먹었더니 오늘 엉덩이에 불이 나는군요. 개인적으로는 간짬뽕을 더 선호하는데 이거 만들기가 은근 귀찮아서 걍 컵라면으로 불닭볶음면을 먹었어요. 하지만, 간짬뽕이 더 맛있습니다. 탱글탱글한 면발을 후라이팬에 기름두르고 볶으면서 소스넣고 양배추를 넣은뒤 자작 자작 볶으면 아주 맛있는 야식이 완성됩니다. 허허허. 배고파요. 


제 3회 신진 기초의과학자 연합 심포지움이 지난 9월 11일 대구 근교 모처에서 열렸습니다. 

올해에도 감사하게도 계명대학교에서 주관을 하여서 행사가 진행되었습니다. 이번에는 호텔 금오산의 컨퍼런스룸에서 진행이 되었어요. 프로그램은 9월 11일~12일 양일에 걸쳐서 진행되었습니다. 아무래도 저녁 늦게부터 시작되어서 그런지 일정이 느즈막하게 진행되었어요.

뭐 저희 모임의 가장 큰 목적 중 하나가, 젊은 의과학자들끼리 서로 모여서 무슨 연구하면서 살고 있나 보는 것이기 때문에, 재미있는 연구를 하시는 분들의 소중한 발표자리가 이어졌습니다. 

플랜카드도 있고, 

회장님 훈시도 있었고,

부회장님의 말씀도 있었습니다. 

물론 재미난 발표들도 있었지요.

그리고, 사진 한 방 찍었습니다. 이번에는 장소가 멀리 떨어져 있는 바람에 20여명이 모였습니다. 학위과정 학생부터 조교수까지 다양한 연령대였지요. 사실 기초의학을 전공하는 MD는 정말 소수에요. 근데, MD라고 해도 별반 다를 것 없이 쥐꼬리만한 월급 받으면서, 파이펫 잡고 연구하는 사람들이죠 뭐. 학생들 가르키고 연구하는게 즐거운 사람들이죠 뭘. 이런 사람들이 20여명이 모였으니 술이 빠질 수 없겠죠. 친목도모의 가장 지름길은 알코올로 간을 깨끗하게 소독하는 것이 제일 빠른 길이지요. 

술이 들어간다. 쭉~쭉쭉쭉~

형~님! 당근 원샷이겠죠?~

언제까지 어깨춤을 추게할꺼야~ 내 어깨를 봐~ 탈골됐잖아~ 이 자리는 노약자석이였습니다. 이미 탈골된지 오래에요.

뭐 이러니 저러니 요즈음 저희 모임에 대해서 말들이 있는 모양이던데, 사실 별 대단한 모임은 아니에요. 그냥 외로운 길 걷는 사람들끼리 모여서 좋은 연구성과들 공유하고, 밥먹고, 술마시고, 떠들면서 왁자지껄한 모임이죠. 무슨 의학발전의 사명같은 건 위대하건 높으신 분들이나 하시는거고, 우리야 뭐 재미있게 연구하고 어울리는게 더 좋은거죠 뭘

그래서 그런지, 우리 모임의 정체성은 대충 "피라미드형 점조직"으로 정해졌습니다. 기존 회원의 신규 회원을 데려올 적마다 브론즈 → 실버 → 골드 → 사파이어 → 다이아로 승진하기로 정해졌어요. 그리고 다이아 회원 되고 나면 졸업시켜주는 걸로 대충 정한 듯 싶어요. 허허 나는 언제 실버 다나. 덤으로 직인은 군납 랑디 XO 뚜껑으로 하기로 했어요.

직인의 몸통이 될 랑디XO 뚜껑과 직인 도안 1번. 개인적으로는 참 잘했어요도 좋지만, "개처럼 실험해서 정승처럼 논문쓰자"를 하고 싶어요. 

아, 그리고 우리 모임의 하이라이트는 다음과 같이 청량한 소리를 내면서 만들어졌습니다. 

아, 저거 콜라랑 맥콜이에요. 절대로 양주와 맥주는 아닙니다. 저희 모임은 건전한 학술모임을 표방하고 있습니다.

뭐, 이래 저래 술자리가 끝나고 다들 삼삼오오 술들을 더 드시러 움직이시거나 내일을 위해 숙소로 이동하였습니다. 저도 숙소로 이동하는 자리에, 제 팬을 자처하시는 분들께 납치되어서 늦게까지 술을 먹고 다음날 엄청 힘들었지요. 서울에 돌아와서도 술이 안 깬 건 안자랑. 주차해놓은 차 안에서 2시간 넘게 자고, 배고파서 깬 건 안자랑.

뭐 이랬습니다. 올해에는 MERS때문에 행사 일정이 많이 늦어지기는 했지만, 1여년 만에 다시 만난 친구들과, 새롭게 우리 모임에 참석한 친구들로 너무나도 반가운 자리였습니다. 뭐 앞으로 더 많은 분들과 함께 이 자리를 통해 같이 발맞추어 나갈 수 있는 장이 열렸으면 좋겠습니다. 

마지막으로 지난 2년간 열심히 회장직을 맡아주고 계신 계명대학교 면역학교실 김신 교수님과 부회장 허준영 교수님 및 실무진 여러분들께 참 감사하다는 말씀을 드리고 싶습니다. 김신 교수님은 그냥 종신 회장 하셔도 괜찮을 것 같은데 말이죠. 내년부터는 각 학교별로 돌아가면서 행사를 진행할 듯 싶지만 아직 정해진 것은 없는 것 같네요. 뭐, 내년에 다시 뵐 그 때까지 다들 건강하시고, 신규회원을 많이 데리고 오셔서 실버회원이 되십시다. 안녕~



프리즘을 이용한 통계에 대해서 살펴보기 이전에 일단 통계학적 기본 개념에 대해서 살펴보고 넘어가자.



② 데이터의 처리 및 통계처리의 기초

일단 이런 기본 개념에 대해서는 높이 비상하는 즐거운 상상 블로그 (http://dermabae.tistory.com)에 가면 통계학의 기본에 대한 강의를 잘 들을 수 있다. 책으로 구매하려면, 인터넷 서점에서 "닥터배의 술술 보건의학통계"책을 구매하면 된다. 본 블로그하고는 아무런 친분관계도 없고, 이해관계도 없다. 오히려 저희가 빌붙는 처지입지요, 헤헤.


연속형자료와 범주형자료

통계처리를 하기 전 가장 중요한 것은 "자료를 어떻게 분류하는가" 이다. 우리가 흔히 실험결과를 통해서 얻어내는 수치적인 자료들은 연속적인 수로 이루어진 연속형 자료이다. A라는 처리를 했을 때, B라는 물질의 농도. 뭐 이런식의 연속형 자료일 것이다. 이에 비해 범주형 자료들의 경우는 종양의 병기, 질병의 중등도 등과 같은 범주형자료이다. 이러한 연속형자료와 범주형자료의 경우 각기 통계처리를 하는 방식이 상이하기 때문에, 데이터를 처리함에 있어서 가장 첫 단계는 원자료가 연속형자료인지, 범주형자료인지를 파악하는 단계이다. 근데 앞서서도 이야기했듯 우리가 흔히 얻게 되는 실험결과데이터들은 연속형자료가 대부분이다. 물론 연속형자료를 범주형으로 만들 수도 있다. 예를 들어 연속형자료인 환자의 나이를 나이대 (10대, 20대 등)으로 변형해서 사용한다거나 하는 식으로 말이다. 


가설의 검정방법

뭐 이건 귀무가설과 대립가설에 대한 이야기인데, 이 바닥이 워낙 회의주의적인 인간들이 득실대서 그런 것인지, 귀무가설 (null hypothesis, H0)은 "별 차이 없을껄"이고, 대립가설 (alternative hypothesis, H1)은 "거봐 차이 나잖어"로 생각하면 될 듯 싶다. 우리가 흔히 이야기하는 p value < 0.05라 함은 귀무가설 (차이없을껄)이 일어날 확률이 5% 이하인 경우를 말한다. 즉, 100번 중 5번 이하로 차이가 없는 결과가 나올 경우를 뜻한다. 예를 들어 약물 A에 의한 혈중농도 B를 측정한 실험을 가정해보자. 이 실험을 총 20마리의 마우스를 가지고, placebo와 약물A를 각각 10마리씩 투여했을 때, 혈중 농도 B의 양이다. 

자 위의 데이터가 원자료라고 가정해보자. 이경우 귀무가설과 대립가설은 다음과 같이 설정될 것이다.

자, 그러면 이러한 데이터들을 prism에 후두르찹찹 넣고, unpaired t-test를 돌려보면, 다음과 같은 그래프가 나온다. 

그래프는 mean ± SEM으로 표시했고, 통계는 unpaired t-test를 사용했다. 결과를 보면 알겠지만, p value는 0.0052으로 0.05이하이다. 이 말인 즉슨, 귀무가설 (placebo랑 drug A랑 농도 B에 미치는 영향이 없다)이 나올 확률이 100번 중 5번 이하이기 때문에 귀무가설을 기각하고, 대립가설을 체택할 수 있다는 뜻이다. 이처럼 회의주의자들이 많은 통계바닥에서는 귀무가설은 별차이 없을 것으로, 대립가설은 차이가 있을 것으로 설정하게 된다. 아, 단 정규분포에서는 이게 반대로 된다. 데이터의 정규분포 여부를 확인하는 경우에 있어서는 귀무가설은 정규분포를 따르는 것으로 대립가설은 정규분포를 따르지 않는 것으로 설정한다. 

뭐 대충 이런식이다. 동등성 검정의 경우도 위와 비슷하지만 이는 나중에 시간되면 설명하기로 하자.


그런데 이쯤에서 한가지 명심해둘 점이 있다. 

n수는 깡패이니, 통계를 맹신하지 말지어다.

자, 위의 원데이터를 다시 한번 살펴보자. 위의 원 데이터에서 5번 마우스까지의 결과만을 가지고 통계를 돌려보자. 그러면 다음과 같은 통계 데이터를 얻을 수 있다.

자, 5번째 실험까지의 결과는 위와 같다. p value는 0.0634. 당연히 p < 0.05를 성립하지 않기 때문에 귀무가설을 체택해서 "drug A의 투여는 B농도의 변화에 별 영향 없다"로 결론을 내릴 수 있다. 근데, 이 데이터 디게 아깝다. 5번 더 반복실험하니깐 p value 나왔잖어. 이 말인 즉슨, 실험을 담당하는 너님은 5번 더 반복실험을 해야한다는 이야기이고, 충분치 못한 n 수에서 통계를 돌릴 경우 p value가 나오지 않는다고 그게 모두 사실은 아니다는 점이다. 그리고 사실 이 예제는 t-test돌리는게 아니다. 허허허. 걍 t-test가 가장 쉬우니깐 예제로 보여준거지, 원래는 정규성 검정 → 정규분포를 따르지 않으므로 → Mann-Witney test 돌리는게 맞다. 우리는 야매니깐 괜찮기는 하지만, 그래도 명색이 통계 강의 포스팅인데. 허허허. 자, 그러면 이 정규성 검정이라는게 뭔 소리인지 알아보자.


중심극한정리와 정규성 검정

중심극한정리는 사실 한 마디로 요약할 수 있다. 

n수가 많으면 엔간하면 정규분포 따른다.

되게 야매같은 말이다. 근데, 이게 중심극한정리다. 자세한 내용은 아래 링크를 따라가서 보고 오자.

중심극한정리 (닥터배의 술술 보건의학통계 블로그)

이 말인 즉슨 우리 실험에서도 반복실험 많이 한 경우에는 엔간해서는 정규성을 가진다는거다. 그렇다면 몇 번이나 반복해야 대충 정규분포를 따르는걸까? 

n>30이면 정규분포를 따른다.

10<n<30이면 정규분포 따르는지 확인해 봐야한다.

n<10이면 정규분포 안따를껄

뭐 이렇게만 알고 있으면 된다. n>30이면 뭐 묻지도 따지지도 않고 정규분포를 따를테니, t-test를 진행할 수 있는 것이고 10<n<30이면 정규분포를 따르는지를 확인해봐야 하고 이러한 정규분포를 따르는지의 여부는 대게 Shapiro-Wilk test, Kolmogorov-Smirnov (KS) test, D'Agostino & Pearson omnibus normality test를 하게 된다. 앞서서도 설명했듯 이 경우에는 귀무가설이 "엔간하면 정규분포 따를 것"이므로 p<0.05인 경우에는 귀무가설기각=대립가설체택="정규분포를 안 따른다"가 되게 된다. 뭐 n<10이면 묻지도 않고 따지지도 않고 정규분포를 안 따르는 건 아니고, 한번 통계 돌려봐라. 돌려봐서 나오면 좋은거지 뭐. 근데 십중팔구 안나올껄. 

그런고로, 우리 실험결과들을 가지고 통계적인 처리를 하기 이전에 일단 정규분포를 따르는지의 여부를 살펴보는 것이 먼저이다. Prism에서는 column statics를 통해 정규성을 검정할 수 있다. 

요래 요래 new analysis → column statics를 누르면

그러면 이것 저것 설정하는 창이 나온다. 걍 다 클릭해버리자.

그럼 대충 이렇게 나오는데, 뭐 중요한 건 다 들어있다. 우리가 normality test를 하는 방식은 D'Aostino&Pearson omnibus, Shapiro-Wilk normality test, KS normality test인데, 모두 다 p value가 0.05 이상을 보여준다. 앞서서도 이야기했듯 정규성 검정의 경우 귀무가설이 "엔간하면 정규분포 따를껄"이기 때문에 귀무가설을 체택하여, Data set A, Data set B 모두 정규분포를 따른다고 할 수 있다. 그러면 이 둘의 차이에 대해서 student t-test로 검정을 할 수 있게 된다. 

자, 서론은 이 정도로 하고 실전 (을 가장한 야매)로 들어가보자.


③ Column graph 

Column graph는 그래프에서 가장 기본적인 그래프이다. 엔간한 종류의 데이터는 column graph로 가공될 수 있다. 이러한 column graph에 대한 통계 처리에서 가장 중요한 점은 바로 변수의 갯수이다.


ⓐ 단일변수

unpaired t-test

세포A에 약물B를 처리하여, cytokine C의 농도를 측정한 실험의 데이터를 살펴보자. 실험군은 약물 B를 1 μM의 농도로 처리한 것이고, 대조군은 vehicle을 처리한 것으로 설정하자. 이 실험의 귀무가설은 "약물 B가 세포A가 생성하는 cytokine C의 양에 변화를 일으키지 않는다"일 것이고, 대립가설은 "약물 B가 세포 A가 생성하는 cytokine C의 양에 변화를 일으킨다"일 것이다. 측정한 cytokine C양 데이터는 다음과 같다.

이 데이터셋을 프리즘에 후두르챱챱 넣고, 그래프를 클릭하면 다음과 같이 나온다. (mean ± SEM)

딱 봐도 통계적 유의성이 없을 것 같은 느낌이 들지만, 이게 정말 통계적 유의성이 없는지도 검증해야 한다. 자, 아까첨에 이야기했던 것과 같이, 각 데이터가 정규분포를 따르는지를 확인해보자. insert → new analysis → column statics를 누르자.

자, 이렇게 column statics를 확인해보니, D&P test, SW test, KS test 모두 p value가 0.05 이상으로 유의성을 가지지 않는다. 뭐 정규분포 따르는 거지 뭐. 11번 반복실험한 것이니 정규성을 띄는거지 뭐. 자, 그러면 우리는 이 drug B가 A세포의 사이토카인C 생성에 미치는 영향에 대해서 student's t-test를 시행할 수 있게 되었다. new analysis → t-test를 선택하자. 고고!

요로코롬 누르면 다음과 같은 창이 뜬다.

만일 환자 한명 한명당 치료전/후의 특정 물질의 수치 등을 측정한 것이라면 paired data이겠지만, 우리는 자, 이 데이터는 세포를 각각 대조군/실험군으로 나누어서 진행한 실험이므로 unpaired data이다. 자, 다음으로는 가우시안 분포를 따르는지의 여부인데, 아까 해봤듯이 두 데이터 모두 정규분포를 따르므로, 모수적 방법인 parametric test를 시행할 수 있다. 다음으로는 두 군의 SD가 같다고 추정할지의 여부를 가지고 welch's correction을 사용해야할지의 여부를 물어보는데, 이건 나도 몰러 허허허허. 걍 t-test 돌려용 (사실 Welch's corretion에 의한 t-test는 Behren-Fisher problem을 풀 수 있는 방법으로 제시된 방법이라고 합니다. 즉 두 군이 동일한 평균을 가지고 각기 다른 분산과 샘플사이즈를 가졌을 때, unpaired student's t-test의 correction을 위해 사용한다고 합니다. 더 자세한 내용은 위키를 참조하세용 https://goo.gl/SAMDkz). 자, 그리고 나서 옆의 옵션창을 봐 보자. 여기에서는 one-tailed인지, two-tailed인지를 결정할 수 있고, 두 군의 차이를 어떤 식으로 리포트할지를 결정할 수 있으며 (여기에서는 drug B-veh로 표현함), 신뢰구간을 95%로 할지를 결정할 수 있다. 보통 우리가 행하는 두 군간의 비교에서는 95%의 신뢰구간을 사용하므로 통계적인 유의성은 p < 0.05일 때 (5%미만), 귀무가설을 기각할 수 있게 된다. 세군등의 비교를 하는 경우, 즉 ANOVA 등을 시행하는 경우는 전체 유의수준을 5% 미만으로 설정하고, 사후분석 (post-hoc)테스트에서는 각 그룹별로 괴장히 낮은 수준의 개별 유의수준을 유지하게 된다. 이에 대해서는 세 군 이상의 분석 - ANOVA 파트에서 조금 자세히 알아보고, 여기에서는 걍 95%, p < 0.05만 기억해두자. 자, 그리고 OK를 누르면 다음과 같이 나오게 된다.

뭐 그러면 뿅 하고 나온다. 그러면 뭐 다 필요없고 p value만 눈에 보이겠지 뭐. 0.3208이다. p < 0.05 (5%미만)을 만족하지 않으므로 귀무가설인 "약물 B가 세포A가 생성하는 cytokine C의 양에 변화를 일으키지 않는다"를 체택하게 되는 결과를 도출할 수 있다. 그리고 mean ± SEM, difference between means 등의 기술을 가져다 쓸 수 있게 된다.

자, 그렇다면 만일 정규성 검정에서 정규분포를 따르지 않는 경우에는 어떻게 통계처리를 해야 하는지를 알아보자.


Mann-Whitney test

다음은 약물 C가 실험동물의 혈중 A농도에 미치는 영향을 검증하는 실험이다. 귀무가설은 "약물 C 줘봤자 혈중 A농도에 별 영향 안 미칠껄"이고 대립가설은 "아니여, 약물 C가 혈중 A 농도를 변화시킬껴~"이다. 데이터셋은 다음과 같다.


자, n=5인 경우이다. 앞서서도 이야기했듯 n<10인 경우에는 정규분포 안 따른다. 그래서 묻지도 따지지도 않고 걍 Mann-whitney test를 하자. 

자, unpaired test이고, 가우시안 분포를 추정할 수 없으므로 "No. Use nonparametric test"를 클릭하면, choose test에 Mann-whitney test와 Kolmogorov-Smirnov test가 나오게 된다. 여기에서 Mann-whitney test를 클릭하고, option으로 들어가면 t-test때와 별반 다를 것 없는 메뉴가 나온다. 걍 OK 눌러라. 

그러면 뿅 하고 통계 결과가 나온다. p = 0.0079 이므로 p < 0.05를 만족하여, 대립가설 체택이다. 그러면 그래프에 다음과 같이 별표 두개를 적어 넣을 수 있다. 요로코롬 말이지.

별이 다섯개! 는 통계에서는 있을수가엄어서 아쉽다. 별세개 나오면 빼도 박도 못하는 결과이지만, 별만 나와도 좋은거지 뭐. 아니, 어떤 실험에서는 별이 나오면 안 되는 실험들도 있을테니, 뭐 별 나오면 통계적 유의성이 있는거에요. 뭐 이렇게 알고 넘어가자. 


정리하면서 

자, 오늘 시간을 정리해보자. 오늘 우리가 배운 건 많은 것 같지만 사실 그다지 많은 양을 배운 건 아니다.

② 데이터의 처리 및 통계처리의 기초

 연속형 자료와 범주형 자료 - 실험데이터는 대부분 연속형 자료이다. 

 가설의 검정방법

귀무가설 - 별 차이 없을껄 

대립가설 - 거봐 차이 나잖어

5% 유의수준, 유의확률 p < 0.05이면 대립가설 체택

단, n 수는 깡패이니, 통계를 맹신하지 말지어다.

 중심극한정리와 정규성검정

n수가 많으면 엔간하면 정규분포 따른다.

n>30이면 엔간하면 정규분포 따를껄

10<n<30이면 정규분포 돌려보자.

n<10이면 정규분포 안따를껄

정규분포 검증은 SW, KS, DP test를 사용한다.

③ Column graph 

ⓐ 단일변수 

- unpaired t-test

- Mann-Whitney test

자, 오늘은 이 정도로 하고, 추석 연휴 이후에 포동 포동 올라온 뱃살을 두들기면서 다시 만나십시다. 안농~ 


아. 그리고 이 글들은 Mimi Zeiger의 essentials for writing biomedical research papers를 주된 교재로 작성 중이였습니다만, 이제부터는 이를 기반으로 오리지널 스토리로 들어갑니다. 논문 작성법에 관련된 내용은 위 책을 참조하시면 됩니다. 감기때문에 죽겠네요. 모두 환절기 감기 조심하세요. 그리고 저는 이제 슬슬 비정규직을 탈피하기 위해 자소서를 쓰고 있어요. 헝헝. 팔자에도 없던 자소서를 쓰려니 아주 죽겠군요. 근데 저는 남자들한테만 인기가 있는 것 같아요. 허허허. 큰일이네.

⓪ 들어가면서

① 그래프의 종류

ⓐ column graph

ⓑ grouped graph

ⓒ x-y graph

ⓓ contingency

ⓔ survival graph

오늘부터는 그래프와 표 그리고 통계학적 고려사항들에 대해서 살펴보자. 사실, 통계는 이 바닥에 있는 사람들이 매일같이 사용하고 있음에도 불구하고, 체계적인 교육을 받지는 못한 경우가 대부분일 것이다. 개인적으로도 실험실에 들어와서 선배들이 가르쳐 준 것에 대해서 알음알음 배웠던 기억이 있고, 대학원 통계 시간은 열심히 강의해주던 교수님들께는 죄송하지만, 숙면시간으로 잘 활용했었던 기억이 있다. 

논문작성법에서 이러한 통계에 대해서 자세히 설명하는 것은 좀 어불성설이고, 개인적으로도 통계에 대해서 강의를 할 만한 능력은 아니기 때문에, 논문작성에서 필요한 통계학적 고려사항들에 대해서 수박 겉핥기 정도로 공부하고, 어플리케이션을 이용한 그래프/표 작성에 대해서 살펴보도록 하자. 


⓪ 들어가면서


실험실에서 뭔 놈의 통계를 써야 하는가? t-test면 땡 아녀?

의과학을 하는 입장에서 실험하기도 바빠 죽겠는데, 왜 통계인가?라는 질문을 던질 수도 있을 것이다. 하지만, 모든 과학결과는 통계적으로 유의함을 보여주어야만 그 의미를 지니게 된다. 아무리 신기한 발견을 하였더라도, 그 실험이 재현되지 않는다면 말짱 황이요, 통계적으로 유의하지 않는다면 우연한 결과에 지나지 않는다. 이러한 통계학적 고려사항은 내가 발견한 것이 정말 유의한 발견인지 아닌지를 결정하는 역할을 하게 된다. 그리고 내가 설정한 가설이 통계적으로 유의한지를 검정하고, 이 결과를 바탕으로 논문을 쓰게 되는 것이고 말이다. 

의학논문을 작성함에 있어서, 코호트나 환자-대조군 연구의 경우는 모집단을 판명이 주된 목적이다. 내가 만지고 있는 것이 코끼리의 앞다리인지, 코인지를 파악하는게 중요하지 뭐. 신뢰구간이니 뭐니 하는 것도 결국은 모집단을 정확하게 알고 있지 못하기 때문에 이를 추정하는 역할을 하게 되는 것이고 말이다.

환자를 대상으로 한 환자-대조군 연구논문들을 살펴보고 있노라면, 장님 코끼리 만지는 것 같다는 생각을 한다. 똑같은 환자군을 가지고 낸 결과가 저자마다 다른 경우들도 참 많다.

그렇다면, 우리가 하는 실험결과들의 통계는 어떤건지 대충 살펴보자. 자, 다음은 한 논문의 material method에 나온 통계 단락이다.

Statistical Analysis

Continuous variables were tested for normal distribution by using the Kolmogorov-Smirnoff test. Data are presented as mean 6 SEM or as median (line) and interquartile range (box); whiskers indicate 5% and 95% percentiles. Statistical analysis was performed by one-way ANOVA followed by Bonferroni or LSD post hoc test for normally distributed data, or Kruskal-Wallis test with Mann-Whitney-U post hoc test, as appropriate. For comparison of two groups of non-normally distributed data, Mann- Whitney U test was used. A value of P,0.05 was considered statistically significant. All calculations were carried out by using SPSS Statistics 20 for Mac.

"실험동물을 이용한 결과의 normal distribution을 Kolmogorov-Smirnoff test로 검정하고, normal distributed data의 경우는 one-way ANOVA test와 posthoc test로 Bonferroni/LSD를 사용을 했으며, undistributed data의 경우는 Kruskal-Wallis test와 posthoc test로 Mann-Whitney-U test를 사용을 했다. 두 그룹의 비교의 경우, non-normally distributed data의 경우는 Mann-Whitney test를 사용했고, normal distributed data의 경우는 t-test 사용했겠지 뭐. 유의수준은 5% 통계프로그램의 경우는 SPSS 사용했어염."

이걸 보면 예전에 t-test만 죽어라 붙잡고 있었던 박사시절이 생각나면서 무지 쪽팔려진다. 위의 예를 보면 우리가 실험실에서 흔히 사용하는 통계학적 기법이 대부분 나와있다. 정규성검정, 티테스트, 아노바, 본페로니 포스트혹 테스트, 만휘트니 테스트. 뭐 빠진 부분이 있다면 survival에 대한 통계검정 등이 있을 수는 있지만, 대부분은 t-test와 ANOVA로 거의 해결가능할 것이다. 

뭐 임상통계나 실험실통계나 통계는 거기서 거기다. 다만, 우리가 하는 실험은 임상데이터들에 비해서 조금 더 통제가 가능하고, 실험결과가 모집단 전체를 구성하고 있다는 점만 빼고 말이다. 물론 이 외에도 다른 점들이 수두룩빽빽하지만 대충 이정도로 퉁치고 넘어가자. 우리는 야매니깐.


어떤 도구를 사용할 것인가?

연구논문에서 통계의 활용은 실험을 통해 만들어진 데이터에서 어떻게 통계적 유의성을 뽑아내는가가 될 것이다. 이를 위해서는 연필로 직접 써가면서 계산할 것이 아니라면야 당연히도 도구가 필요하다. 많이 활용되는 통계 프로그램으로는 SPSS, SAS, R 등이 있지만, 우리가 같이 공부하면서 사용할 통계 프로그램은 graphpad에서 나온 prism이다. 

한참 석사때에는 two-way ANOVA 때문에 sigmaplot도 사용했었는데, 결국 prism이 제일 사용하기가 용이하더라. 직관적이고 엔간한 통계는 거진 다 돌릴 수 있고. 하긴 여기 있는 툴 외의 것들은 거의 사용할 필요가 없더라. 이 프로그램을 선택한 이유는 내가 제일 많이 써봐서 제일 익숙하니깐! 불만 있으면 직접 포스팅을 하시라! MDPHD 블로그는 어떠한 필진분들도 다 환영합니다.

뭐 이런 저런 이유를 떠나서, 상당히 좋은 프로그램이다 가격도 아카데믹 프라이스로는 450$ 정도로 저렴한 편이고, 왠만한 통계 툴은 거의 사용 가능하고, 만들어지는 그래픽 퀄리티가 매우 좋은 편이기 때문이다. 뭐, 이 외에도 프로그램이 안정적이라 crash나는 경우가 거의 없고, 대용량의 데이터를 handling하는 데에도 적합하다. 이런 저런 이유로 이 프로그램을 사용해서 공부를 진행하자.


통계에 대한 기본적인 지식

문제는 통계를 야매로 배운 내가 이걸 다룬다는게 가장 큰 문제인데, 이를 보완하기 위해서 다음의 블로그를 소개한다. 높이 비상하는 즐거운 상상 블로그 (http://dermabae.tistory.com)에 가면 통계학의 기본에 대한 강의를 잘 들을 수 있다. 저자이신 배정민 선생님이 책도 내셨으니 한번 사서 읽어보는 것도 좋을 듯 싶고 말이다.(http://www.yes24.com/24/goods/6756234) 여하간, 기본적인 지식은 각자 공부 해오시는 걸로 하고, 우리 글에서는 실전 위주로 진행할 예정이다. 그리고 항상 명심해두자.

 MDPHD Warning 

이 글에서 다루는 통계는 기본적으로 야매입니다. 

정확한 통계의 사용법을 알기 위해서는 

더 전문적인 분야의 통계 서적 및 참고 문헌을 참조하세용 ~ 데헷~ 

(무더운동경 배경음악)

자, 들어가는 글은 이 정도로 마무리하고, 이제부터 논문작성법 (6) 그래프, 표 그리고 통계에 대해서 자세히 살펴보자. 


① 그래프의 종류

그래프의 종류는 정말 무궁무진하다. 하지만, 큼직 큼직하게 나누어 보자면 다음과 같이 나눌 수 있다. 


 Column 

이게 가장 기본적인 통계자료의 기술방식일 것이다. 일반적으로 bar graph (막대그래프)로 표현할 수 있으며, 수평/수직 등의 모습을 취할 수 있다. whisker형식의 그래프도 있고, 뭐 엔간한 그래프들은 이걸로 거의 소화할 수 있다. 

대게 이런 놈들이지 뭐. bar graph들. 맨 오른쪽은 치료전/후 그래프에서 각 샘플의 변화를 꺽은선으로 연결한거다. 이것도 대충 column graph로 퉁치자.

엔간한 데이터들은 이걸로 퉁칠 수 있다. 가장 가까이는 데이터의 도수분포를 보여주는 frequency distribution부터, t-test (paired/unpaired), one-way ANOVA 등을 사용해서 통계적인 처리를 할 수 있다. 여기에서 쪼금 더 나간 것이 grouped graph이다.


 Grouped 

단일 변수 이상의 변수들이 표함될 경우이다. 예를 들어, 성별이라는 변수 (남자/여자), 치료라는 변수 (치료 전/후) 이렇게 두 가지 이상의 변수가 있는 경우 이를 그래프상에 표현한 것이라고 보면 된다. 

요런 것들 말이다. 위의 column graph보다 할 말이 디게 많은 그래프이다.

이런 경우들은 대게 two-way ANOVA 등을 돌려서 통계적인 처리를 하게 된다. 


 XY 그래프

말 그대로 x축과 y축으로 나누어진 그래프이다. 뭐 대충 아래같은 그래프들 말이다.


x 축은 대게 시간이나 농도 등이고, y축은 정말 여러가지로 작성할 수 있다. 그래프들에 대해서 잠깐 설명하자면, 가장 왼쪽의 그림은 일반적인 xy 그래프로 시간의 경과에 따른 apoptosis의 변화를 각 시간대별로 찍고, 선으로 연결한 류의 그래프이고, 가운데 그림은 calcium fluorescence를 5초간격으로 측정한뒤 이를 선으로 연결한 것이고, 가장 오른쪽의 그래프는 농도에 따른 activity 변화를 가지고 IC50을 구하는 dose-response curve의 예이다. 

이와 같은 그래프는 시간대별, 농도별 변화를 관찰하는데 많이 사용되며, linear regression/nonlinear regression, enzyme kinetics, correlation, dose response, area under the curve 등등을 확인하는데 주로 쓰일 수 있다. 물론 각 시간대별로 대조군과의 차이를 통계적으로 검정할 수도 있다. 


ⓓ Contingency

임상데이터를 분석할 때 많이 사용하는 contingency이다. 환자-대조군 연구/코호트 등에서 모집단에서의 위험인자에 따른 질병 발생률 등을 분석할 때 많이 쓰는 그래프이다. 전향적 연구에서 placebo와 aspirin의 복용에 따른 myocardial infarction의 유무를 보는 분할표를 가정해보면 대충 이런 그래프가 나온다.

원 데이터는 왼쪽 위의 contingency table이 될꺼고, 논문에 들어가는 그래프는 우측 그래프가 될 것이다. 그리고 아래는 chi-square test로 검정한 결과일 것이고. 이거는 프리즘 프로그램 내의 예시이므로 뭐 대충 만든 그래프이다.

이런 contingency 그래프의 경우에는 chi-square test(prospective data)나 Fisher test(retrospective data) 등을 사용하여서 통계적인 검정을 하게 된다. 뭐 교차비, 상대위험도 이런거 구하고 우도비 이런거 살펴보고 회귀분석은 뭐를 사용하고 교란변수/교호작용 따지고 이래야 하는거라 이런 건 나도 잘 몰러. 허허허. 대충 논문보고 비슷하게 따라하는거죠 뭐. 저보다 잘 하시는 분들이 세상에 쎄고 쎈 마당에 제가 이것까지 하려면은 가랭이가 찢어져요. 대충 보고 따라하자. 생각해보니 디게 무책임하지만 뭐 어쩌겠어요? 허허허.


ⓔ Survival

Survival. 말 그대로이다. survival graph. 질환등에 의한 사망률이나, 실험을 통한 실험동물의 생존률 데이터를 기반으로 치료등 일정한 변수가 사망률에 유의한 변화를 일으키는지 등의 여부를 살펴보는 그래프이다. 아래의 예를 살펴보자.

왼쪽 그래프는 실험동물에 LPS injection을 한 뒤의 사망률을 살펴본 것이고, 오른쪽의 그래프는 follow-up year에 따른 fatal에 의한 survival graph이다. 뭐 사망률 반대는 생존율이지 뭐. 저 데이터 거꾸로 그리면 사망률 그래프됩니다. 허허허. 이글은 기본적으로 야매글이에요. ㅎㅎ

이런 그래프들의 경우 검정은 log-rank test (Mantel-Cox) 등으로 하면 된다. 


자, 대충 오늘은 이정도 까지만 알아보고, 다음 시간부터는 prism을 이용해서 각각의 그래프를 그리는 방법 등에 대해서 알아보자. 아, 이 "그래프, 표, 그리고 통계" 섹션은 꽤 길꺼다. 지금 그래프 끝내는 것만 해도 몇 번의 포스팅이 진행되어야할지 가늠하기가 좀 힘들고, 나머지 부분도 꽤 길 듯 싶다. 그러니 차근차근 같이 공부해나가자. 사실 나도 통계 잘 몰러. 통계를 야매로 배웠어요 허허허.


아. 그리고 이 글들은 Mimi Zeiger의 essentials for writing biomedical research papers를 주된 교재로 작성 중이였습니다만, 이제부터는 이를 기반으로 오리지널 스토리로 들어갑니다. 논문 작성법에 관련된 내용은 위 책을 참조하시면 됩니다. 사실 저는 통계를 야매로 배웠습니다. 실험실 꼬꼬마 시절 선배들이 통계 데이터를 돌릴 때, 저에게 가르쳐 주었던 것은 "이것 저것 돌려봐서 p value 나오면 걍 그걸로 때워"였지요. 박사가 되고 나서도 별반 다를게 없었던 것 같아요. 그래서 통계를 쪼끔 공부하고 나서 통계를 돌려보는데도 불구하고 선배들이 가르쳐 준 바와 결과가 크게 다르지 않다는게 함정 걍 이것 저것 돌려봐서 p value 나오면 걍 그걸로 때우세요 데헷~



결과의 구성 

① 줄거리

② 내용

③ 결과 및 데이터

④ 결과 섹션의 조직

모든 실험이 미리 디자인되는 연구

한 실험이 다음 실험을 결정하는 연구

⑤ 강조

⑥ 길이

⑧ 그 외 고려해야할 세부사항들

자, 이제 결과의 작성법 2번째 시간이다. 이번 시간에서는 어떻게 강조할 것인지, 그리고 고려해야 할 세부사항들에 대해서 알아보자. 


⑤ 강조 

결과섹션에서는 당연히 결과가 강조되어야 한다. 이러한 강조를 하는 방법은 당연히도 문장의 도입부에서 "이제부터 결과 시작합니다."하는 신호를 주면 된다. "We found", "We observed", "We examined", "We detected", "We identified" 등등 결과를 기술하는 단락의 첫문장의 도입부에 이러한 신호를 사용하면 된다. 

하지만, 이 것외에 결과섹션에서 흔히 실수하는 것들만 줄여도 충분히 결과를 강조할 수 있다.


데이터는 생략하고 결과는 압축하라.

대부분의 데이터는 figure, table에 포함이 된다. 이러한 데이터를 텍스트로 다시 기술할 필요는 없다. 물론 중요한 수치의 경우는 텍스트로 다시 기술함으로써 강조를 할 수는 있으나, 대부분의 중요하지 않은 데이터는 다시 기술할 필요가 없다. 또한, 결과를 최대한으로 압축함으로써 불필요한 반복을 피해야 한다. 자, 다음의 예를 살펴보자

Group1: Serial development of alveolar hypoxia followed by alkalosis. The pulmonary artery pressure increased to 65 ± 21 (SD) % above baseline during hypoxia but then decreased to 37 ± 16 % above baseline when alkali was infused into the lungs of 12 rabbits. Similarly, the pulmonary artery pressure increased to 41 ± 17% above baseline during hypoxia but then decreased to 21 ± 13 % above baseline when PICO2 was decreased (Fig. 2). Thus, both metabolic and pulmonary alkalosis decreased the pulmonary vascular resistance after it had increased in response to hypoxia.

Group2: Serial development of alkalosis followed by alveolar hypoxia. The baseline pulmonary artery pressure decreased from 9.4 ± 1.8 to 8.4 ± 1.5 cm H2O when NaHCO3 was infused and from 9.0 ± 2.1 to 7.9 ± 1.5 cm H2O when PICO2 was decreased in the lungs of 20 rabbits. The pulmonary artery response to alveolar hypoxia at a pH of 7.35-7.42 was no different from the response to alveolar hypoxia at pH of 7.50-7.65 (Fig. 3). These results were the same regardless of whether alkalosis was induced by decreasing PICO2 or by infusing NaHCO3 (Fig. 3). Thus, although both metabolic and respiratory alkalosis decreased baseline pulmonary resistance, they did not decrease constriction of the pulmonary artery in response to subsequent alveolar hypoxia.

Group3: Simultaneous development of alkalosis and alveolar hypoxia. The pulmonary artery response to alveolar hypoxia was significantly lower at pH of 7.50-7.65 than at a pH of 7.35-7.42 in the lungs of 8 rabbits (Fig. 4). Thus, simultaneous alveolar hypoxia and respiratory alkalosis decreased constriction of the pulmonary artery.

일단 위의 예문은 보는 것만으로도 숨이 막힌다. 이런식으로 데이터를 나열하는 것은 결과섹션의 올바른 글쓰기가 아니다. 자, 각각의 단락을 조금 살펴보기 전에 핵심어구를 좀 살펴보고 넘어가자. metabolic alkalosis (NAHCO3 infusion), respiratory alkalosis (PICO2), pulmonary artery constriction (pulmonary artery pressure), hypoxia 정도가 핵심어구가 될 것이다. 자 단락을 하나 하나 살펴보자.

첫 단락: Alveolar hypoxia 이후의 alkalosis. hypoxia동안 pulmonary artery pressure가 증가했다가 (65 ± 12 %), alkali를 infusion하였을 때 떨어지며 (37 ± 16%), 비슷하게, hypoxia에서 증가했었던 pulmonary artery pressure (41 ± 17%로 )가 PICO2가 감소하면 떨어졌다 (21 ± 13%). 따라서, metabolic and pulmonary alkalosis가 hypoxia에 의해 증가된 vascular resistance를 떨어뜨렸다. 

이 단락에서는 마지막줄 빼고는 사실 데이터의 나열이다. 마지막 문장만 살려도 된다. 

두번째 단락: Alkalosis 이후의 alveolar hypoxia. NAHCO3가 infusion되면 pulmonary artery pressure가 감소하고 (9.4 ± 1.8 to 8.4 ± 1.5), PICO2 감소에 의해서도 조금 감소한다 (9.0 ± 2.1 to 1.5  ± 1.8). pH 7.35-7.42사이에서 alveolar hypoxia에 대한 pulmonary artery의 반응은 pH 7.5-7.65에서의 그것과 차이가 없었다. 이러한 결과는 alkalosis가 PICO2 감소나 NAHCO3 infusion에 상관없이 비슷하게 나왔다. 따라서, metabolic이나 respiratory alkalosis가 baseline pulmonary resistance를 감소시켰더라도, subsequent alveolar hypoxia에 반응하는 pulmonary artery constriction을 감소시키지 못했다. 

이 단락 역시 마지막 줄 빼고는 데이터의 나열이다. 

세번째 단락: Hypoxia와 alkalosis의 동시반응. Alveolar hypoxia에 의한 pulmonary artery response는 pH 7.50-7.65에서 pH 7.35-7.42에서보다 유의하게 적었다. 따라서, simultaneous alveolar hypoxia와 respiratory alkalosis는 pulmonary artery의 constriction을 감소시켰다. 

이 단락 역시 마지막 문장이 주제문이다. 

자, 주제문들만 모아보자. 

① Hypoxia 이후 metabolic alkalosis (NAHCO3 infusion) 와 respiratory alkalosis (PICO2 decrease)는 pulmonary resistance (pulmonary artery constriction) 를 감소시켰다 (Fig. 2).

② Hypoxia 이전의 metabolic alkalosis (NAHCO3 infusion)와 respiratory alkalosis (PICO2 decrease)는 pulmonary resistance (pulmonary artery constriction)을 감소시키지 못했다 (Fig. 3). 

③ alkalosis (metabolic + respiratory)와 hypoxia를 동시에 주었을 경우에는 pulmonary artery resistance ( pulmonary artery constriction)이 일어났다 (Fig. 4).

거참 글 한번 요란하게 써놓았는데 사실 위의 주제문들이 글의 전부이다. 나머지 문장들은 필요없는 문장들이다. 이에 따라서 글을 다시 써보자.

The induction of either metabolic or respiratory alkalosis after hypoxia reduced pulmonary resistance in response to hypoxia (Fig. 2). In contrast, The induction of either metabolic or respiratory alkalosis before hypoxia did not reduce pulmonary resistance in response to hypoxia (Fig. 3). However, simultaneous respiratory alkalosis and hypoxia reduced pulmonary artery constriction in response to hypoxia (Fig. 4). 

뭐 대충 쓰면 이렇게 될 것 같은데, 이를 조금만 더 교정해보자. 문장에서 제일 중요한 단어가 앞으로 오는 것이 좋기 때문에 pulmonary resistance를 주어로 교정하고, 첫 문장과 세번째 문장은 결과가 같기 때문에 합쳐버리자. 그리고 metabolic/respiratory alkalosis 사이 결과에 별 차이가 없으므로 걍 alkalosis로 퉁치자. 그리고 simultaneous는 문맥상 쉬운 단어인 during으로 바꿔도 될 것 같다. 그러면 대충 다음과 같이 교정할 수 있다.

Pulmonary artery constriction was reduced when alkalosis was induced either after (Fig. 2) or during (Fig. 4) hypoxia. However, pulmonary artery constriction did not change when alkalosis was induced before hypoxia (Fig. 2). 

뭐 여기에서 좀 더 나가면 다음과 같이 교정할 수 있고 말이다.

Pulmonary artery constriction was reduced when alkalosis was induced either after (Fig. 2) or during (Fig. 4) hypoxia, but not when alkalosis was induced before hypoxia (Fig. 2).

그러면 22줄이 단 2줄로 변하는 놀라운 마법을 부릴 수 있다. 너무 짧은 것 같으면 윗 문장을 기준으로 몇 가지 좀 추가해도 괜찮고 말이다. 자, 결과 섹션은 데이터를 기술하는 자리가 아니다. 결과를 기술하는 자리라는 점을 명심해둘 필요가 있다. 


그림의 범례와 표의 제목

주제문으로 그림의 범례와 표의 제목을 사용하는 것은 별로 좋은 방법이 아니다. 다음의 예들을 살펴보자.

A summary of renal function data is presented in Fig. 2. Continuous positive airway pressure (7.5 cm H2O) in newborn goats decreased urine flow, sodium excretion, and glomerular filtration rate. 

As summarized in Figure 5, C5a regulates allergic inflammation of asthma in many ways, including proinflammatory and chemotactic activities, regulation of Th1/Th2 responses, remodeling of damaged lung tissue, and induction of brochospasm.

뭐 이런 표현들이 잘못된 표현은 절대로 아니고, 첫 문장에서 범례를 표현하는 것 같아 단락의 강려크함이 좀 반감된기 때문에 이런 표현을 지양하자는 이야기이다. 주제문을 더 강력하게 만들기 위해서는 범례를 생략하고 결과를 바로 기술하는 것을 추천한다. 다음과 같이 교정해보자.

Continuous positive airway pressure (7.5 cm H2O) in newborn goat decreased urine flow, sodium excretion, and glomerular filtration rate (Fig. 2)

C5a regulates allergic inflammation of asthma in many ways, including proinflammatory and chemotactic activities, regulation of Th1/Th2 responses, remodeling of damaged lung tissue, and induction of bronchospasm (Fig. 5).

뭐 이렇게 결과를 기술하는 식으로 바꿔버리면 쓸모없는 군더더기 문장을 없앨 수 있어서 좋은 측면이 있다. 그리고 단락을 시작하는 주제문을 쓸모없는 군더더기 문장으로 시작하는 것을 막을 수 있어서 좋고 말이다. 정 이러한 표현을 넣고 싶으면 단락의 맨 뒷 문장에 쓸 수도 있기는 하겠지만, 걍 쓰지 말자. 별로 안 좋다.


대조상태 (control)의 결과의 기술

논문에서 가장 중심되는 기술은 실험군의 결과에 대한 기술일 것이다. 하지만, 대조군의 결과를 명확하게 설명해줌으로써 실험이 안정적이였다는 사실을 확립시켜줘야 할 필요가 있는 경우들이 있다. 자 다음의 예를 살펴보자.

During the acute period of lipid infusion, lung lymph flow increased from 2.44 ± 0.32 (mean ± SD) to 4.00 ± 0.72 ml/h (p < 0.05). 

이 경우에는 2.44 ± 0.32가 baseline이고 4.00 ± 0.72로 유의하게 (p < 0.05) 증가했다는 기술이다. 이처럼 대조군의 결과를 기술할 경우 실험군이 얼마나 증가했는지가 더욱 명확해질 수 있게 된다. 물론, 그래프 등에서 안정적인 baseline 상태의 대조군이 존재하는 상황에서 이에 대한 강조가 필요 없는 경우에는, 굳이 이를 텍스트로 기술할 필요는 없다. 


주제문을 활용하라

지난 단락의 구성 등을 통해서 누누히 이야기한 바와 같이 단락의 첫 문장은 주제문으로 시작하는 것이 좋다. 다음의 예를 살펴보자.

In three of the cats in the second series, the inhibitory effect of 1 μg isoproterenol was examined when baseline tension was induced exclusively by either cholinergic neurotransmission, exogenous acetylcholine, or exogenous 5-hydroxytryptamine. Injection of 1 μg isoproterenol evoked a differential inhibitory response, relaxation being greater when tension was induced by cholinergic neurotransmission or exogenous 5-hydrotryptamine than by exogenous acetylcholine (Fig. 5).

위 예문의 첫 문장은 실험을 기술하는 내용이다. 실험이 정말로 신기 묘묘한 실험이라 반드시 기술해야 하는 경우가 아니라면 윗 단락은 두번째 문장만으로도 충분히 구성이 가능하다. 또한 신기 묘묘한 실험이라도 할지라도 우리는 이미 material and methods에서 기술했을터인데, 이를 구구절절 설명하는 것은 필요하지 않다. 만일 실험에 대한 기술을 포함하고 싶다면 다음의 방법들을 사용하면 된다. 다음의 예를 살펴보자.

A. 방법을 주제문으로 쓴 바람직하지 못한 예 

We administered propranolol during normal ventilation. This beta-blocker decreased phospholipid.

이 경우에는 단락의 첫 문장이 실험을 기술하는 문장이다. 이 문장은 다음과 같이 교정할 수 있다.

B. 방법은 주어에 부가적으로 설명하고 결과는 동사+목적어로

Propranolol administered during normal ventilation decreased phospholipid. 

이처럼 방법을 주어구로 만들어 버림으로써 첫 문장이 결과를 기술하는 방식으로 바뀌었다. 다른 방법으로는 아래와 같은 방법을 사용할 수도 있다.

C. 방법은 연결구에, 결과는 주어+동사에

After administration of propranolol during normal ventilation, phospholipid decreased.

after부터를 그냥 뒤로 돌려도 된다. "Phospholipid decreased after administration of propranolol during normal ventilation"처럼 말이다. 그 외에는 연결절로 방법을 기술하는 방법이 있다. 

D. 방법은 연결절에, 결과는 주절에 

When propranolol was administered during normal ventilation, phospholipid decreased.

뭐 방법은 여러가지이지만 일단 A같은 경우는 되도록 지양해야 한다. 


중요한 결과를 먼저 제시하라 - 주제문을 이용해 전체적인 조망을 제시하라 

결국 동어 반복이다. 결과 섹션에 제일 중요한 점은 바로 중요한 결과를 주제문으로 먼저 제시하라는 것과, 이러한 주제문을 이용해서 전체적인 조망을 제시하라는 이야기이다. 다음의 예를 살펴보자.

We further investigated the association between autophagy-mediated survival and pro-tumourigenic effects of neutrophils. In fact, a comparison of the kinetics of neutrophil apoptosis (Fig. 4B) and pro-metastatic OSM production (Fig. 4F) revealed that blockade of autophagy in TSN-exposed neutrophils led to a rapid and radical reduction of OSM but a delayed upregulation of cell apoptosis. Of note, such enhanced tumour neutrophil autophagy also correlated with an augmented release of MMP9 and increased motility of hepatoma cells (Fig. 4G). Finally, we evaluated the consequences of the siRNA-mediated autophagy suppression in neutrophil-like differentiated HL-60 cells. Knockdown of ATG5 efficiently inhibited TSN-mediated autophagy and the production of OSM and MMP9 at the early time point with marginal apoptosis (Fig. 4H and Supplementary Fig. 4). These data indicate that increased neutrophil autophagy promotes malignant cell metastasis independent of its pro-survival effect.

위의 예에서 살펴보듯, 첫 문장이 단락의 모든 내용을 조망해주고 있다. 이 단락에서 저자들이 autophagy-mediated survival과 neutrophil의 pro-tumorigenic effect의 연관관계에 대해서 살펴보았다는 것을 자연스럽게 조망하고 있다. 이처럼 결과섹션의 단락은 중요한 결과를 먼저 제시해야 한다. 그리고 그 중요한 결과는 대게 전체적 조망을 하는 문장일 것이다. 


⑥ 길이 

줄여라. 결과 섹션에 모든 실험결과를 시시콜콜 제시할 필요는 없다. 그리고, 결과의 의미에 대한 기술을 하고 싶은 욕망을 참아내고 고찰 섹션으로 넘겨줘라. 결과섹션은 최대한 간결하고 명확하게 쓰여져야만 독자의 이해를 높일 수 있다. 


⑦ 그 외 고려해야할 세부사항들


동사의 시제 

대부분의 논문의 시제는 과거시제를 사용한다. 그 이유는 실험 자체가 과거에 일어난 사건이기 때문이다. 


통계학적 세부사항

데이터는 그림과 표의 형태로 제시되며, 통계는 수학적 측면에서 데이터의 기술이다. 따라서 대부분의 통계학적 세부사항은 그림과 표에 존재한다. 이러한 데이터를 텍스트에 포함싴밀 경우 그에 수반되는 통계학적 사항도 표시되어야 한다. 다음의 예를 살펴보자.

Blood flow was redistributed more toward the right ventricle than toward the left ventricle (26.3 ± 2.9 vs 19.5 ± 1.5 %, mean ± SD, n = 6, p < 0.01)

위의 예를 보면 다섯가지의 정보가 들어있는 점을 알 수 있을 것이다. 척도 (%), 평균값 (mean), 표준편차 (SD), 샘플의 규모 (n), 유의값 (p value). 이처럼 데이터를 기술할 경우에는 위의 통계학적 정보를 제시하여야 한다. r그리고 통계학적으로 p value를 얻은 경우에는 significant, significantly라는 표현을 쓸 수 있다. 


정리하면서 - 결과의 구성을 위한 가이드라인

결과섹션은 실험의 결과를 기술하고, 가설을 뒷받침하는 데이터를 그림이나 표를 인용하는 역할을 한다.


① 줄거리

- 미리 디자인되는 가설검증연구, 방법논문의 경우는 결과섹션은 결과를 제시한다.

- 우리가 작성하는 하나의 실험이 다음 실험을 결정하는 가설검증논문의 경우, 수행한 실험과 결과를 모두 제시한다.


② 내용

- 질문에 적합한 결과만을 보고하라.

- 가설을 뒷받침하는 데이터 + 뒷받침하지 않는 데이터 모두 결과에 포함시켜야 한다.

- 대조 (control)의 결과나 데이터 역시 포함되어야 한다.


③ 결과 및 데이터

- 텍스트에는 데이터를 최대한 적게 기술하라. 데이터는 그림/표를 통해 제시해라

- 실제 데이터의 인용보다는 퍼센트 변화/차이의 퍼센트로 보고하여 차이에 대한 개념을 제시해야 한다.


④ 결과 섹션의 조직

- 하나의 실험이 다음 실험을 결정하는 가설검증논문의 경우, 질문 > 실험의 개요 > 대답 > 보충설명의 순으로 각 단락이 구성된다.

- 미리 디자인되는 가설검증연구의 경우 연대기, 중요한 순서대로 기술하라.


⑤ 강조 

- 결과를 강조하라.

- 강조하는 신호로 we found 등의 신호를 사용할 수 있다.

- 데이터는 생략하고 결과는 압축하라

- 그림의 범례와 표의 제목 등은 결과 섹션의 문장에서 지워라. 대신 괄호 안으로 인용해라.

- 대조상태의 결과의 기술 역시 강조할 필요가 없는 대부분의 경우에는 생략해버려라.

- 주제문을 활용해라.

- 중요한 결과를 먼저 제시하고, 이를 이용해서 전체적으로 조망해라.


⑥ 길이 

- 짧고 간결하게


⑦ 세부사항 

- 동사의 시제는 과거형이다.

- 데이터를 기술할 경우 통계학적 세부사항을 빼먹지 말아라. 척도, mean, SD, n, p value이다. 

자, 오늘까지 우리는 결과섹션을 구성하는 방법에 대해서 살펴보았다. 다음 시간부터는 그래프와 표, 그리고 약간의 통계학적 고려사항에 대해서 살펴보자. 


자, 한동안 쉬었으니 빠르게 달려봅시다. 

+ Recent posts