논문작성법 (6) 그래프, 표 그리고 통계 part III


③ Column graph 

ⓐ 단일변수 

      - unpaired t-test

      - Mann-Whitney test

      - paired t-test

ⓑ 다변수

      - one-way ANOVA

자, 이번 시리즈 포스팅의 대략적인 타임테이블은 글의 맨 뒤에 있다. 별 다른 변동사항이 없을 경우 맨 뒤의 표와 같은 순서로 포스팅을 진행할 예정이다.★외★는 상황 상황에 따라 추가될 수도 있으니 너무 신경쓰지는 말자. 자, 오늘 우리가 공부를 할 부분은 뻘건색으로 표시된 부분들이다. 즉, paired t-test와 다변수 중 one-way ANOVA에 대해서 같이 공부를 해보십시다. 근데 이거 야매로 만들라고 했는데 우째 일이 자꾸 커진다. 그래도 기본 베이스는 야매입니다. 틀린 부분이 많을터이니 이에 대한 지적질이나 설명질에 대해서는 당연히 미리 감사드립니다만, 너무 나무라지는 마세요. 너무 의기소침해지면 또 방구석에 틀어박혀서 SSRI나 처묵 처묵 하게될지도 몰라염. 


결국 오양의 논문은 주작으로 자연誌에서 확인사살한 모양입니다. 황모씨때가 오버랩되면서 씁쓸해지는군요. 황모씨나 오양이나 과학자라기 보다는 양아치들이죠 뭐.

③ Column graph


ⓐ 단일변수 - paired t-test


우리가 지난시간에 살펴봤던 paired t-test와 Mann-Whitney test의 경우는 피실험체 개개인의 데이터를 기반이 아니라 그룹별 데이터를 기반으로 하고 있었다. 그런데, 다음과 같은 경우를 상정해보자. 마우스 한마리 한마리에서 약물을 주기 전/후 혈중에서 특정 물질의 농도를 측정한 데이터. 이를 환자기반 연구로 비유하면, 환자 한명 한명에게 약물을 주기 전/후의 반응을 관찰하는 경우 말이다. 이런 경우에는 각 데이터가 환자별/마우스별로 약물투여 전/후의 데이터가 나오게 된다. 다음과 같이 말이다.

왼쪽의 column에는 각 환자/마우스별 데이터가 숫자로 정렬되어있다. 그리고 group A는 control (pre-treatment)이고 group B는 treatment 후의 특정 물질의 농도라고 치자. 뭐 대충 이런식으로 데이터셋이 나올꺼다. 자, 그러면 이제부터 통계처리를 시작해볼까? 따라란 따라란 딴딴~



일단 이 데이터들이 정규분포를 따르는지 안 따르는지부터 살펴보는게 먼저일꺼다. 각 그룹별 n수가 딱 10개씩이므로 정규분포를 따르는지의 여부를 살펴보자. 쨘.


그러면 두 그룹 모두 정규분포를 따르는 것으로 나온다. 그러면, 우리는 paired t-test를 할 수 있게 된다. 


요로코롬 뿅뿅하면,

통계 결과가 뿅 하고 나온다. p value가 0.0098이다. 우앙ㅋ굿ㅋ 그러면 그래프를 요로코롬 그릴 수 있게 된다.


별이 두개인 그래프가 생겨요. 자, 그런데 만일 정규성검정 결과 정규분포를 따르지 않는다고 나온다면 (p < 0.05) 어떻게 해야 하는가? 뭘 어쩌긴 어째, "No. use nonparametric test" 클릭해서 Wilcoxon matched-pairs signed rank test해야지. 윌콕슨씨의 랭크테스트는 데이터의 숫자는 다 날리고 순위별로 검정하는거라고 보면 된다. 자세한 내용은 아래링크를 참조하세요. 

Wilcoxon signed rank test (술술보건의학통계 블로그)

여하간 아래처럼 nonparametric > wilcoxon matched-pairs signed rank test 하면 결과가 나온다.


뭐 이런 식으로 치료 전/후의 데이터에 대한 통계 처리를 할 수 있다.


 다변수 - one way ANOVA


저기요, 근데요. 제가 실험을 했는데요. 약물을 주고 억제제를 줬걸랑요? 이처럼 변수가 많으면 어떻게 t-test 하나염? 걍 각 그룹별로 t-test하면 되는건가염?

살면서 이런 질문을 해보거나 받아본 적이 있을꺼다. 답은 간단하다. 아노바 돌려요. 끝


t-test/Mann-Whitney test는 하나의 변수를 가지고 두 그룹을 비교하는데 쓰이는 통계처리 방법이다. 이에 비해 ANOVA는 다변수를 가지고 통계처리를 하는 방법이다. 앞선 예와 같이 약물A, 약물A에 대한 억제제B처럼 2개의 변수가 존재를 할 경우 이들간의 상관관계에 대한 통계처리 방법이라고 보면 된다.


단변수의 경우 그룹의 정규성 검정에 따라 각기 t-test와 Mann-Whitney test를 돌린 것과 같이 다변수의 경우도 그룹의 정규성 검정에 따라 One way ANOVA와 Kruskal-Wallis test로 나뉘게 된다. (two-way 이상의 ANOVA 검정에 대해서는 차후에 알아보도록 하자.)


뭐, 간단하게 데이터 그룹들이 정규분포를 따르면 ANOVA, 안 따르면 Kruskal Wallis test 돌리면 된다고 보면 된다. 아래 그림처럼 말이다.


자, 그렇다면 세 군의 비교의 경우 귀무가설과 대립가설을 어떻게 설정하는지를 살펴보자.


One-way ANOVA의 가설은 위와 같이 정해지고, 이에 대해서 유의수준 5%에서 검정이 들어가게 된다. 자, 그렇다면 만일 대립가설이 성립되는 경우, 즉 "읭? 그룹 A,B,C간의 뭔가 차이가 나넹?"가 되면 우왕ㅋ굿ㅋ 끝이당~인가? 애석하게도, 이 회의주의자들이 득실한 환경에서는 뭐가 얼마만큼 어떻게 차이가 나는지를 이야기해주지 않는다면 아무도 인정을 해주지 않는다. 이를 검증하는 방법이 바로 post-hoc test이다. 


post-hoc test

사후분석 (post-hoc) 검정법으로 주로 사용되는 방법은 Bonferroni와 Tukey, Sidak, Dunn을 주로 사용하게 된다. 먼저 Bonferroni test의 경우는 각 그룹간 t-test를 돌린다고 생각하면 된다. 다만, 전체 유의수준을 5%으로 고정된 상태에서 t-test를 진행하는 것이기 때문에, 각 그룹간 검정력은 0.05/3 = 0.0167. 대략 1.66%의 수준의 유의수준으로 각 그룹간을 검정하게 된다. 이게 뭔 말이냐 하면, 더럽게 p value가 안나와.  이게 워낙 보수적으로 통계를 돌리는 것이기 땜시롱 그렇다. (아 그런데, 이거는 모든 그룹간 비교하는 경우에 해당하는 거고, 만일 Control group A vs Group B, Control group A vs Group C, 이런 식으로 control group하고만 비교한다고 하면 검정력이 높아지게 된다. 이 경우는 2번만 posthoc test를 진행하는 경우이므로 0.05/2 = 0.025. 쪼금만 생각해서 돌리면 유의수준을 쥐똥만큼 더 올릴 수 있다.) 


회의주의자들이 득세하는 이 바닥이라고 할지라도 이게 해도 해도 드럽게 p value 맞추기 힘들었는지 adjusted p value를 구할 수 있는 여러가지 post-hoc test들이 개발되었다.  Tukey, Sidak, Holm-Sidak, Newman-Keuls, Fisher's LSD 등의 테스트가 그것이다. 얘들의 기본적인 개념은 위에서 보았듯 bonferroni로는 죽어라 안 나오는 post-hoc tes에서의 p value를 어떻게든 발악을 해서라도 쥐똥만큼이라도 나오게 만들어주자이다. (허허허. 전 야매에요. 더 정확한 설명은 통계에 빠삭한 주변분들이나 정통 통계학자분에게 물어보세용)

그렇다면 여기에서 우리는 가장 중요한 문제에 봉착하게 된다. 바로 
그럼 post-hoc test로 뭘 쓰란 말입니까!

야매스럽고도 무책임한 답은 의외로 간단하다.
일단 bonferroni 돌려봐. 안 나오면 Tukey 써보고. 그래도 안 나오면 검정력이 더 높다는 Holm-Sidak이나 Newman-Keuls 쓰세요. 그래도 안 나오면 답 없는겁니다. 

뭐 이건 정말 답 없다. 통계학자분들의 주장에 따르면 어떤 경우에는 어떤 것이 검정력이 조금 더 좋으니 뭐 뭐를 사용하고, 어쩌고 말들이 많기는 한데, 우리처럼 비루한 의과학자 따위들이 어디 고귀하신 통계학자분들의 고견을 알아들을리야 만무하고, 걍 prism에서 기본으로 추천되어 있는 Tukey나 유서깊은 Bonferroni로 통계처리 하면 된다. 이 정도로만 해도 통계 때문에 논문 리젝 안 먹는다. 

아, 그리고 Bonferroni나 Tukey는 그룹이 정규분포를 따를 경우에 사용하는 post-hoc test이고 정규분포를 따르지 않는 경우. 즉, Kruskal-Wallis test를 돌릴 경우에는 Dunn test를 사용하면 된다. 정통 야매 통계를 표방하는 우리는 걍 posthoc 테스트로 Tukey, Bonferroni/Dunn을 사용한다고만 알고 넘어가자. 혹시라도 더 자세히 알고 싶으신 분은 아래 위키피디아 링크를 참조해서 스스로 공부하세용~데헷
Post-hoc analysis (Wikipedia)

자, 설명은 이 정도로 끝내고 실전으로 넘어가보자. 다음과 같은 예를 상정해보자.

HEK293 세포에, 자극제 ⓐ를 주었을 때 HEK293세포가 분비하는 cytokine ⓒ의 양을 측정하였다. 그리고 이 자극제 ⓐ의 수용체에 대한 억제제인 ⓑ를 주었을 때 HEK293세포가 분비하는 cytokine ⓒ의 양이 억제되었는지를 살펴본 실험이다. 

그러면 실험 모식도와 그룹은 다음과 같이 나뉠 것이다.

뭐 당연히 데이터값은 cytokine ⓒ의 농도가 될 것이다. 다음과 같이 데이터가 나왔다고 상정해보자. 

자, 정규성 검정을 돌려보면 정규분포를 따르는 것으로 나오니 스킵하고, 이에 대한 one-way ANOVA를 돌려보자. 이 통계처리의 가설은 다음과 같다.

자, 아노바를 돌려보실까나.

요로코럼 one-way ANOVA를 클릭하고, 모든 그룹을 클릭하면

이런 창이 뜬다. 우리가 상정했었던 데이터는 pair데이터가 아니다. 만일 한 환자에게서 약물주고 혈중농도, 억제제주고 혈중농도 뭐 이런식으로 실험을 했다면 "Each row represents matched, or repeated measures, data"를 클릭하면 된다. 자, 다음으로는 정규분포를 따르므로 ANOVA를 진행하면 된다. 그러면 뿅 하고 결과가 나와용. 


그러면 one-way ANOVA test 결과가 나온다. p value < 0.0001 이므로 귀무가설을 기각하고, 대립가설을 체택해서 각 그룹간의 차이가 있다는 것을 알 수 있다. 오예~

아싸라비야~

근데 우리는 중요한 것을 까먹고 있다. 회의주의자들이 득실한 이 바닥에서 뭐가 어떻게 유의하게 차이가 나는지를 누군가는 물어볼 것이다. 

오빠 포스트혹 테스트 결과는? 혹시 까먹은거야? 어떻게 그럴 수 있어? 수지가 좋아? 내가 좋아? 얼릉 말해. 오빠는 사실 수지가 더 좋기는 하지만, 너도 좋기는 한데, 이걸 뭐라고 말해야 하나, 사실 시노자키 아이도 좋아하고, 이시하라 사토미도 좋아하기는 하는데.. 그렇다고 각키를 싫어하는 건 아니고...뭐랄까 요즈음은 걸스데이의 유라의 유라유라함에 한참 빠져있었다가, 지금부터우리는 노래는 참 좋은데, 오미아걸의 아린 두산 홈경기 공연영상을 보고 뿅가죽네★ 했는데, 사실 이상형은 마이너한 모델 송연주양입니다. 한국연구재단 대전청사 입구에 들어가면 왼쪽에 큼지막하게 프린트되어 있어요. 송연주양 마음으로 응원합니다. 화이팅!

자. 아까 one-way ANOVA 메뉴로 잠깐 시간을 다시 돌려보면, Experimental design 탭 옆에 다음과 같은 탭이 있었던 것을 확인할 수 있다.

자, 이 탭이 post-hoc test를 설정할 수 있는 탭이다. 기본으로는 "no multiple comparison test"가 설정되어 있다. 이 메뉴 아래로 각 comparison test를 설정하는 메뉴가 나온다. 우리 예에서는 그냥 A,B,C 그룹 모두를 검정하면 되는 것인데, 만일 검정능력을 조금이라도 높이려면 특정 그룹과의 검정만을 시행할 수 있도록 설정할 수 있다. 자, 그리고 이 탭 옆으로는 option 탭이 있다. 이를 눌러보자.

바로 여기에서 어떤 post-hoc test를 사용할지를 결정할 수 있게 된다. 기본으로는 Tukey test가 설정되어 있으며, 그 외 신뢰구간부터 이런 저런 옵션들을 바꿀 수 있게 되어 있다. 걍 OK 누르자. 그러면 뿅 하고 결과가 나타난다.

자 그러면 Control vs agonist ⓐ는 별이 세개, agonist ⓐ vs agonist ⓐ+antagonist ⓑ도 별이 세개가 나오는 것을 알 수 있다. 그러면 그래프를 다음과 같이 그릴 수 있게 된다.

그래프가 기본적으로 이쁘다. 근데 이게 전부가 아니라 여러 그래프 형태로 나타낼 수 있다. 다음처럼 말이다.



Scatter plot 이외에도 Scatter plot with bar, Box & Whiskers, Floating bars 등등 예뻐서 뿅가죽는 그래프를 만들 수 있다. 뭐 그래프를 옆으로 뉘일 수도 있고 기본적으로 아주 예쁜 그래프를 만들 수 있다.

자, 이 정도면 column graph에서 onw-way ANOVA까지 공부를 끝냈다. 다음 부터는 grouped graph로 넘어가자. 

논문작성법 (6) 그래프, 표 그리고 통계


⓪ 들어가면서

① 그래프의 종류

ⓐ column graph

ⓑ grouped graph

ⓒ x-y graph

ⓓ contingency

ⓔ survival graph

② 데이터의 처리 및 통계처리의 기초

ⓐ 연속형 자료와 범주형 자료 

ⓑ 가설의 검정방법

ⓒ 중심극한정리와 정규성검정

③ Column graph 

ⓐ 단일변수 

      - unpaired t-test

      - Mann-Whitney test

      - paired t-test

ⓑ 다변수

      - one-way ANOVA

④ Grouped graph 

ⓐ grouped graph의 기본적인 설명

ⓑ Two-way ANOVA

ⓒ Grouped bar graph

⑤ X-Y graph 

ⓐ X-Y graph의 기본적인 설명

ⓑ Linear regression

ⓒ Non-linear regression

ⓓ Correlation

ⓔ Dose-response 

ⓕ Enzyme kinetics - Michaelis-Menten

ⓖ Enzyme kinetics - Competitive inhibition

⑥ Contingency

ⓐ Contingency graph의 기본적인 설명

ⓑ Chi-square prospective

ⓒ Fishers exact test of retrospective data

⑦ Survival

ⓐ Survival graph의 기본적인 설명

ⓑ Comparing two groups

ⓒ Three groups

★ 번외 Graphpad prism 소프트웨어 설명


아. 그리고 이 글들은 Mimi Zeiger의 essentials for writing biomedical research papers를 주된 교재로 작성 중이였습니다만, 이제부터는 이를 기반으로 오리지널 스토리로 들어갑니다. 논문 작성법에 관련된 내용은 위 책을 참조하시면 됩니다. 이거 작성하기 힘들다! 무지 힘들어요! 저는 통계학자도 아니고 어디에서 야매로 배워서 실험결과 통계처리나 근근히 해나가면서 먹고 사는 사람인데 하나 하나 설명하려니 뱁새가 황새 쫓아가다가 가랑이 찢어지는 느낌이네요. 걍 프리즘 소프트웨어 설명만 하고 넘길껄. 껄껄껄. 그래도 일단 할 수 있는데 까지는 해봅시다. 이거 포스팅하면서 저도 다시 공부하는게 많아서 개인적으로 나쁘지는 않아요. 허허허. 틀린 부분이 많더라도 이해와 지도편달 및 고진선처를 부탁드립니다. 그리고 "저 새X 저거 통계도 모르면서, 저딴식으로 글을 써대네" 하시는 분들은 꼬우시면 직접 쓰셔서 포스팅 해주시면 감사합니다. 저희 블로그는 외부 필진을 환영합니다. 언제나 열린 블로그 MDPHD 블로그! 


자 오늘은 그래프, 표 그리고 통계 세번째 시간이다.


아차, 그러고 보니 지난 번 포스팅에서 잠깐 까먹은게 있다. 프로그램을 소개하면서 기본적인 레이아웃이나 메뉴도 소개를 안 해버렸네~ 데헷~

뭐 지금이라도 기본적인 레이아웃 메뉴에 대해서 설명하고 넘어가자.


★ 번외 Graphpad prism 소프트웨어 설명

Graphpad prism은 graphpad 사에서 만든 프로그램으로, 통계처리에서 광범위하게 사용되는 프로그램 중 하나이다. 그 프로그램의 장점은

① 쉽다

② 저렴하다

③ 그래프의 퀄리티가 좋다. 예뻐서 뿅간다.

④ 프로그램이 안정적이다 (crash dump가 잘 안난다)

뭐 이 정도다. 그래프패드 홈페이지에 가면 구매할 수 있고 (http://www.graphpad.com), 가격은 아카데믹 프라이스로는 $450 하고 있으며, 학생 디스카운트도 있는 것으로 알고 있으니 직접 홈페이지에 문의하면 된다. 뭐 SPSS 스탠다드가 2500$ 정도하니깐, 이에 비하면 양반이다. 2015년 현재 버전은 prism 6이다. 

요거 걍 사면 됩니다. 실험실에 하나 구비해두면 아주 좋아요.

자 그러면 인터페이스에 대한 설명이다. 프리즘을 실행시키면 다음과 같은 창이 짠 하고 뜬다.

이 창에는 어떠한 종류의 테이블과 그래프를 구성할지가 그림으로 잘 설명되어 있다. 지금 보이는 창은 column 형태의 그래프 창이고, 세부내용으로는 어떠한 데이터셋을 사용할지를 정할 수 있다. 그리고 sample data를 가져올 수 있어서 이게 무슨 그래프인지를 감잡는데 아주 용이하다. 한번 use sample data에서 "t test-unpaired"를 클릭해서 열어보자. 그러면 다음과 같은 창이 열린다.

1번 부분은 메뉴 부분이다. 여기에서 기본적인 작업을 진행할 수 있다. 2번 창 부분을 보면 Data table, info, results, graph, layout 등의 메뉴가 생성된다. results 부분은 아직 통계처리를 하지 않았으니 비어있고, 통계처리가 끝나고 나면 각 통계별 결과가 생성된다. 3번 창은 data table을 보여주고 있다. 여기에서는 t test-unpaired의 샘플 데이터가 들어있다. 그리고 옆의 포스트잇 박스는 이게 샘플이기 때문에 어찌 어찌 하라는 설명이 나와있는 것인데, 실제 데이터 작성시에는 없어지니깐 별로 신경쓰지 말자. 자. 이제 2번 박스에서 unpaired t test data를 클릭하면 다음과 같이 뜬다. 

그래프 패밀리에서는 어떤 종류의 그래프로 보여줄지를 정할 수 있고, 그 아래의 각 그래프별 샘플 그림을 보여주고 있어서 직관적으로 그래프 타입을 설정할 수 있다. 그리고 plot에서는 어떤 방식으로 보여줄지 (mean, mean with SD, mean with SEM, mean with 95% CI, mean with range 등등)를 설정할 수 있다. 그러고 나면 아래 큰 그림 부분에 현재 데이터를 사용한 미리보기를 할 수 있다. column방식, mean with SEM을 클릭하면 아까 2번 창에 있던 데이터를 기반으로한 그래프가 생성된다. 뿅

요로코롬 그래프가 생성된다. 그래프 더블 클릭하면 창이 더 뜨는데, 이건 그래프를 예쁘게 만들 수 있는 창이다. 

뭐 나머지는 디자인에 대한 문제이니 설명하기는 거시기하고, 일단 막 눌러보자. 각자 마음에 드는 그래프로 변경해서 사용하자. 그리고 난 뒤, 제일 중요한 통계처리로 넘어가자. insert > new analysis를 누르자.

그러면 익숙한 창이 나오고, 통계처리를 진행할 수 있게 된다. 

뭐 익숙한 창이다. 클릭 클릭한 뒤에 메인창의 왼쪽 부분을 살펴보면 results에 통계처리 (이 경우는 Mann-Whitney test) 결과가 생성된 것을 확인할 수 있다.

자. 이 정도까지가 graphpad prism의 인터페이스이다. 나머지는 각자 이것 저것 만져보면 금방 이해할 수 있을 것이라고 생각한다.

아차, 그리고 한가지 더. 그래프를 바로 command-C해서 복사한 뒤 keynote나 prism, photoshop에 paste하면 embedded graph로 바로 뜬다. 당연히 벡터기반이기 때문에 크기를 키워도 깨지지 않는 장점이 있다. 아래처럼 말이지.


ppt나 keynote에서 그래픽 작업하는데 아주 요긴하다. 아, 그리고 혹시 photoshop 쓰시는 분들이 한가지 알아두면 좋을 점은, prism에서 폰트 10이면 photoshop에서도 폰트 10입니다. 1:1 이라는 점을 유념해두면 좋다. 개인적으로는 figure 작업을 포토샵에서 진행하는데, prism 그래프를 1:1로 paste할 경우에 prism 그래프가 너무 작아져서 수정하기가 용이하지 않는 관계로 prism 그래프를 실제 figure 보다 2배 크게 작업을 진행한다. 즉, 내가 원하는 figure의 선 굵기가 1인 경우, prism에서는 2로 그리고, figure의 글씨 크기가 10 인 경우, prism에서는 20으로 그린다. 그리고 난 뒤에 photoshop에 paste할 때, 50%로 prism 그래프 크기를 줄여주면 된다. 요거 은근 꿀팁이다. 아니, 꿀팁이라기 보다는 prism에서 글자나 이런거 작업할 때 겁나 짜증나. 이건 한 번 써보면 안다. 개인적으로 powerpoint를 잘 안쓰게 되는 이유와 동일한데, 오브젝트에 대한 스마트 핸들 뭐시기인지 망할 놈의 핸들 클릭하기 겁나 짜증난다. 이건 정말 해보면 알게 된다. 자, 인터페이스에 대한 설명은 이 정도로 마치고 다음 시간부터는 다시 그래프, 표 그리고 통계로 돌아가자. 


아. 그리고 이 글들은 Mimi Zeiger의 essentials for writing biomedical research papers를 주된 교재로 작성 중이였습니다만, 이제부터는 이를 기반으로 오리지널 스토리로 들어갑니다. 논문 작성법에 관련된 내용은 위 책을 참조하시면 됩니다. 어제 매콤한게 땡겨서 불닭볶음면 2개를 먹었더니 오늘 엉덩이에 불이 나는군요. 개인적으로는 간짬뽕을 더 선호하는데 이거 만들기가 은근 귀찮아서 걍 컵라면으로 불닭볶음면을 먹었어요. 하지만, 간짬뽕이 더 맛있습니다. 탱글탱글한 면발을 후라이팬에 기름두르고 볶으면서 소스넣고 양배추를 넣은뒤 자작 자작 볶으면 아주 맛있는 야식이 완성됩니다. 허허허. 배고파요. 


프리즘을 이용한 통계에 대해서 살펴보기 이전에 일단 통계학적 기본 개념에 대해서 살펴보고 넘어가자.



② 데이터의 처리 및 통계처리의 기초

일단 이런 기본 개념에 대해서는 높이 비상하는 즐거운 상상 블로그 (http://dermabae.tistory.com)에 가면 통계학의 기본에 대한 강의를 잘 들을 수 있다. 책으로 구매하려면, 인터넷 서점에서 "닥터배의 술술 보건의학통계"책을 구매하면 된다. 본 블로그하고는 아무런 친분관계도 없고, 이해관계도 없다. 오히려 저희가 빌붙는 처지입지요, 헤헤.


연속형자료와 범주형자료

통계처리를 하기 전 가장 중요한 것은 "자료를 어떻게 분류하는가" 이다. 우리가 흔히 실험결과를 통해서 얻어내는 수치적인 자료들은 연속적인 수로 이루어진 연속형 자료이다. A라는 처리를 했을 때, B라는 물질의 농도. 뭐 이런식의 연속형 자료일 것이다. 이에 비해 범주형 자료들의 경우는 종양의 병기, 질병의 중등도 등과 같은 범주형자료이다. 이러한 연속형자료와 범주형자료의 경우 각기 통계처리를 하는 방식이 상이하기 때문에, 데이터를 처리함에 있어서 가장 첫 단계는 원자료가 연속형자료인지, 범주형자료인지를 파악하는 단계이다. 근데 앞서서도 이야기했듯 우리가 흔히 얻게 되는 실험결과데이터들은 연속형자료가 대부분이다. 물론 연속형자료를 범주형으로 만들 수도 있다. 예를 들어 연속형자료인 환자의 나이를 나이대 (10대, 20대 등)으로 변형해서 사용한다거나 하는 식으로 말이다. 


가설의 검정방법

뭐 이건 귀무가설과 대립가설에 대한 이야기인데, 이 바닥이 워낙 회의주의적인 인간들이 득실대서 그런 것인지, 귀무가설 (null hypothesis, H0)은 "별 차이 없을껄"이고, 대립가설 (alternative hypothesis, H1)은 "거봐 차이 나잖어"로 생각하면 될 듯 싶다. 우리가 흔히 이야기하는 p value < 0.05라 함은 귀무가설 (차이없을껄)이 일어날 확률이 5% 이하인 경우를 말한다. 즉, 100번 중 5번 이하로 차이가 없는 결과가 나올 경우를 뜻한다. 예를 들어 약물 A에 의한 혈중농도 B를 측정한 실험을 가정해보자. 이 실험을 총 20마리의 마우스를 가지고, placebo와 약물A를 각각 10마리씩 투여했을 때, 혈중 농도 B의 양이다. 

자 위의 데이터가 원자료라고 가정해보자. 이경우 귀무가설과 대립가설은 다음과 같이 설정될 것이다.

자, 그러면 이러한 데이터들을 prism에 후두르찹찹 넣고, unpaired t-test를 돌려보면, 다음과 같은 그래프가 나온다. 

그래프는 mean ± SEM으로 표시했고, 통계는 unpaired t-test를 사용했다. 결과를 보면 알겠지만, p value는 0.0052으로 0.05이하이다. 이 말인 즉슨, 귀무가설 (placebo랑 drug A랑 농도 B에 미치는 영향이 없다)이 나올 확률이 100번 중 5번 이하이기 때문에 귀무가설을 기각하고, 대립가설을 체택할 수 있다는 뜻이다. 이처럼 회의주의자들이 많은 통계바닥에서는 귀무가설은 별차이 없을 것으로, 대립가설은 차이가 있을 것으로 설정하게 된다. 아, 단 정규분포에서는 이게 반대로 된다. 데이터의 정규분포 여부를 확인하는 경우에 있어서는 귀무가설은 정규분포를 따르는 것으로 대립가설은 정규분포를 따르지 않는 것으로 설정한다. 

뭐 대충 이런식이다. 동등성 검정의 경우도 위와 비슷하지만 이는 나중에 시간되면 설명하기로 하자.


그런데 이쯤에서 한가지 명심해둘 점이 있다. 

n수는 깡패이니, 통계를 맹신하지 말지어다.

자, 위의 원데이터를 다시 한번 살펴보자. 위의 원 데이터에서 5번 마우스까지의 결과만을 가지고 통계를 돌려보자. 그러면 다음과 같은 통계 데이터를 얻을 수 있다.

자, 5번째 실험까지의 결과는 위와 같다. p value는 0.0634. 당연히 p < 0.05를 성립하지 않기 때문에 귀무가설을 체택해서 "drug A의 투여는 B농도의 변화에 별 영향 없다"로 결론을 내릴 수 있다. 근데, 이 데이터 디게 아깝다. 5번 더 반복실험하니깐 p value 나왔잖어. 이 말인 즉슨, 실험을 담당하는 너님은 5번 더 반복실험을 해야한다는 이야기이고, 충분치 못한 n 수에서 통계를 돌릴 경우 p value가 나오지 않는다고 그게 모두 사실은 아니다는 점이다. 그리고 사실 이 예제는 t-test돌리는게 아니다. 허허허. 걍 t-test가 가장 쉬우니깐 예제로 보여준거지, 원래는 정규성 검정 → 정규분포를 따르지 않으므로 → Mann-Witney test 돌리는게 맞다. 우리는 야매니깐 괜찮기는 하지만, 그래도 명색이 통계 강의 포스팅인데. 허허허. 자, 그러면 이 정규성 검정이라는게 뭔 소리인지 알아보자.


중심극한정리와 정규성 검정

중심극한정리는 사실 한 마디로 요약할 수 있다. 

n수가 많으면 엔간하면 정규분포 따른다.

되게 야매같은 말이다. 근데, 이게 중심극한정리다. 자세한 내용은 아래 링크를 따라가서 보고 오자.

중심극한정리 (닥터배의 술술 보건의학통계 블로그)

이 말인 즉슨 우리 실험에서도 반복실험 많이 한 경우에는 엔간해서는 정규성을 가진다는거다. 그렇다면 몇 번이나 반복해야 대충 정규분포를 따르는걸까? 

n>30이면 정규분포를 따른다.

10<n<30이면 정규분포 따르는지 확인해 봐야한다.

n<10이면 정규분포 안따를껄

뭐 이렇게만 알고 있으면 된다. n>30이면 뭐 묻지도 따지지도 않고 정규분포를 따를테니, t-test를 진행할 수 있는 것이고 10<n<30이면 정규분포를 따르는지를 확인해봐야 하고 이러한 정규분포를 따르는지의 여부는 대게 Shapiro-Wilk test, Kolmogorov-Smirnov (KS) test, D'Agostino & Pearson omnibus normality test를 하게 된다. 앞서서도 설명했듯 이 경우에는 귀무가설이 "엔간하면 정규분포 따를 것"이므로 p<0.05인 경우에는 귀무가설기각=대립가설체택="정규분포를 안 따른다"가 되게 된다. 뭐 n<10이면 묻지도 않고 따지지도 않고 정규분포를 안 따르는 건 아니고, 한번 통계 돌려봐라. 돌려봐서 나오면 좋은거지 뭐. 근데 십중팔구 안나올껄. 

그런고로, 우리 실험결과들을 가지고 통계적인 처리를 하기 이전에 일단 정규분포를 따르는지의 여부를 살펴보는 것이 먼저이다. Prism에서는 column statics를 통해 정규성을 검정할 수 있다. 

요래 요래 new analysis → column statics를 누르면

그러면 이것 저것 설정하는 창이 나온다. 걍 다 클릭해버리자.

그럼 대충 이렇게 나오는데, 뭐 중요한 건 다 들어있다. 우리가 normality test를 하는 방식은 D'Aostino&Pearson omnibus, Shapiro-Wilk normality test, KS normality test인데, 모두 다 p value가 0.05 이상을 보여준다. 앞서서도 이야기했듯 정규성 검정의 경우 귀무가설이 "엔간하면 정규분포 따를껄"이기 때문에 귀무가설을 체택하여, Data set A, Data set B 모두 정규분포를 따른다고 할 수 있다. 그러면 이 둘의 차이에 대해서 student t-test로 검정을 할 수 있게 된다. 

자, 서론은 이 정도로 하고 실전 (을 가장한 야매)로 들어가보자.


③ Column graph 

Column graph는 그래프에서 가장 기본적인 그래프이다. 엔간한 종류의 데이터는 column graph로 가공될 수 있다. 이러한 column graph에 대한 통계 처리에서 가장 중요한 점은 바로 변수의 갯수이다.


ⓐ 단일변수

unpaired t-test

세포A에 약물B를 처리하여, cytokine C의 농도를 측정한 실험의 데이터를 살펴보자. 실험군은 약물 B를 1 μM의 농도로 처리한 것이고, 대조군은 vehicle을 처리한 것으로 설정하자. 이 실험의 귀무가설은 "약물 B가 세포A가 생성하는 cytokine C의 양에 변화를 일으키지 않는다"일 것이고, 대립가설은 "약물 B가 세포 A가 생성하는 cytokine C의 양에 변화를 일으킨다"일 것이다. 측정한 cytokine C양 데이터는 다음과 같다.

이 데이터셋을 프리즘에 후두르챱챱 넣고, 그래프를 클릭하면 다음과 같이 나온다. (mean ± SEM)

딱 봐도 통계적 유의성이 없을 것 같은 느낌이 들지만, 이게 정말 통계적 유의성이 없는지도 검증해야 한다. 자, 아까첨에 이야기했던 것과 같이, 각 데이터가 정규분포를 따르는지를 확인해보자. insert → new analysis → column statics를 누르자.

자, 이렇게 column statics를 확인해보니, D&P test, SW test, KS test 모두 p value가 0.05 이상으로 유의성을 가지지 않는다. 뭐 정규분포 따르는 거지 뭐. 11번 반복실험한 것이니 정규성을 띄는거지 뭐. 자, 그러면 우리는 이 drug B가 A세포의 사이토카인C 생성에 미치는 영향에 대해서 student's t-test를 시행할 수 있게 되었다. new analysis → t-test를 선택하자. 고고!

요로코롬 누르면 다음과 같은 창이 뜬다.

만일 환자 한명 한명당 치료전/후의 특정 물질의 수치 등을 측정한 것이라면 paired data이겠지만, 우리는 자, 이 데이터는 세포를 각각 대조군/실험군으로 나누어서 진행한 실험이므로 unpaired data이다. 자, 다음으로는 가우시안 분포를 따르는지의 여부인데, 아까 해봤듯이 두 데이터 모두 정규분포를 따르므로, 모수적 방법인 parametric test를 시행할 수 있다. 다음으로는 두 군의 SD가 같다고 추정할지의 여부를 가지고 welch's correction을 사용해야할지의 여부를 물어보는데, 이건 나도 몰러 허허허허. 걍 t-test 돌려용 (사실 Welch's corretion에 의한 t-test는 Behren-Fisher problem을 풀 수 있는 방법으로 제시된 방법이라고 합니다. 즉 두 군이 동일한 평균을 가지고 각기 다른 분산과 샘플사이즈를 가졌을 때, unpaired student's t-test의 correction을 위해 사용한다고 합니다. 더 자세한 내용은 위키를 참조하세용 https://goo.gl/SAMDkz). 자, 그리고 나서 옆의 옵션창을 봐 보자. 여기에서는 one-tailed인지, two-tailed인지를 결정할 수 있고, 두 군의 차이를 어떤 식으로 리포트할지를 결정할 수 있으며 (여기에서는 drug B-veh로 표현함), 신뢰구간을 95%로 할지를 결정할 수 있다. 보통 우리가 행하는 두 군간의 비교에서는 95%의 신뢰구간을 사용하므로 통계적인 유의성은 p < 0.05일 때 (5%미만), 귀무가설을 기각할 수 있게 된다. 세군등의 비교를 하는 경우, 즉 ANOVA 등을 시행하는 경우는 전체 유의수준을 5% 미만으로 설정하고, 사후분석 (post-hoc)테스트에서는 각 그룹별로 괴장히 낮은 수준의 개별 유의수준을 유지하게 된다. 이에 대해서는 세 군 이상의 분석 - ANOVA 파트에서 조금 자세히 알아보고, 여기에서는 걍 95%, p < 0.05만 기억해두자. 자, 그리고 OK를 누르면 다음과 같이 나오게 된다.

뭐 그러면 뿅 하고 나온다. 그러면 뭐 다 필요없고 p value만 눈에 보이겠지 뭐. 0.3208이다. p < 0.05 (5%미만)을 만족하지 않으므로 귀무가설인 "약물 B가 세포A가 생성하는 cytokine C의 양에 변화를 일으키지 않는다"를 체택하게 되는 결과를 도출할 수 있다. 그리고 mean ± SEM, difference between means 등의 기술을 가져다 쓸 수 있게 된다.

자, 그렇다면 만일 정규성 검정에서 정규분포를 따르지 않는 경우에는 어떻게 통계처리를 해야 하는지를 알아보자.


Mann-Whitney test

다음은 약물 C가 실험동물의 혈중 A농도에 미치는 영향을 검증하는 실험이다. 귀무가설은 "약물 C 줘봤자 혈중 A농도에 별 영향 안 미칠껄"이고 대립가설은 "아니여, 약물 C가 혈중 A 농도를 변화시킬껴~"이다. 데이터셋은 다음과 같다.


자, n=5인 경우이다. 앞서서도 이야기했듯 n<10인 경우에는 정규분포 안 따른다. 그래서 묻지도 따지지도 않고 걍 Mann-whitney test를 하자. 

자, unpaired test이고, 가우시안 분포를 추정할 수 없으므로 "No. Use nonparametric test"를 클릭하면, choose test에 Mann-whitney test와 Kolmogorov-Smirnov test가 나오게 된다. 여기에서 Mann-whitney test를 클릭하고, option으로 들어가면 t-test때와 별반 다를 것 없는 메뉴가 나온다. 걍 OK 눌러라. 

그러면 뿅 하고 통계 결과가 나온다. p = 0.0079 이므로 p < 0.05를 만족하여, 대립가설 체택이다. 그러면 그래프에 다음과 같이 별표 두개를 적어 넣을 수 있다. 요로코롬 말이지.

별이 다섯개! 는 통계에서는 있을수가엄어서 아쉽다. 별세개 나오면 빼도 박도 못하는 결과이지만, 별만 나와도 좋은거지 뭐. 아니, 어떤 실험에서는 별이 나오면 안 되는 실험들도 있을테니, 뭐 별 나오면 통계적 유의성이 있는거에요. 뭐 이렇게 알고 넘어가자. 


정리하면서 

자, 오늘 시간을 정리해보자. 오늘 우리가 배운 건 많은 것 같지만 사실 그다지 많은 양을 배운 건 아니다.

② 데이터의 처리 및 통계처리의 기초

 연속형 자료와 범주형 자료 - 실험데이터는 대부분 연속형 자료이다. 

 가설의 검정방법

귀무가설 - 별 차이 없을껄 

대립가설 - 거봐 차이 나잖어

5% 유의수준, 유의확률 p < 0.05이면 대립가설 체택

단, n 수는 깡패이니, 통계를 맹신하지 말지어다.

 중심극한정리와 정규성검정

n수가 많으면 엔간하면 정규분포 따른다.

n>30이면 엔간하면 정규분포 따를껄

10<n<30이면 정규분포 돌려보자.

n<10이면 정규분포 안따를껄

정규분포 검증은 SW, KS, DP test를 사용한다.

③ Column graph 

ⓐ 단일변수 

- unpaired t-test

- Mann-Whitney test

자, 오늘은 이 정도로 하고, 추석 연휴 이후에 포동 포동 올라온 뱃살을 두들기면서 다시 만나십시다. 안농~ 


아. 그리고 이 글들은 Mimi Zeiger의 essentials for writing biomedical research papers를 주된 교재로 작성 중이였습니다만, 이제부터는 이를 기반으로 오리지널 스토리로 들어갑니다. 논문 작성법에 관련된 내용은 위 책을 참조하시면 됩니다. 감기때문에 죽겠네요. 모두 환절기 감기 조심하세요. 그리고 저는 이제 슬슬 비정규직을 탈피하기 위해 자소서를 쓰고 있어요. 헝헝. 팔자에도 없던 자소서를 쓰려니 아주 죽겠군요. 근데 저는 남자들한테만 인기가 있는 것 같아요. 허허허. 큰일이네.

⓪ 들어가면서

① 그래프의 종류

ⓐ column graph

ⓑ grouped graph

ⓒ x-y graph

ⓓ contingency

ⓔ survival graph

오늘부터는 그래프와 표 그리고 통계학적 고려사항들에 대해서 살펴보자. 사실, 통계는 이 바닥에 있는 사람들이 매일같이 사용하고 있음에도 불구하고, 체계적인 교육을 받지는 못한 경우가 대부분일 것이다. 개인적으로도 실험실에 들어와서 선배들이 가르쳐 준 것에 대해서 알음알음 배웠던 기억이 있고, 대학원 통계 시간은 열심히 강의해주던 교수님들께는 죄송하지만, 숙면시간으로 잘 활용했었던 기억이 있다. 

논문작성법에서 이러한 통계에 대해서 자세히 설명하는 것은 좀 어불성설이고, 개인적으로도 통계에 대해서 강의를 할 만한 능력은 아니기 때문에, 논문작성에서 필요한 통계학적 고려사항들에 대해서 수박 겉핥기 정도로 공부하고, 어플리케이션을 이용한 그래프/표 작성에 대해서 살펴보도록 하자. 


⓪ 들어가면서


실험실에서 뭔 놈의 통계를 써야 하는가? t-test면 땡 아녀?

의과학을 하는 입장에서 실험하기도 바빠 죽겠는데, 왜 통계인가?라는 질문을 던질 수도 있을 것이다. 하지만, 모든 과학결과는 통계적으로 유의함을 보여주어야만 그 의미를 지니게 된다. 아무리 신기한 발견을 하였더라도, 그 실험이 재현되지 않는다면 말짱 황이요, 통계적으로 유의하지 않는다면 우연한 결과에 지나지 않는다. 이러한 통계학적 고려사항은 내가 발견한 것이 정말 유의한 발견인지 아닌지를 결정하는 역할을 하게 된다. 그리고 내가 설정한 가설이 통계적으로 유의한지를 검정하고, 이 결과를 바탕으로 논문을 쓰게 되는 것이고 말이다. 

의학논문을 작성함에 있어서, 코호트나 환자-대조군 연구의 경우는 모집단을 판명이 주된 목적이다. 내가 만지고 있는 것이 코끼리의 앞다리인지, 코인지를 파악하는게 중요하지 뭐. 신뢰구간이니 뭐니 하는 것도 결국은 모집단을 정확하게 알고 있지 못하기 때문에 이를 추정하는 역할을 하게 되는 것이고 말이다.

환자를 대상으로 한 환자-대조군 연구논문들을 살펴보고 있노라면, 장님 코끼리 만지는 것 같다는 생각을 한다. 똑같은 환자군을 가지고 낸 결과가 저자마다 다른 경우들도 참 많다.

그렇다면, 우리가 하는 실험결과들의 통계는 어떤건지 대충 살펴보자. 자, 다음은 한 논문의 material method에 나온 통계 단락이다.

Statistical Analysis

Continuous variables were tested for normal distribution by using the Kolmogorov-Smirnoff test. Data are presented as mean 6 SEM or as median (line) and interquartile range (box); whiskers indicate 5% and 95% percentiles. Statistical analysis was performed by one-way ANOVA followed by Bonferroni or LSD post hoc test for normally distributed data, or Kruskal-Wallis test with Mann-Whitney-U post hoc test, as appropriate. For comparison of two groups of non-normally distributed data, Mann- Whitney U test was used. A value of P,0.05 was considered statistically significant. All calculations were carried out by using SPSS Statistics 20 for Mac.

"실험동물을 이용한 결과의 normal distribution을 Kolmogorov-Smirnoff test로 검정하고, normal distributed data의 경우는 one-way ANOVA test와 posthoc test로 Bonferroni/LSD를 사용을 했으며, undistributed data의 경우는 Kruskal-Wallis test와 posthoc test로 Mann-Whitney-U test를 사용을 했다. 두 그룹의 비교의 경우, non-normally distributed data의 경우는 Mann-Whitney test를 사용했고, normal distributed data의 경우는 t-test 사용했겠지 뭐. 유의수준은 5% 통계프로그램의 경우는 SPSS 사용했어염."

이걸 보면 예전에 t-test만 죽어라 붙잡고 있었던 박사시절이 생각나면서 무지 쪽팔려진다. 위의 예를 보면 우리가 실험실에서 흔히 사용하는 통계학적 기법이 대부분 나와있다. 정규성검정, 티테스트, 아노바, 본페로니 포스트혹 테스트, 만휘트니 테스트. 뭐 빠진 부분이 있다면 survival에 대한 통계검정 등이 있을 수는 있지만, 대부분은 t-test와 ANOVA로 거의 해결가능할 것이다. 

뭐 임상통계나 실험실통계나 통계는 거기서 거기다. 다만, 우리가 하는 실험은 임상데이터들에 비해서 조금 더 통제가 가능하고, 실험결과가 모집단 전체를 구성하고 있다는 점만 빼고 말이다. 물론 이 외에도 다른 점들이 수두룩빽빽하지만 대충 이정도로 퉁치고 넘어가자. 우리는 야매니깐.


어떤 도구를 사용할 것인가?

연구논문에서 통계의 활용은 실험을 통해 만들어진 데이터에서 어떻게 통계적 유의성을 뽑아내는가가 될 것이다. 이를 위해서는 연필로 직접 써가면서 계산할 것이 아니라면야 당연히도 도구가 필요하다. 많이 활용되는 통계 프로그램으로는 SPSS, SAS, R 등이 있지만, 우리가 같이 공부하면서 사용할 통계 프로그램은 graphpad에서 나온 prism이다. 

한참 석사때에는 two-way ANOVA 때문에 sigmaplot도 사용했었는데, 결국 prism이 제일 사용하기가 용이하더라. 직관적이고 엔간한 통계는 거진 다 돌릴 수 있고. 하긴 여기 있는 툴 외의 것들은 거의 사용할 필요가 없더라. 이 프로그램을 선택한 이유는 내가 제일 많이 써봐서 제일 익숙하니깐! 불만 있으면 직접 포스팅을 하시라! MDPHD 블로그는 어떠한 필진분들도 다 환영합니다.

뭐 이런 저런 이유를 떠나서, 상당히 좋은 프로그램이다 가격도 아카데믹 프라이스로는 450$ 정도로 저렴한 편이고, 왠만한 통계 툴은 거의 사용 가능하고, 만들어지는 그래픽 퀄리티가 매우 좋은 편이기 때문이다. 뭐, 이 외에도 프로그램이 안정적이라 crash나는 경우가 거의 없고, 대용량의 데이터를 handling하는 데에도 적합하다. 이런 저런 이유로 이 프로그램을 사용해서 공부를 진행하자.


통계에 대한 기본적인 지식

문제는 통계를 야매로 배운 내가 이걸 다룬다는게 가장 큰 문제인데, 이를 보완하기 위해서 다음의 블로그를 소개한다. 높이 비상하는 즐거운 상상 블로그 (http://dermabae.tistory.com)에 가면 통계학의 기본에 대한 강의를 잘 들을 수 있다. 저자이신 배정민 선생님이 책도 내셨으니 한번 사서 읽어보는 것도 좋을 듯 싶고 말이다.(http://www.yes24.com/24/goods/6756234) 여하간, 기본적인 지식은 각자 공부 해오시는 걸로 하고, 우리 글에서는 실전 위주로 진행할 예정이다. 그리고 항상 명심해두자.

 MDPHD Warning 

이 글에서 다루는 통계는 기본적으로 야매입니다. 

정확한 통계의 사용법을 알기 위해서는 

더 전문적인 분야의 통계 서적 및 참고 문헌을 참조하세용 ~ 데헷~ 

(무더운동경 배경음악)

자, 들어가는 글은 이 정도로 마무리하고, 이제부터 논문작성법 (6) 그래프, 표 그리고 통계에 대해서 자세히 살펴보자. 


① 그래프의 종류

그래프의 종류는 정말 무궁무진하다. 하지만, 큼직 큼직하게 나누어 보자면 다음과 같이 나눌 수 있다. 


 Column 

이게 가장 기본적인 통계자료의 기술방식일 것이다. 일반적으로 bar graph (막대그래프)로 표현할 수 있으며, 수평/수직 등의 모습을 취할 수 있다. whisker형식의 그래프도 있고, 뭐 엔간한 그래프들은 이걸로 거의 소화할 수 있다. 

대게 이런 놈들이지 뭐. bar graph들. 맨 오른쪽은 치료전/후 그래프에서 각 샘플의 변화를 꺽은선으로 연결한거다. 이것도 대충 column graph로 퉁치자.

엔간한 데이터들은 이걸로 퉁칠 수 있다. 가장 가까이는 데이터의 도수분포를 보여주는 frequency distribution부터, t-test (paired/unpaired), one-way ANOVA 등을 사용해서 통계적인 처리를 할 수 있다. 여기에서 쪼금 더 나간 것이 grouped graph이다.


 Grouped 

단일 변수 이상의 변수들이 표함될 경우이다. 예를 들어, 성별이라는 변수 (남자/여자), 치료라는 변수 (치료 전/후) 이렇게 두 가지 이상의 변수가 있는 경우 이를 그래프상에 표현한 것이라고 보면 된다. 

요런 것들 말이다. 위의 column graph보다 할 말이 디게 많은 그래프이다.

이런 경우들은 대게 two-way ANOVA 등을 돌려서 통계적인 처리를 하게 된다. 


 XY 그래프

말 그대로 x축과 y축으로 나누어진 그래프이다. 뭐 대충 아래같은 그래프들 말이다.


x 축은 대게 시간이나 농도 등이고, y축은 정말 여러가지로 작성할 수 있다. 그래프들에 대해서 잠깐 설명하자면, 가장 왼쪽의 그림은 일반적인 xy 그래프로 시간의 경과에 따른 apoptosis의 변화를 각 시간대별로 찍고, 선으로 연결한 류의 그래프이고, 가운데 그림은 calcium fluorescence를 5초간격으로 측정한뒤 이를 선으로 연결한 것이고, 가장 오른쪽의 그래프는 농도에 따른 activity 변화를 가지고 IC50을 구하는 dose-response curve의 예이다. 

이와 같은 그래프는 시간대별, 농도별 변화를 관찰하는데 많이 사용되며, linear regression/nonlinear regression, enzyme kinetics, correlation, dose response, area under the curve 등등을 확인하는데 주로 쓰일 수 있다. 물론 각 시간대별로 대조군과의 차이를 통계적으로 검정할 수도 있다. 


ⓓ Contingency

임상데이터를 분석할 때 많이 사용하는 contingency이다. 환자-대조군 연구/코호트 등에서 모집단에서의 위험인자에 따른 질병 발생률 등을 분석할 때 많이 쓰는 그래프이다. 전향적 연구에서 placebo와 aspirin의 복용에 따른 myocardial infarction의 유무를 보는 분할표를 가정해보면 대충 이런 그래프가 나온다.

원 데이터는 왼쪽 위의 contingency table이 될꺼고, 논문에 들어가는 그래프는 우측 그래프가 될 것이다. 그리고 아래는 chi-square test로 검정한 결과일 것이고. 이거는 프리즘 프로그램 내의 예시이므로 뭐 대충 만든 그래프이다.

이런 contingency 그래프의 경우에는 chi-square test(prospective data)나 Fisher test(retrospective data) 등을 사용하여서 통계적인 검정을 하게 된다. 뭐 교차비, 상대위험도 이런거 구하고 우도비 이런거 살펴보고 회귀분석은 뭐를 사용하고 교란변수/교호작용 따지고 이래야 하는거라 이런 건 나도 잘 몰러. 허허허. 대충 논문보고 비슷하게 따라하는거죠 뭐. 저보다 잘 하시는 분들이 세상에 쎄고 쎈 마당에 제가 이것까지 하려면은 가랭이가 찢어져요. 대충 보고 따라하자. 생각해보니 디게 무책임하지만 뭐 어쩌겠어요? 허허허.


ⓔ Survival

Survival. 말 그대로이다. survival graph. 질환등에 의한 사망률이나, 실험을 통한 실험동물의 생존률 데이터를 기반으로 치료등 일정한 변수가 사망률에 유의한 변화를 일으키는지 등의 여부를 살펴보는 그래프이다. 아래의 예를 살펴보자.

왼쪽 그래프는 실험동물에 LPS injection을 한 뒤의 사망률을 살펴본 것이고, 오른쪽의 그래프는 follow-up year에 따른 fatal에 의한 survival graph이다. 뭐 사망률 반대는 생존율이지 뭐. 저 데이터 거꾸로 그리면 사망률 그래프됩니다. 허허허. 이글은 기본적으로 야매글이에요. ㅎㅎ

이런 그래프들의 경우 검정은 log-rank test (Mantel-Cox) 등으로 하면 된다. 


자, 대충 오늘은 이정도 까지만 알아보고, 다음 시간부터는 prism을 이용해서 각각의 그래프를 그리는 방법 등에 대해서 알아보자. 아, 이 "그래프, 표, 그리고 통계" 섹션은 꽤 길꺼다. 지금 그래프 끝내는 것만 해도 몇 번의 포스팅이 진행되어야할지 가늠하기가 좀 힘들고, 나머지 부분도 꽤 길 듯 싶다. 그러니 차근차근 같이 공부해나가자. 사실 나도 통계 잘 몰러. 통계를 야매로 배웠어요 허허허.


아. 그리고 이 글들은 Mimi Zeiger의 essentials for writing biomedical research papers를 주된 교재로 작성 중이였습니다만, 이제부터는 이를 기반으로 오리지널 스토리로 들어갑니다. 논문 작성법에 관련된 내용은 위 책을 참조하시면 됩니다. 사실 저는 통계를 야매로 배웠습니다. 실험실 꼬꼬마 시절 선배들이 통계 데이터를 돌릴 때, 저에게 가르쳐 주었던 것은 "이것 저것 돌려봐서 p value 나오면 걍 그걸로 때워"였지요. 박사가 되고 나서도 별반 다를게 없었던 것 같아요. 그래서 통계를 쪼끔 공부하고 나서 통계를 돌려보는데도 불구하고 선배들이 가르쳐 준 바와 결과가 크게 다르지 않다는게 함정 걍 이것 저것 돌려봐서 p value 나오면 걍 그걸로 때우세요 데헷~



결과의 구성 

① 줄거리

② 내용

③ 결과 및 데이터

④ 결과 섹션의 조직

모든 실험이 미리 디자인되는 연구

한 실험이 다음 실험을 결정하는 연구

⑤ 강조

⑥ 길이

⑧ 그 외 고려해야할 세부사항들

자, 이제 결과의 작성법 2번째 시간이다. 이번 시간에서는 어떻게 강조할 것인지, 그리고 고려해야 할 세부사항들에 대해서 알아보자. 


⑤ 강조 

결과섹션에서는 당연히 결과가 강조되어야 한다. 이러한 강조를 하는 방법은 당연히도 문장의 도입부에서 "이제부터 결과 시작합니다."하는 신호를 주면 된다. "We found", "We observed", "We examined", "We detected", "We identified" 등등 결과를 기술하는 단락의 첫문장의 도입부에 이러한 신호를 사용하면 된다. 

하지만, 이 것외에 결과섹션에서 흔히 실수하는 것들만 줄여도 충분히 결과를 강조할 수 있다.


데이터는 생략하고 결과는 압축하라.

대부분의 데이터는 figure, table에 포함이 된다. 이러한 데이터를 텍스트로 다시 기술할 필요는 없다. 물론 중요한 수치의 경우는 텍스트로 다시 기술함으로써 강조를 할 수는 있으나, 대부분의 중요하지 않은 데이터는 다시 기술할 필요가 없다. 또한, 결과를 최대한으로 압축함으로써 불필요한 반복을 피해야 한다. 자, 다음의 예를 살펴보자

Group1: Serial development of alveolar hypoxia followed by alkalosis. The pulmonary artery pressure increased to 65 ± 21 (SD) % above baseline during hypoxia but then decreased to 37 ± 16 % above baseline when alkali was infused into the lungs of 12 rabbits. Similarly, the pulmonary artery pressure increased to 41 ± 17% above baseline during hypoxia but then decreased to 21 ± 13 % above baseline when PICO2 was decreased (Fig. 2). Thus, both metabolic and pulmonary alkalosis decreased the pulmonary vascular resistance after it had increased in response to hypoxia.

Group2: Serial development of alkalosis followed by alveolar hypoxia. The baseline pulmonary artery pressure decreased from 9.4 ± 1.8 to 8.4 ± 1.5 cm H2O when NaHCO3 was infused and from 9.0 ± 2.1 to 7.9 ± 1.5 cm H2O when PICO2 was decreased in the lungs of 20 rabbits. The pulmonary artery response to alveolar hypoxia at a pH of 7.35-7.42 was no different from the response to alveolar hypoxia at pH of 7.50-7.65 (Fig. 3). These results were the same regardless of whether alkalosis was induced by decreasing PICO2 or by infusing NaHCO3 (Fig. 3). Thus, although both metabolic and respiratory alkalosis decreased baseline pulmonary resistance, they did not decrease constriction of the pulmonary artery in response to subsequent alveolar hypoxia.

Group3: Simultaneous development of alkalosis and alveolar hypoxia. The pulmonary artery response to alveolar hypoxia was significantly lower at pH of 7.50-7.65 than at a pH of 7.35-7.42 in the lungs of 8 rabbits (Fig. 4). Thus, simultaneous alveolar hypoxia and respiratory alkalosis decreased constriction of the pulmonary artery.

일단 위의 예문은 보는 것만으로도 숨이 막힌다. 이런식으로 데이터를 나열하는 것은 결과섹션의 올바른 글쓰기가 아니다. 자, 각각의 단락을 조금 살펴보기 전에 핵심어구를 좀 살펴보고 넘어가자. metabolic alkalosis (NAHCO3 infusion), respiratory alkalosis (PICO2), pulmonary artery constriction (pulmonary artery pressure), hypoxia 정도가 핵심어구가 될 것이다. 자 단락을 하나 하나 살펴보자.

첫 단락: Alveolar hypoxia 이후의 alkalosis. hypoxia동안 pulmonary artery pressure가 증가했다가 (65 ± 12 %), alkali를 infusion하였을 때 떨어지며 (37 ± 16%), 비슷하게, hypoxia에서 증가했었던 pulmonary artery pressure (41 ± 17%로 )가 PICO2가 감소하면 떨어졌다 (21 ± 13%). 따라서, metabolic and pulmonary alkalosis가 hypoxia에 의해 증가된 vascular resistance를 떨어뜨렸다. 

이 단락에서는 마지막줄 빼고는 사실 데이터의 나열이다. 마지막 문장만 살려도 된다. 

두번째 단락: Alkalosis 이후의 alveolar hypoxia. NAHCO3가 infusion되면 pulmonary artery pressure가 감소하고 (9.4 ± 1.8 to 8.4 ± 1.5), PICO2 감소에 의해서도 조금 감소한다 (9.0 ± 2.1 to 1.5  ± 1.8). pH 7.35-7.42사이에서 alveolar hypoxia에 대한 pulmonary artery의 반응은 pH 7.5-7.65에서의 그것과 차이가 없었다. 이러한 결과는 alkalosis가 PICO2 감소나 NAHCO3 infusion에 상관없이 비슷하게 나왔다. 따라서, metabolic이나 respiratory alkalosis가 baseline pulmonary resistance를 감소시켰더라도, subsequent alveolar hypoxia에 반응하는 pulmonary artery constriction을 감소시키지 못했다. 

이 단락 역시 마지막 줄 빼고는 데이터의 나열이다. 

세번째 단락: Hypoxia와 alkalosis의 동시반응. Alveolar hypoxia에 의한 pulmonary artery response는 pH 7.50-7.65에서 pH 7.35-7.42에서보다 유의하게 적었다. 따라서, simultaneous alveolar hypoxia와 respiratory alkalosis는 pulmonary artery의 constriction을 감소시켰다. 

이 단락 역시 마지막 문장이 주제문이다. 

자, 주제문들만 모아보자. 

① Hypoxia 이후 metabolic alkalosis (NAHCO3 infusion) 와 respiratory alkalosis (PICO2 decrease)는 pulmonary resistance (pulmonary artery constriction) 를 감소시켰다 (Fig. 2).

② Hypoxia 이전의 metabolic alkalosis (NAHCO3 infusion)와 respiratory alkalosis (PICO2 decrease)는 pulmonary resistance (pulmonary artery constriction)을 감소시키지 못했다 (Fig. 3). 

③ alkalosis (metabolic + respiratory)와 hypoxia를 동시에 주었을 경우에는 pulmonary artery resistance ( pulmonary artery constriction)이 일어났다 (Fig. 4).

거참 글 한번 요란하게 써놓았는데 사실 위의 주제문들이 글의 전부이다. 나머지 문장들은 필요없는 문장들이다. 이에 따라서 글을 다시 써보자.

The induction of either metabolic or respiratory alkalosis after hypoxia reduced pulmonary resistance in response to hypoxia (Fig. 2). In contrast, The induction of either metabolic or respiratory alkalosis before hypoxia did not reduce pulmonary resistance in response to hypoxia (Fig. 3). However, simultaneous respiratory alkalosis and hypoxia reduced pulmonary artery constriction in response to hypoxia (Fig. 4). 

뭐 대충 쓰면 이렇게 될 것 같은데, 이를 조금만 더 교정해보자. 문장에서 제일 중요한 단어가 앞으로 오는 것이 좋기 때문에 pulmonary resistance를 주어로 교정하고, 첫 문장과 세번째 문장은 결과가 같기 때문에 합쳐버리자. 그리고 metabolic/respiratory alkalosis 사이 결과에 별 차이가 없으므로 걍 alkalosis로 퉁치자. 그리고 simultaneous는 문맥상 쉬운 단어인 during으로 바꿔도 될 것 같다. 그러면 대충 다음과 같이 교정할 수 있다.

Pulmonary artery constriction was reduced when alkalosis was induced either after (Fig. 2) or during (Fig. 4) hypoxia. However, pulmonary artery constriction did not change when alkalosis was induced before hypoxia (Fig. 2). 

뭐 여기에서 좀 더 나가면 다음과 같이 교정할 수 있고 말이다.

Pulmonary artery constriction was reduced when alkalosis was induced either after (Fig. 2) or during (Fig. 4) hypoxia, but not when alkalosis was induced before hypoxia (Fig. 2).

그러면 22줄이 단 2줄로 변하는 놀라운 마법을 부릴 수 있다. 너무 짧은 것 같으면 윗 문장을 기준으로 몇 가지 좀 추가해도 괜찮고 말이다. 자, 결과 섹션은 데이터를 기술하는 자리가 아니다. 결과를 기술하는 자리라는 점을 명심해둘 필요가 있다. 


그림의 범례와 표의 제목

주제문으로 그림의 범례와 표의 제목을 사용하는 것은 별로 좋은 방법이 아니다. 다음의 예들을 살펴보자.

A summary of renal function data is presented in Fig. 2. Continuous positive airway pressure (7.5 cm H2O) in newborn goats decreased urine flow, sodium excretion, and glomerular filtration rate. 

As summarized in Figure 5, C5a regulates allergic inflammation of asthma in many ways, including proinflammatory and chemotactic activities, regulation of Th1/Th2 responses, remodeling of damaged lung tissue, and induction of brochospasm.

뭐 이런 표현들이 잘못된 표현은 절대로 아니고, 첫 문장에서 범례를 표현하는 것 같아 단락의 강려크함이 좀 반감된기 때문에 이런 표현을 지양하자는 이야기이다. 주제문을 더 강력하게 만들기 위해서는 범례를 생략하고 결과를 바로 기술하는 것을 추천한다. 다음과 같이 교정해보자.

Continuous positive airway pressure (7.5 cm H2O) in newborn goat decreased urine flow, sodium excretion, and glomerular filtration rate (Fig. 2)

C5a regulates allergic inflammation of asthma in many ways, including proinflammatory and chemotactic activities, regulation of Th1/Th2 responses, remodeling of damaged lung tissue, and induction of bronchospasm (Fig. 5).

뭐 이렇게 결과를 기술하는 식으로 바꿔버리면 쓸모없는 군더더기 문장을 없앨 수 있어서 좋은 측면이 있다. 그리고 단락을 시작하는 주제문을 쓸모없는 군더더기 문장으로 시작하는 것을 막을 수 있어서 좋고 말이다. 정 이러한 표현을 넣고 싶으면 단락의 맨 뒷 문장에 쓸 수도 있기는 하겠지만, 걍 쓰지 말자. 별로 안 좋다.


대조상태 (control)의 결과의 기술

논문에서 가장 중심되는 기술은 실험군의 결과에 대한 기술일 것이다. 하지만, 대조군의 결과를 명확하게 설명해줌으로써 실험이 안정적이였다는 사실을 확립시켜줘야 할 필요가 있는 경우들이 있다. 자 다음의 예를 살펴보자.

During the acute period of lipid infusion, lung lymph flow increased from 2.44 ± 0.32 (mean ± SD) to 4.00 ± 0.72 ml/h (p < 0.05). 

이 경우에는 2.44 ± 0.32가 baseline이고 4.00 ± 0.72로 유의하게 (p < 0.05) 증가했다는 기술이다. 이처럼 대조군의 결과를 기술할 경우 실험군이 얼마나 증가했는지가 더욱 명확해질 수 있게 된다. 물론, 그래프 등에서 안정적인 baseline 상태의 대조군이 존재하는 상황에서 이에 대한 강조가 필요 없는 경우에는, 굳이 이를 텍스트로 기술할 필요는 없다. 


주제문을 활용하라

지난 단락의 구성 등을 통해서 누누히 이야기한 바와 같이 단락의 첫 문장은 주제문으로 시작하는 것이 좋다. 다음의 예를 살펴보자.

In three of the cats in the second series, the inhibitory effect of 1 μg isoproterenol was examined when baseline tension was induced exclusively by either cholinergic neurotransmission, exogenous acetylcholine, or exogenous 5-hydroxytryptamine. Injection of 1 μg isoproterenol evoked a differential inhibitory response, relaxation being greater when tension was induced by cholinergic neurotransmission or exogenous 5-hydrotryptamine than by exogenous acetylcholine (Fig. 5).

위 예문의 첫 문장은 실험을 기술하는 내용이다. 실험이 정말로 신기 묘묘한 실험이라 반드시 기술해야 하는 경우가 아니라면 윗 단락은 두번째 문장만으로도 충분히 구성이 가능하다. 또한 신기 묘묘한 실험이라도 할지라도 우리는 이미 material and methods에서 기술했을터인데, 이를 구구절절 설명하는 것은 필요하지 않다. 만일 실험에 대한 기술을 포함하고 싶다면 다음의 방법들을 사용하면 된다. 다음의 예를 살펴보자.

A. 방법을 주제문으로 쓴 바람직하지 못한 예 

We administered propranolol during normal ventilation. This beta-blocker decreased phospholipid.

이 경우에는 단락의 첫 문장이 실험을 기술하는 문장이다. 이 문장은 다음과 같이 교정할 수 있다.

B. 방법은 주어에 부가적으로 설명하고 결과는 동사+목적어로

Propranolol administered during normal ventilation decreased phospholipid. 

이처럼 방법을 주어구로 만들어 버림으로써 첫 문장이 결과를 기술하는 방식으로 바뀌었다. 다른 방법으로는 아래와 같은 방법을 사용할 수도 있다.

C. 방법은 연결구에, 결과는 주어+동사에

After administration of propranolol during normal ventilation, phospholipid decreased.

after부터를 그냥 뒤로 돌려도 된다. "Phospholipid decreased after administration of propranolol during normal ventilation"처럼 말이다. 그 외에는 연결절로 방법을 기술하는 방법이 있다. 

D. 방법은 연결절에, 결과는 주절에 

When propranolol was administered during normal ventilation, phospholipid decreased.

뭐 방법은 여러가지이지만 일단 A같은 경우는 되도록 지양해야 한다. 


중요한 결과를 먼저 제시하라 - 주제문을 이용해 전체적인 조망을 제시하라 

결국 동어 반복이다. 결과 섹션에 제일 중요한 점은 바로 중요한 결과를 주제문으로 먼저 제시하라는 것과, 이러한 주제문을 이용해서 전체적인 조망을 제시하라는 이야기이다. 다음의 예를 살펴보자.

We further investigated the association between autophagy-mediated survival and pro-tumourigenic effects of neutrophils. In fact, a comparison of the kinetics of neutrophil apoptosis (Fig. 4B) and pro-metastatic OSM production (Fig. 4F) revealed that blockade of autophagy in TSN-exposed neutrophils led to a rapid and radical reduction of OSM but a delayed upregulation of cell apoptosis. Of note, such enhanced tumour neutrophil autophagy also correlated with an augmented release of MMP9 and increased motility of hepatoma cells (Fig. 4G). Finally, we evaluated the consequences of the siRNA-mediated autophagy suppression in neutrophil-like differentiated HL-60 cells. Knockdown of ATG5 efficiently inhibited TSN-mediated autophagy and the production of OSM and MMP9 at the early time point with marginal apoptosis (Fig. 4H and Supplementary Fig. 4). These data indicate that increased neutrophil autophagy promotes malignant cell metastasis independent of its pro-survival effect.

위의 예에서 살펴보듯, 첫 문장이 단락의 모든 내용을 조망해주고 있다. 이 단락에서 저자들이 autophagy-mediated survival과 neutrophil의 pro-tumorigenic effect의 연관관계에 대해서 살펴보았다는 것을 자연스럽게 조망하고 있다. 이처럼 결과섹션의 단락은 중요한 결과를 먼저 제시해야 한다. 그리고 그 중요한 결과는 대게 전체적 조망을 하는 문장일 것이다. 


⑥ 길이 

줄여라. 결과 섹션에 모든 실험결과를 시시콜콜 제시할 필요는 없다. 그리고, 결과의 의미에 대한 기술을 하고 싶은 욕망을 참아내고 고찰 섹션으로 넘겨줘라. 결과섹션은 최대한 간결하고 명확하게 쓰여져야만 독자의 이해를 높일 수 있다. 


⑦ 그 외 고려해야할 세부사항들


동사의 시제 

대부분의 논문의 시제는 과거시제를 사용한다. 그 이유는 실험 자체가 과거에 일어난 사건이기 때문이다. 


통계학적 세부사항

데이터는 그림과 표의 형태로 제시되며, 통계는 수학적 측면에서 데이터의 기술이다. 따라서 대부분의 통계학적 세부사항은 그림과 표에 존재한다. 이러한 데이터를 텍스트에 포함싴밀 경우 그에 수반되는 통계학적 사항도 표시되어야 한다. 다음의 예를 살펴보자.

Blood flow was redistributed more toward the right ventricle than toward the left ventricle (26.3 ± 2.9 vs 19.5 ± 1.5 %, mean ± SD, n = 6, p < 0.01)

위의 예를 보면 다섯가지의 정보가 들어있는 점을 알 수 있을 것이다. 척도 (%), 평균값 (mean), 표준편차 (SD), 샘플의 규모 (n), 유의값 (p value). 이처럼 데이터를 기술할 경우에는 위의 통계학적 정보를 제시하여야 한다. r그리고 통계학적으로 p value를 얻은 경우에는 significant, significantly라는 표현을 쓸 수 있다. 


정리하면서 - 결과의 구성을 위한 가이드라인

결과섹션은 실험의 결과를 기술하고, 가설을 뒷받침하는 데이터를 그림이나 표를 인용하는 역할을 한다.


① 줄거리

- 미리 디자인되는 가설검증연구, 방법논문의 경우는 결과섹션은 결과를 제시한다.

- 우리가 작성하는 하나의 실험이 다음 실험을 결정하는 가설검증논문의 경우, 수행한 실험과 결과를 모두 제시한다.


② 내용

- 질문에 적합한 결과만을 보고하라.

- 가설을 뒷받침하는 데이터 + 뒷받침하지 않는 데이터 모두 결과에 포함시켜야 한다.

- 대조 (control)의 결과나 데이터 역시 포함되어야 한다.


③ 결과 및 데이터

- 텍스트에는 데이터를 최대한 적게 기술하라. 데이터는 그림/표를 통해 제시해라

- 실제 데이터의 인용보다는 퍼센트 변화/차이의 퍼센트로 보고하여 차이에 대한 개념을 제시해야 한다.


④ 결과 섹션의 조직

- 하나의 실험이 다음 실험을 결정하는 가설검증논문의 경우, 질문 > 실험의 개요 > 대답 > 보충설명의 순으로 각 단락이 구성된다.

- 미리 디자인되는 가설검증연구의 경우 연대기, 중요한 순서대로 기술하라.


⑤ 강조 

- 결과를 강조하라.

- 강조하는 신호로 we found 등의 신호를 사용할 수 있다.

- 데이터는 생략하고 결과는 압축하라

- 그림의 범례와 표의 제목 등은 결과 섹션의 문장에서 지워라. 대신 괄호 안으로 인용해라.

- 대조상태의 결과의 기술 역시 강조할 필요가 없는 대부분의 경우에는 생략해버려라.

- 주제문을 활용해라.

- 중요한 결과를 먼저 제시하고, 이를 이용해서 전체적으로 조망해라.


⑥ 길이 

- 짧고 간결하게


⑦ 세부사항 

- 동사의 시제는 과거형이다.

- 데이터를 기술할 경우 통계학적 세부사항을 빼먹지 말아라. 척도, mean, SD, n, p value이다. 

자, 오늘까지 우리는 결과섹션을 구성하는 방법에 대해서 살펴보았다. 다음 시간부터는 그래프와 표, 그리고 약간의 통계학적 고려사항에 대해서 살펴보자. 


자, 한동안 쉬었으니 빠르게 달려봅시다. 

결과의 구성 

① 줄거리

② 내용

③ 결과 및 데이터

④ 결과 섹션의 조직

모든 실험이 미리 디자인되는 연구

한 실험이 다음 실험을 결정하는 연구

⑤ 강조

⑥ 길이

⑧ 그 외 고려해야할 세부사항들

자, 이제 결과 섹션이다. 사실 결과 섹션에서는 할 말이 참 많다. 결과의 구성법은 크게 2파트로 구성될 예정이고, 이후에는 그래프와 통계에 대해서 수박 겉핥기식으로 살펴볼 예정이다. 곁가지로 나가게 되는 그래프와 통계 파트에서는 가장 많이 쓰이는 통계 프로그램 중 하나인 graphpad prism 소프트웨어를 기준으로 통계처리와 그래프에 대해서 살펴볼 예정이다. 자, 이제 슬슬 시작해보자.

8-9월 연구비 신청들은 잘 하셨는지 모르겠네요. 모두 건승을 기원합니다. 


결과섹션은 논문에서 가장 중요한 부분이다. 연구를 통해 밝혀낸 사실을 그래프, 표, 그림등을 이용해서 제시하는 부분이며, 연구자에 의해 설계된 가설을 검증하는 부분이다. 따라서, "가설을 뒷받침하는 연구결과들을 어떻게 독자들에게 잘 전달하는가"가 이 부분의 가장 주된 과제라고 할 수 있다.


① 줄거리

우리가 다루는 논문작성법의 결과섹션은 가설을 검증하는 연구를 주로 지칭한다. 이는 한 실험의 결과가 다음 실험을 결정하는 것을 뜻하게 되는데, 이에 따라 주된 줄거리는 "질문-수행한 실험-발견한 결과-대답"의 순으로 이어지게 된다. 꼬리에 꼬리를 물게 되는 형식이다. 


② 내용

결과섹션에 포함되는 가장 중요한 정보는 바로 결과이다. 하지만, 실험이나 관찰을 통해 얻은 모든 결과를 기술할 필요는 없다. 결과 섹션에서는 서론에서 기술된 질문들에 대한 적절한 답을 제시하는 결과만을 보고하면 된다. 즉, 결과가 가설을 뒷받침하는지가 포함되어야 하며, 실험군 뿐만 아니라 대조군의 결과 역시 포함되어야 한다.

이러한 결과는 그래프와 표로 표기하지만, 상황에 따라서는 약간의 데이터를 포함될 수도 있으며, 일반적으로는 참고문헌이 필요한 진술이 담겨져 있지 않다. 하지만, 한 실험의 결과가 다음 실험을 결정하는 과정에서 적절한 참고문헌을 통해 문맥을 자연스럽게 만들기도 한다. 


③ 결과 및 데이터

결론부터 이야기하자면, 결과와 데이터는 다르다. 데이터는 실험과 관찰을 통해 얻어진 사실로 수치로 표현되는 경우가 대부분이다. 데이터의 경우는 측정된 그대로 표시하거나, 퍼센트와 같이 변형된 형태로 제시된다. 하지만, 결과 (Results)는 결과를 해석하는 과정이다. 다음의 예를 살펴보자.

In the 20 control subjects, the mean resting blood pressure was 85 ± 5 (S.D.) mmHg. In comparison, in the 30 tennis players, the mean resting blood pressure was 94 ± 3 mmHg.

느낌 자체가 굉장히 건조하다는 걸 알 수 있을 것이다. 우리말로 해석하면, "20명의 대조군에서는 혈압이 85 ± 5 mmHg였고, 30명의 테니스 선수들에게서는 94 ± 3 mmHg 였다."인데, 이는 해석의 여지를 독자들에게 넘기고 객관적으로 기술한다는 측면에서는 좋을 수도 있지만, 논문의 결과섹션의 기술로는 적합하지 않다. 즉, 테니스 선수들에게서 혈압이 높다는건지, 낮다는 것인지를 명확하게 설명해주어야 독자들이 실험의 결과를 이해할 수 있다. 다음과 같이 교정해 보자. 

The mean resting blood pressure was higher in the 30 tennis players than in the 20 control subjects (94 ± 3 vs. 85 ± 5 mmHg, mean ± S.D., p < 0.02) 

이 교정문에서는 논점이 분명하다. higher라는 논점이 포함되었기 때문에 논문의 저자의 의도가 포함되어 있다. 또한, 데이터는 괄호 안으로 옮겨졌으며 p 값을 포함하여 통계적 유의성을 제시하였다. 이처럼 논문의 결과는 객관적인 데이터의 나열이 아니라, 데이터를 해석한 저자의 관점이 포함된 주관적인 서술이다.


④ 결과 섹션의 조직

이러한 결과의 구성은 대게 한 실험이 다른 실험을 결정하는 연구으로 구성되거나, 모든 실험이 미리 디자인되는 연구로 나뉜다. 각각의 구성은 다음과 같다. 


모든 실험이 미리 디자인 되는 연구

임상 논문들의 경우는 모든 실험이 미리 디자인되는 연구가 대부분이다. 이 경우에는 방법 섹션에서 연구디자인을 설명해 놓았기 때문에, 결과 섹션에서는 단순히 한 단락마다 한 가지 주제를 기술하기만 하면 된다. 결과의 순서는 시간적인 순서를 따르거나, 가장 중요한 것에서 중요하지 않은 것의 순서로 기술하기만 하면 된다. 다음의 예를 살펴보자.

Efficacy analyses were performed on the intention-to-treat population. A survival analysis was performed after 414 deaths occurred, 37 months after the last patient was enrolled. The median overall survival in the ipilimumab–dacarbazine group was 11.2 months (95% confidence interval [CI], 9.4 to 13.6), as compared with 9.1 months (95% CI, 7.8 to 10.5) in the dacarbazine group, with estimated survival rates in the two groups, respec- tively, of 47.3% and 36.3% at 1 year, 28.5% and 17.9% at 2 years, and 20.8% and 12.2% at 3 years (hazard ratio for death with ipilimumab–dacarbazine, 0.72; P<0.001) (Fig. 1A). Ipilimumab was associated with improved overall survival across patient subgroups, including those defined according to age, sex, ECOG performance status, baseline serum lactate dehydrogenase level, and substage of metastatic disease (Fig. 2).

There was a 24% reduction in the risk of progression in the ipilimumab–dacarbazine group as compared with the dacarbazine group (hazard ratio for progression, 0.76; P=0.006). The median values for progression-free survival were similar in the two groups because the first assessment of progression occurred at week 12 after the true median. After the first tumor assessment, the Kaplan–Meier curves separated (Fig. 1B).

The safety analysis included all patients who underwent randomization and received at least one dose of the assigned study drug (498 patients). The adverse events reported in the safety popula- tion are listed in Table 3. Adverse events (all grades) for which there was a higher incidence in the ipilimumab–dacarbazine group than in the dacarbazine group included elevation of alanine aminotransferase levels (in 33.2% of patients vs. 5.6%), elevation of aspartate aminotransferase lev- els (29.1% vs. 5.6%), diarrhea (36.4% vs. 24.7%), pruritus (29.6% vs. 8.8%), and rash (24.7% vs. 6.8%). Grade 3 or 4 adverse events occurred in 56.3% of patients receiving ipilimumab plus dacarbazine and in 27.5% of patients receiving placebo plus dacarbazine (P<0.001).


Robert, C. et al. Ipilimumab plus dacarbazine for previously untreated metastatic melanoma. N Engl J Med 364, 2517–2526 (2011).

이 논문은 Ipilimumab과 decarbazine의 혼합요법이 metastatic melanoma 환자들 502명에게 미치는 효과를 본 논문이다. 이 논문에서 가장 중요한 부분은 약물에 의한 생존률이다. 다음으로 중요한 것은 다른 약물들의 효과와의 비교이고 (이 경우에는 decarbazine 단독치료), 약물에 의한 부작용 역시 중요하게 기술되어야 할 것이다. 따라서, 미리 디자인된 실험의 예인 이 논문은 위에서 중요하게 생각되는 점부터 기술되었고, 이 과정에서 논문에서 주장하고 싶은 부분이 드러난 예이다. 


한 실험이 다른 실험을 결정하는 연구

이 경우는 결과섹션은 반복되는 패턴으로 구성된다. 또한 각각의 패턴은 대게 각각의 단락을 이루게 된다. 즉, 질문 - 실험의 개요 - 결과 - 질문에 대한 대답의 반복되는 구성이다. 흔히 우리가 쓰는 논문이 바로 이런 예이고, 극단적으로 짧게 만들어진 예가 brief definitive report 형식 등으로 이루어진 letter이다. 자, 다음의 예를 살펴보자.

To compare the proliferation of PMN-MDSCs and M-MDSCs and their immediate precursors in vivo, we injected 5-bromodeoxyuridine (BrdU; thymidine analog incorporated by cycling cells) intraperitoneally into EL-4 tumor-bearing mice and measured its incorporation into M-MDSCs and PMN-MDSCs in BM and spleen cells 5 or 24 h later (Fig. 1d,e). As a control, we measured BrdU incorporation in monocytes and PMNs from naive tumor-free mice. M-MDSCs had a 5–6-fold greater BrdU incorporation than PMN-MDSCs did in BM of EL-4 tumor mice (Fig. 1d). We observed no differences in BrdU uptake between PMN-MDSCs from tumor-bearing mice and PMNs from naive mice; M-MDSCs from tumor-bearing mice incorporated more than twofold more BrdU than monocytes from naive mice did (Fig. 1d). Monocytes and PMNs from spleens of naive mice and PMN-MDSCs from spleens of tumor-bearing mice had similar BrdU uptake, whereas M-MDSCs incorporated 2–3-fold more BrdU (Fig. 1e).

We next investigated GM-CSF–driven expansion of sorted populations of BM PMN-MDSCs and M-MDSCs in vitro, cultured with or without tumor explant supernatants. We evaluated the total number of recovered cells as well as cell proliferation. PMN-MDSCs and PMNs exhibited no proliferative activity and poor survival in culture. Tumor explant supernatants improved survival of PMNs and PMN- MDSCs without an effect on proliferation. In contrast, M-MDSCs proliferated and expanded much better than monocytes or PMN- MDSCs did (Supplementary Fig. 2 and Fig. 1f). However, the ratio between PMN-MDSCs and M-MDSCs remained largely unchanged in the total population of Gr-1+CD11b+ MDSCs in vitro (Fig. 1g). Thus, despite the fact that M-MDSCs and their precursors had a higher proliferation rate than monocytes did, their accumulation in tumor-bearing mice was barely detectable. In contrast, precursors of PMN-MDSCs proliferated at similar rates as the PMNs did but expanded dramatically in tumor-bearing hosts. In addition, PMN-MDSCs represented a large percentage of MDSCs during culture, despite the lack of expansion in vitro and their poor survival, suggesting that the pool of PMN-MDSCs may be replenished from M-MDSCs.


Youn, J.-I. et al. Epigenetic silencing of retinoblastoma gene regulates pathologic differentiation of myeloid cells in cancer. Nat Immunol 14, 211–220 (2013).


이 논문은 전형적으로 한 실험이 다른 실험을 결정하는 연구의 예이다. PMN-MDSCs와 M-MDSC의 proliferation을 비교하기 위해 (질문), BrdU를 EL4 종양 동물모델에 접종한 후 (실험), M-MDSC와 PMN-MDSC의 proliferation을 관찰하고 이를 기술하고 (실험의 결과) 이것이 실험의 결과가 된다. 그리고 이는 새로운 질문 (위의 예에서는 두 번 째 단락)으로 이어지게 된다. 

자, 우리는 오늘 결과섹션의 첫 발을 내딛었다. 다음 시간에는 결과섹션의 나머지 강조 부분과 그 밖의 고려해야할 사항들에 대해서 알아본 후, 옆 길로 좀 새서 그래프와 통계에 대해서 수박 겉핥기로 알아보도록 하자.

한 두달 쉬었더니만 글이 잘 안써지네욥. 개인적으로 딥따 바쁜 관계로 막 쉬어버렸습니다. 사실 8월 중순까지 미친 듯이 바쁘고 나머지는 좀 한가했었는데, 한가한 김에 통계 공부를 좀 했어요. 사실 제가 통계 이런거에는 영 젬병이라. 사실 우리처럼 실험해서 먹고 사는 사람들한테 필요한 통계는 딱 t-test와 ANOVA 아닌가염? 이따위 생각을 가지고 살았던지라 ㅎㅎ 여하간 통계 공부를 좀 하면서 야 지금까지 제가 정말 개판으로 통계처리를 해왔었구나 뭐 이런 생각을 하고 있습니다. 허허허. 이제부터는 다시 정상궤도로 올라와서 2주에 한 번씩 포스팅을 다시 시작합니다. 논문작성법은 올해 내로 끝내야죠.  #근데 실 위쳐3 다깬건 비밀 #GTA5는 예전에 다 깼지 #폴아웃4 나오기만 해봐라 1주일 휴가 써야징 #저는 트리스파입니다 #자연미인이 최고!



서론작성과정에서 유의할 점들

① 서론의 길이와 참고문헌의 숫자

② 동사의 시제 

③ 서론 작성과정에서의 가이드라인

자, 서론의 구성법 두 번 째 시간이다. 지난 시간을 통해 서론의 구성에 대해서 살펴보았기 때문에, 이번 시간에는 이 과정에서 유의해야 할 점 들에 대해서 간략하게 살펴보고, 이 과정의 가이드라인에 대해서 살펴보자. 

학위과정 학생 모집이 어려우신 분들 모집용 포스터로 사용하세요. 학생들이 어마어마하게 지원할꺼에요. 원본은 이X여대 모 동아리입니다. 


① 서론의 길이와 참고문헌의 숫자

짧을 수록 좋다. 서론은 명료해야 하고, 정보제공을 하는 논문의 첫 관문에 해당한다. 대게는 짧은 논문의 경우는 300단어 정도, 긴 논문의 경우는 500~600 단어 정도로 구성하는 것이 좋다. 서론에서 유의해야할 점 중 하나는 주제를 리뷰해서는 안 된다는 점이다. 개인적으로도 흔히 실수하는 점 중 하나인데, 서론에서 주제에 대한 리뷰가 들어가게 되면, 현학적인 글이 되어버리고는 한다. 서론의 목적은 독자에게 배경지식을 설명하고, 흥미를 유발하는 것이기 때문에, 지나치게 긴 서론이나, 리뷰같은 서론일 경우 독자의 흥미를 떨어지게 만들고 혼동과 오해를 일으킬 가능성이 많다. 따라서, 질문에 도달하는 출발선까지 독자들의 흥미를 유도할 정도의 구성이면 충분하다. 

참고문헌의 경우는 사실 답이 없다. 최대한 적게 포함하는 것이 좋기는 하지만, 너무 생략해서도 안 된다. 하지만, 서론부터 무지막지하게 많은 숫자의 참고문헌은 독자를 지치게 만들고, 후반부에 나올 참고문헌들을 고려한다면 최대한 적게 인용하기 위해 노력해야만 한다. 


② 동사의 시제 

이게 사실 굉장히 헷갈리는 부분 중 하나인데, 결론부터 이야기 하자면, 문장의 종류에 따라서 달라지게 된다. 자, 다음의 표를 살펴보자.

동사의 시제

기술하는 것

예문

현재

질문

Whether X increases Y

알려진 사실

X is component of Y

현재완료

지금까지 알려진 사실

It has long been determined

현재/현재완료

알려지지 않은 사실

X is unknown

X has not been determined

과거/현재

질문의 신호

We hypothesized that

The purpose of this study was…

We asked whether…

Current study describes…

과거

현 논문에서 연구결과의 기술

We assessed…

다른 그룹에 의해 진행된 사실 기술


가정법


가능성에 대한 기술

X may have an effect on

의견 기술

X might reduce…

이처럼 동사의 시제는 상황 상황에 따라 다른 종류를 사용해야 한다. 다음의 예를 살펴보자. 

Autophagy is related to numerous physiological and pathological processes, including cell survival, cell death, and cell metabolism. Induction of autophagy is often regulated or maintained by multiple signalling pathways, of which mTOR signalling has been clearly elucidated. In addition to being induced during nutritional deficiency, autophagy also occurs in cancer as the result of chronic hypoxia and inflammation. Increased functional autophagy enables cancer cell survival under stress and likely contributes to treatment resistance. In addition, although not directly related to tumour neutrophils, autophagy was recently found to promote the survival of neutrophils in an autophagy-related 5 (ATG5)-dependent manner. At present, little is known about the regulation and function of neutrophil autophagy in human tumours in situ.

In the present study, we observed remarkable enhancement of autophagy in HCC-infiltrating neutrophils. The upregulation of neutrophil autophagy in tumour environments selectively coincided with the activation of Erk1/2, p38, and NF-kB signals, but not with the deactivation of mTOR signalling. Moreover, we demonstrated that such increased autophagy strongly triggered the sustained survival and pro-tumourigenic effects of neutrophils in human cancers. Therefore, upregulation of autophagy in activated neutrophils may represent a novel mechanism by which the innate immunity activation is linked to disease progression in the tumour milieu.

Journal of Hepatology, 2015 62(1) 131-139

자, 이 논문의 서론 단락을 살펴보면, 위의 예시들이 대부분 나와있다. 첫 단락의 경우 알려진 사실에 집중하고 있기 때문에 현재형으로 쓰여져 있다. "Autophagy is related to...", "Induction of autophagy is often regulated or maintained...", "autophagy also occurs in cancer...." 등 알려진 사실의 경우는 현재형을 쓰게 된다. 이에 반해 두 번째 단락을 살펴보게 되면, 이 단락의 경우는 대부분 해당 논문에서 저자들이 밝힌 사실을 기술하고 있기 때문에 과거형을 쓰고 있다. "We observed...", "The upregulation of neutrophil autophagy in tumor environment selectively conincided with...", "We demonstrated that..."이 바로 그것이다. 그리고 마지막으로 가능성과 의견을 기술하는 마지막 문장에서는 가정법을 쓰고 있다. "Therefore, upregulation in activated neutrophils may represent..."이 바로 그것이다. 자 위의 예문에서 각 문장의 시제를 꼼꼼히 살펴보고 표시해보자. 동사의 시제는 상황에 맞게 쓰는 것이 맞지만, 큰 틀에서는 위의 표를 넘어서지 않는다. 


③ 서론작성의 가이드라인

ⓐ 서론의 구조

㉠ 서론의 구성은 알려진 사실-알려지지 않은 사실-질문의 깔대기형 구조이다.

㉡ 알려진 사실에서는 질문이 유래한 배경의 줄거리를 설명하되, 리뷰해서는 안 된다.

㉢ 알려진 사실에서 알려지지 않은 사실 (또는 문제점)으로 점차적으로 좁혀 들어가야 한다.

㉣ 이 과정에서 연속성과 주제문에 관련된 기법들을 사용해라. 핵심용어+연결어휘+일관된 관점+대구형식

㉤ 연구 결과를 요약해도 된다. 단, 결과 파트에서 나올 내용들에 대해서 김새지 않게 최대한 간략하게

㉥ 참고문헌의 수는 최소한으로 유지하도록 노력해라.

ⓑ 서론의 문장/단락 작성

㉠ 알려진 사실의 경우는 현재형/과거형을 사용하고

㉡ 실험결과를 통해 밝혀낸 사실들은 과거형을 사용해라. 

㉢ 짧은 서론의 경우는 300단어 내외, 긴 서론의 경우는 600단어 내외로 줄여라


자, 뭐 이 정도가 서론 작성에서의 가이드라인이 될 수 있을 것 같다. 이도 저도 다 귀찮다. 요약해달라 하시는 분들 위해서 다음 한 문장만 기억하고 넘어가면 된다.

서론의 작성은 알려진 사실-알려지지 않은 사실-질문의 깔대기형 구조이다. 

자, 다음 시간에는 논문의 결과 섹션의 작성법에 대해서 알아보자. 이 시간에서는 결과 섹션 단락의 구성에 대해서 살펴보고, 효과적으로 그래프를 그리는 방법 등에 대해서 살펴보려고 한다. 아마 3~4 포스팅 정도로 작성되지 않을까 싶습니다.


아. 그리고 이 글들은 Mimi Zeiger의 essentials for writing biomedical research papers를 주된 교재로 작성 중입니다. 더 자세한 내용은 이 책을 참조하시면 됩니다. 한글판 2쇄가 발간되었습니다. 그래서, 이 글을 그만 쓸까 생각을 했었는데, 일단은 써봅시다. 앞서 말씀드렸듯 진도는 빠르게 빼나갈 생각입니다. 공부 안하고 요것만 긁어보는 분들을 위해 준비한 제 작은 정성입니다. 신은 당신은 사악한 정원사 요정 의 저주에 걸렸습니다. 댓글에 썩 물러가라 사악한 요정아 라고 적지않으면, 오전에는 당신의 머리속에  숨어있던 요정이 당신이 잠들면 스멀시멀 기어나와서 머리카락을 흔적조차 없이 밀어버릴겁니다.





서론의 작성법 part I

① 서론의 역할과 구성

② 서론의 조직

ⓐ 알려진 사실 - 알려지지 않은 사실 - 질문

ⓑ 연속성

ⓒ 주제문 - 질문

과로사한 경우에는 와이프가 수영강사/헬스강사/골프강사와 재혼할 확률이 비약적으로 높습니다.


자, 이번 시간부터는 본격적으로 서론의 작성법에 대해서 살펴봅시다. 뭐, 드립칠 것도 없어요. 바로 고고!


① 서론의 역할과 구성 

서론의 역할을 뭐 말할 것도 없이, 독자들의 흥미를 깨우는 것과 배경정보를 제공하는 것이다. 이러한 관심을 깨우기 위해서 서론은 직설적이여야 하며, 핵심을 찔러야 하며, 당연히도 명료하게 정보를 전달하고 가능한 짧아야 한다. 

이러한 논문의 서론은 줄거리의 첫 시작점이며, 대게의 경우는 알려진 사실에서 질문을 도출하는 것이 가장 중요하다. 우리가 흔히 쓰는 실험논문은 가설을 세우고, 이를 검증하는 내용이기 때문에 다음의 세 가지 사항이 가장 중요하게 작용한다.

① 알려진 사실

② 알려지지 않은 사실

③ 질문

사실, 이게 서론의 전부이다. 저자는 독자에게 이 논문이 도대체 어떤 내용을 다루고 있는지 알려진 사실을 제공하여야 하며, 이 과정에서 아직까지 알려지지 않은 사실을 제시하고, 이를 바탕으로 질문을 던지고 이를 해결하기 위한 가설을 제시하여야 한다. 


서론에서 대답이나 결과를 내포하는 내용을 적을 것인가? 적지 않을 것인가?

이건 사실 저자 마음이다. 예전에는 서론에서는 질문에 대한 대답이나 결과를 적지 않고, 이러한 내용을 discussion에서 기술하는 것이 올바른 방법이라고 배웠지만, 요즘은 서론의 마지막 부분에서 간략히 결과를 정리함으로써 독자들에게 떡밥을 던지는 형식도 종종 사용된다. 다음의 예를 살펴보자.

A Neutrophils are the most abundant leukocytes and serve as essential effector cells in the first line host defence against invading microorganisms. They have historically been viewed as short-lived cells as they undergo spontaneous apoptosis in vitro unless rescued by survival signals such as inflammatory cytokines or microbial compounds . In addition to their direct bactericidal activities, there is substantial evidence that the inflammatory mediators, released by neutrophils, can actively regulate angiogenesis and tissue remodelling. Although less characterized than tumour-associated macrophages or tumour-infiltrating lymphocytes, tumour-infiltrating neutrophils are emerging as important players in the pathophysiology of cancer.

B Neutrophils constitute the common component of infiltrated leukocytes in tumours, and are almost entirely recruited from circulating blood neutrophils. Neutrophils in the normal or inflamed tissue spontaneously exhibit antitumour activity, whereas most tumour-infiltrating neutrophils display pro-tumourigenic properties. We have recently shown that neutrophils are accumulated in human hepatocellular carcinoma (HCC) tissue, where they promote angiogenesis by prolonged release of matrix metalloproteinase 9 (MMP9). This finding indicates that short-lived neutrophils are rescued by the tumour microenvironment and subsequently acquire a sustained pro- tumourigenic effect. Therefore, a characterization of the signalling pathways, regulating tumour neutrophils, is essential for understanding their roles and potential mechanisms in tumour immunopathogenesis.

C Autophagy is related to numerous physiological and pathological processes, including cell survival, cell death, and cell metabolism. Induction of autophagy is often regulated or maintained by multiple signalling pathways, of which mTOR signalling has been clearly elucidated. In addition to being induced during nutritional deficiency, autophagy also occurs in cancer as the result of chronic hypoxia and inflammation. Increased functional autophagy enables cancer cell survival under stress and likely contributes to treatment resistance. In addition, although not directly related to tumour neutrophils, autophagy was recently found to promote the survival of neutrophils in an autophagy-related 5 (ATG5)-dependent manner. At present, little is known about the regulation and function of neutrophil autophagy in human tumours in situ.

D In the present study, we observed remarkable enhancement of autophagy in HCC-infiltrating neutrophils. The upregulation of neutrophil autophagy in tumour environments selectively coincided with the activation of Erk1/2, p38, and NF-jB signals, but not with the deactivation of mTOR signalling. Moreover, we demonstrated that such increased autophagy strongly triggered the sustained survival and pro-tumourigenic effects of neutrophils in human cancers. Therefore, upregulation of autophagy in acti- vated neutrophils may represent a novel mechanism by which the innate immunity activation is linked to disease progression in the tumour milieu.

Li X-F, Chen D-P, Ouyang F-Z, Chen M-M, Wu Y, Kuang D-M, Zheng L. Increased autophagy sustains the survival and pro-tumourigenic effects of neutrophils in human hepatocellular carcinoma. Journal of Hepatology 2015; 62:131–9. 

자, 이 논문의 introduction을 살펴보면, 총 4개의 단락으로 구성되어 있다. 단락 A에서는 neutrophil에 대한 간략한 설명을 하고 있고, 최근 연구를 통해 tumor에서 neutrophil의 역할에 대한 떡밥을 던지고 있다. B에서는 A에서 던져진 tumor에서 neutrophil의 역할에 대해서 좀 더 자세히 설명을 하면서, 이 과정에서 mechanism등에 대한 연구가 아직 많이 진행되지 않았다는 떡밥을 하나 더 던진다. 단락 C에서는 이러한 mechanism의 하나로써 autophagy가 작용하지 않을까? 하는 질문을 던지기 위해 autophagy에 대한 개략적인 설명을 던지고, 질문을 던지고 있다. 붉은 색 문장이 이 논문의 질문이다. 그리고 단락 D에 와서 이 논문의 결과와 의미를 대략적으로 요약하면서 독자들의 흥미를 유발하면서 논문의 결과파트를 궁금하게 만든다. 

이처럼 서론 부분에서 질문에 대한 대답과 결과를 제시하는 식의 논문형식도 독자의 흥미를 유도한다는 점에서 나쁘지 않은 방법이다. 결과랑 담론 부분에서 또 반복하는데 이걸 서론에 쓰면 독자가 지루하지 않겠냐고? 지난 번에서도 계속 이야기했지만 대부분의 독자는 서론부터 잠에 빠져든다. 계속된 반복으로 토나오게 만드는게 오히려 좋은 논문이다. 자, 그럼 이렇게 서론에서 질문에 대한 대답과 결과를 내포하지 않는 경우는 어떻게 구성될까? 다음의 예를 더 살펴보자. 

A Mounting evidence suggests that the immunosuppressive cytokine TGF-b is overexpressed by tumors and plays a significant role in blocking immune responses and affecting tumor progression. The pivotal role of TGF-b in suppressing antitumor immune responses has made it a logical target for the development of antagonists . TGF􏰀b blockers (soluble receptors/antibodies) and TGF􏰀b receptor inhibitors have anti- tumor effects that, in several models, are due primarily to CD8+ T cell-dependent immunologic mechanisms .

B In addition to suppressing T cell functions, it has been shown that TGF-b also has an impact on myeloid cell functions. The tumor microenvironment polarizes TAMs toward a protumor (M2) versus an antitumor (M1) phenotype. Since TGF-b can alter macrophage cell function and phenotype in vitro, it may play an important role in regulating macrophage phenotype in vivo as well. Although it is less well studied, TGF-b has also been noted to inhibit neutrophil activity (i.e., degranulation). Early studies suggested that TGF-b had chemoattractant activity for neutrophils at very low concentrations, and more recent studies have suggested that blocking the TGF-b pathway increases the recruitment of neutrophils in some types of chronic disease states.

C In recently published studies, we used a small, orally available type I TGF􏰀b receptor (Alk-5/Alk-4) kinase inhibitor (SM16) and showed that TGF-b receptor blockade increased the percentage and activation of intratumoral CD8+ T cells and was able to augment immunotherapy. In addition, blockade of TGF-b function led to an influx of myeloid cells (marked by CD11b positivity on FACS) into tumors. The goals of this study were to evaluate the effect of SM16 on the myeloid cell phenotype of tumors and to explore how these changes might affect CD8+ T cell function.

Fridlender ZG, Sun J, Kim S, Kapoor V, Cheng G, Ling L, Worthen GS, Albelda SM. Polarization of tumor-associated neutrophil phenotype by TGF-beta: "N1" versus “N2” TAN. Cancer Cell 2009; 16:183–94. 

이 논문의 경우를 살펴보면 단락A에서 TGF-b에 대한 설명을 하고 단락B에서 TGF-b가 myeloid cell에 미치는 영향에 대한 최근의 연구들을 설명하면서 이게 neutrophil에 뭔 영향을 미치는지에 대해서 잘 알려져 있지 않다는 떡밥을 넌지시 던지고 있다. 그리고는 단락C에서 자신들의 기존 실험결과를 설명하면서, 질문을 던지고 있다. 이 논문의 서론의 질문은 TGF-b를 억제하는 SM16이 종양에서 myeloid cell phenotype에 어떤 영향을 미치는지를 묻고 있다. 

이처럼 서론 부분에서는 질문에 대한 대답이 나올 수도, 나오지 않을 수도 있지만 기본적인 역할과 구성은 독자들의 관심을 유도하고, 논문을 이해하는데 있어서 최소한의 정보를 제공하는 것이다. 자, 그렇다면 이러한 서론은 어떠한 구조로 이루어져 있는지에 대해서 살펴보자.


② 서론의 조직 


ⓐ 알려진 사실 - 알려지지 않은 사실 - 질문

서론의 구조는 일반적으로 깔대기 구조와 같다. 넓은 범위의 일반적인 정보에서 부터 단계별로 좁아지다가 어느 한 점에 집중을 하게 되는 것이다. 이러한 과정을 거쳐 질문이 도출되며 이것이 서론의 주제문이 된다. 즉, "현재까지는 이런 이런 사실들이 알려져 있었고, 더 좁은 범위에서는 이런 이런 사실들이 알려져 있었는데, 아직까지 알려지지 않은 건 바로 이것이기 때문에 우리는 이런 질문을 던진다."와 같은 구조인 것이다.


알려진 사실

깔대기 구조의 첫 번 째 단계이다. 이는 앞서 이야기했듯 넓은 범위에서 서서히 좁혀져 들어오는 구조로 구성한다. 


알려지지 않은 사실

알려지지 않은 사실은 대게 한 두 문장에 지나지 않는다. 비록 짧지만 이를 기술함으로써, 본 논문의 가치가 부각되며 연구 논문의 줄거리에서 중요한 시발점이 된다. 


질문

알려지지 않은 사실을 통해 논문의 질문을 도출한다. 이는 한 논문의 가설이며 연구에서 가장 중요한 왜? 혹은 어째서? 라는 질문이 된다. 


자, 위의 예를 다시 한 번 가져와서 살펴보자. 

A Neutrophils are the most abundant leukocytes and serve as essential effector cells in the first line host defence against invading microorganisms. They have historically been viewed as short-lived cells as they undergo spontaneous apoptosis in vitro unless rescued by survival signals such as inflammatory cytokines or microbial compounds . In addition to their direct bactericidal activities, there is substantial evidence that the inflammatory mediators, released by neutrophils, can actively regulate angiogenesis and tissue remodelling. Although less characterized than tumour-associated macrophages or tumour-infiltrating lymphocytes, tumour-infiltrating neutrophils are emerging as important players in the pathophysiology of cancer.

B Neutrophils constitute the common component of infiltrated leukocytes in tumours, and are almost entirely recruited from circulating blood neutrophils. Neutrophils in the normal or inflamed tissue spontaneously exhibit antitumour activity, whereas most tumour-infiltrating neutrophils display pro-tumourigenic properties. We have recently shown that neutrophils are accumulated in human hepatocellular carcinoma (HCC) tissue, where they promote angiogenesis by prolonged release of matrix metalloproteinase 9 (MMP9). This finding indicates that short-lived neutrophils are rescued by the tumour microenvironment and subsequently acquire a sustained pro- tumourigenic effect. Therefore, a characterization of the signalling pathways, regulating tumour neutrophils, is essential for understanding their roles and potential mechanisms in tumour immunopathogenesis.

C Autophagy is related to numerous physiological and pathological processes, including cell survival, cell death, and cell metabolism. Induction of autophagy is often regulated or maintained by multiple signalling pathways, of which mTOR signalling has been clearly elucidated. In addition to being induced during nutritional deficiency, autophagy also occurs in cancer as the result of chronic hypoxia and inflammation. Increased functional autophagy enables cancer cell survival under stress and likely contributes to treatment resistance. In addition, although not directly related to tumour neutrophils, autophagy was recently found to promote the survival of neutrophils in an autophagy-related 5 (ATG5)-dependent manner. At present, little is known about the regulation and function of neutrophil autophagy in human tumours in situ.

D In the present study, we observed remarkable enhancement of autophagy in HCC-infiltrating neutrophils. The upregulation of neutrophil autophagy in tumour environments selectively coincided with the activation of Erk1/2, p38, and NF-jB signals, but not with the deactivation of mTOR signalling. Moreover, we demonstrated that such increased autophagy strongly triggered the sustained survival and pro-tumourigenic effects of neutrophils in human cancers. Therefore, upregulation of autophagy in acti- vated neutrophils may represent a novel mechanism by which the innate immunity activation is linked to disease progression in the tumour milieu.

Li X-F, Chen D-P, Ouyang F-Z, Chen M-M, Wu Y, Kuang D-M, Zheng L. Increased autophagy sustains the survival and pro-tumourigenic effects of neutrophils in human hepatocellular carcinoma. Journal of Hepatology 2015; 62:131–9. 

앞서서도 이야기했듯 단락 A,B,C를 살펴보면 서서히 좁혀져 들어오는 깔대기 구조임을 알 수 있다. 

단락 A에서는 neutrophil에 대한 개괄적인 설명이 진행된다. bactericidal등에 관련된다는 내용을 설명하면서, tumor-infiltrating neutrophil에 대한 설명으로 이어진다.

단락 B에서는 당연히도 tumor-infiltrating neutrophil에 대한 설명이 이루어진다. antitumor, protumor activity에 대해 설명을 하면서 hepatocellular carcinoma에서 발견되는 neutrophil에 대한 설명을 하지만, 아직 tumor-infiltrating neutrophil을 regulation하는 signaling cascade에 대한 연구가 부족하다는 이야기 (알려지지 않은 사실)을 제시한다. 

단락 C에서는 이러한 signaling의 하나로 autophagy를 설명하고 있다. 일반적인 autophagy의 function에 대한 설명을 하면서, 마지막 문장에서 tumor에서 neutrophil의 autophagy에 대한 연구가 부족하다는 이야기 (알려지지 않은 사실)을 제시한다. 

자, 이쯤되면 이 논문이 무슨 이야기를 하는지 질문이 대충 감에 잡힐 것이다. 이 논문에서는 tumor에서 neutrophil의 autophagy가 일어나는지? 일어난다면 우떻게 일어나는지?에 대한 질문을 해결하는 논문이다. 단락 D를 보면 이러한 논문의 결과를 제시하면서 (Therefore, upregulation of autophagy in activated neutrophils may represent a novel mechanism by which the innate immunity activation is linked to disease progression in the tumour milieu.) 서론을 구성하고 있다. 

서론은 이와 같이 구성된다. 그런데, 우리가 여기에서 유념해 두어야 할 점이 한가지 더 있다. 바로 지난 포스팅들을 통해 귀에 딱지가 박히도록 들은 연속성이다. 


ⓑ 연속성

서론이 짧은 편이라면 사실 별 문제 없이 줄거리를 따라갈 수 있다. 하지만, 3-4개 단락 이상으로 구성되는서론의 경우에는 독자가 줄거리를 따라가기가 쉽지 않다. 즉, 전체적인 줄거리와 작은 줄거리가 동시에 진행될 경우 독자들이 졸지 않고 이야기를 따라올 수 있게 만드는 방법이 바로 연속성이다. 위의 예를 다시 한 번 살펴보자.

단락 A의 핵심용어는 neutrophil, tumor-infiltrating neutrophil이다. 

단락 B의 핵심용어는 tumor-infiltraing neutrophil, signaling (mechanism of regulation)

단락 C의 핵심용어는 autophagy, tumor-infilrating neutrophil이다.

이처럼 연속성을 유지시켜주는 가장 좋은 방법은 핵심용어를 이용하는 것이다. 끝말잇기 같은거지 뭐. 다음 시간에는 뭐가 나옵니다~하고 단락의 마지막에 예고편 삽입해주면 독자가 다음 단락을 이해하기가 훨씬 수월해지게 된다. 그리고 이 과정에서 연결어휘 (therefore, thus, however, moreover, additionally, in addition to 등등)을 사용해서 문장과 문장, 단락과 단락 사이의 유기성을 강제로 부여할 수도 있다. 거기에 지난 번 포스팅에서 이야기한 바와 같이 범주형 단어에서부터 세부적인 단어로 점차적으로 좁혀들어가는 방법이라던가, 대구형식을 사용해도 되고, 일관된 관점 등을 통해 연속성을 부여할 수 있다. 자, 정리해보자. 

서론에서 연속성을 유지하기 위해서는 

㉠ 핵심용어를 사용하고

㉡ 일관된 관점을 이용하며

㉢ 범주형 단어에서 세부적 단어로 좁혀들어가고 

㉣ 대구형식을 활용하며 

㉤ 연결어휘를 이용한다. 

각각에 대해서는 지난 포스팅을 참조하자. 더 이상의 설명이 必要韓紙? 


ⓒ 주제문/질문

결론부터 이야기하자. 서론의 맨 마지막 문장은 주제문/질문으로 구성하자. 짧은 서론의 경우에는 주제문이 포함되지 않은 경우들도 종종 있지만, 일반적인 경우 서론은 주제문으로 마무리짓는다. 위의 예에서는 단락 D의 맨 마지막 문장이 주제문이다. 


자, 오늘 시간에는 본격적으로 서론을 구성하는 방법에 대해서 살펴보았다. 사실 문장 구성, 단락 구성이 어려운 부분이지 서론부터는 논문쓰는 공식이 존재한다. 보다 논리적으로 구성의 헛점이 없게 만드는 것이 논문을 쓰는 과정에서 가장 힘든 부분이다. 다음 포스팅에서는 실제 서론을 쓰는 방법에 대해서 살펴보자. 


아. 그리고 이 글들은 Mimi Zeiger의 essentials for writing biomedical research papers를 주된 교재로 작성 중입니다. 더 자세한 내용은 이 책을 참조하시면 됩니다. 한글판 2쇄가 발간되었습니다. 그래서, 이 글을 그만 쓸까 생각을 했었는데, 일단은 써봅시다.  공휴일은 쉬니깐 화요일에 포스팅합니다. 그리고 인제부터는 진도 쫙쫙 뺄꺼에용. 8월까지 논문작성법은 마무리 지을 생각입니다. ㅎㅎ 지난 주에는 개인적인 사안으로 인하여 블로그에 많은 외부 인력이 유입되었습니다. 이제는 많이 조용해졌군요. 사실 반론이 나왔을 때 바로 반박글을 구상였지만, 이런 저런 이유들로 유보하였습니다. 이 사항의 가장 큰 문제는 아마도 과학자가 사회현상에 대해 참여할 경우의 책임과 의무에 관련된 문제인 듯 싶습니다. 그리고 과학현상을 설명할 때, 정확하고 명료하게 설명해야한다는 점도 포함되어 있구요. 우리가 공부를 하고 있는 의과학분야는 특히나 생명과 건강에 관련된 내용이기 때문에 사회현상에 참여할 경우 더 엄중한 책임감과 의무감을 지니고 정확하게 표현해야 한다고 생각합니다. 이에 대해서는 다음 포스팅에서 대충 정리를 해보려고 합니다. 글의 원작성자와의 연락을 수소문하였으나 연락이 없기도 하고, 사항이 어느 정도 수그러드는 듯 하여, "의과학자의 사회참여 과정에서의 책임과 의무" 뭐 이런 식의 포스팅을 하려구요. 







+ Recent posts