p-value만 보면 눈에 피터지는 당신을 위해
기초적인 의학통계 학습 가이드
OR, RR, p-value, chi-square, t-test만 보면 속이 울렁거린다. 학년이 올라갈수록 많은 통계 자료들을 접하지만 아직도 표본 수 계산은 어렵고 t-test는 헷갈리기만 한 존재다. 선배들은 가끔 지나가며 통계는 지금 알아두면 중요하다고 이야기하지만, 어디서부터 시작해야 할지 막막하다.
예과 때 배운 것 같긴 한데, 또는 의전 준비하면서 배웠던 것 같긴 한데 아직도 감이 잘 오지 않는다면 이번 기회에 기본적인 통계를 배워 보는 건 어떨까. 기본적인 통계 지식만 있어도 논문을 읽는 데 도움이 되고, 가끔 해야 하는 성가신 조별 과제에서도 당신의 능력이 빛을 발할 것이다. 이 글에서는 방대한 통계학적 지식을 설명하는 대신, 당장 눈앞에 닥친 문제를 해결할 수 있는 방법 위주로 다룰 것이다.
엑셀, 평균만 구하라고 있는 프로그램이 아니다
통계를 돌리려고 하면 거창한 프로그램부터 생각하기 쉽다. SPSS니 SAS니 R이니 하는 이름도 생소한 프로그램들은 생각만 해도 두렵다. 물론 이런 프로그램들을 잘 사용할 수 있으면 더할 나위 없이 좋겠지만, 빠듯한 시간에 통계 수치 몇 개 내자고 이 프로그램을 배우기에는 너무 기회 비용이 큰 것 같다.
사실 조별 과제나 간단한 수준의 통계는 엑셀로도 충분히 가능하다. 엑셀에서는 t-test를 비롯한 몇 가지 기본적인 통계 툴을 제공하고 있다. 조별 과제에서 통계가 필요하다고 할 때 엑셀에 있는 기본 통계 툴을 가지고도 필요한 값을 구할 수 있다.
엑셀에서 통계 툴을 사용하려면 다음의 과정대로 하면 된다. 메뉴에서 [파일] → [옵션] → [추가 기능] → [이동]을 누르면 추가 기능을 삽입할 수 있게 되는데, 거기서 [분석 도구]를 클릭하면 엑셀에서 제공하는 통계 툴을 사용할 수 있다. 그러면 화면의 [데이터] 탭의 맨 끝에 [데이터 분석]이라는 기능이 추가된다. 이 기능을 사용하면 간단한 통계 처리가 가능하다. 데이터 분석에서 제공하는 통계들은 <분산 분석(ANOVA)>, <상관 분석>, <히스토그램>, <회귀 분석>, <t-검정> 등으로 간단한 설문 조사 데이터 처리나 실험 데이터 분석을 할 때 유용하게 사용할 수 있다.
조금 더 능숙한 통계를 사용하려면 SPSS나 SAS 또는 R을 배워 보자
통계 공부를 좀 더 할 의향이 있다면 엑셀만으로는 부족할 것이다. 이 경우 엑셀이 아닌 통계 프로그램을 하나 공부하는 것이 좋은데, 많이 사용하는 프로그램으로는 SPSS와 R, SAS가 있다. SPSS와 SAS는 유료 프로그램이고, R은 무료 프로그램이다.
SPSS는 처음 배울 때 가장 쉽게 접근할 수 있다는 장점이 있다. 자주 쓰는 통계들을 화면을 보면서 클릭해 가는 방식으로 처리할 수 있기 때문에 가벼운 통계를 돌릴 때에는 SPSS를 많이 쓰고 있으며, 실제로 많은 대학교에서 SPSS를 이용하여 통계학 실습을 하기도 한다. 많은 대학교에서 SPSS 라이센스를 구입해 두고 있기 때문에 학교 전산실에서 실습을 하면서 배울 수 있을 것이다.
SAS 역시 유료 프로그램으로 상당히 많은 종류의 통계 패키지를 제공하는 것이 특징이다. 우리나라에서 통계를 전문적으로 하는 경우에는 대개 SAS를 많이 사용한다고 한다. 그러나 SAS는 상당히 무거운 프로그램으로, 설치 용량이 수 기가바이트에 달하며 통계를 전문적으로 하는 사람이 아니면 활용하기 힘든 기능들이 많기 때문에 통계를 깊이 공부할 경우에 추천하는 프로그램이다. 또한 SAS는 상당히 고가의 소프트웨어로 대학교에서 라이센스를 확보해두지 않은 경우도 많아서 접근성이 좋지는 않다.
R은 오픈소스로 구성된 무료 프로그램이라는 것이 위의 두 프로그램과 구별되는 점이다. 오픈소스라는 특징 덕에 점점 더 많은 사람들이 사용하고 있고 유용한 도구들이 많이 공개되어 있어서 필요한 기능을 쉽게 확장할 수 있다는 장점도 있다. 한 때 SAS가 주도권을 잡았던 통계 소프트웨어 시장에 R이 침투하면서 서로 경쟁하는 구도가 되고 있다. R은 코딩을 하는 식으로 통계를 작업하여 프로그래밍을 했던 사람이라면 비교적 익숙한 것이 특징이고, 논문에 사용할 그래픽 작업을 할 때 유용한 툴들이 많이 공유되고 있어 통계를 깊이 공부하고자 하는 사람이라면 R을 공부하는 것을 추천한다.
통계 책은 실용적인 것으로
하지만 이런 프로그램들을 사용하려면 기본적인 통계 지식들이 필요하다. 의학 통계는 다른 학과에서 사용하는 통계와 성격이 많이 다른 편이므로, 기본적인 통계학을 공부하기보다는 의학 통계를 중점적으로 다룬 책을 통해서 학습하는 것이 유리하다. 의학에서 통계의 중요성이 점점 커짐에 따라서 의사들이 저술한 의학 통계 서적이 많으므로 그 중에서 고르는 것이 좋다.
의학통계에 대한 지식이 거의 없다면 <닥터 배의 술술 보건의학통계> (배정민 저, 한나래, 2012)를 추천한다. 이 책은 통계 이론을 글로 풀어서 설명하기보다는 직관적으로 그림으로 풀어 설명하고 있어 바로바로 필요한 통계를 찾을 수 있다. 또한 많이 사용하는 SPSS를 예제로 하고 있고, SAS와 R 코드도 제공하고 있어 의학통계에 익숙지 않은 학생이라도 비교적 무난하게 학습할 수 있다는 장점이 있다.
통계학 지식이 약간 있고 R로 통계를 공부하고자 한다면 <R을 이용한 누구나 하는 통계분석> (안재형 저, 한나래, 2011)도 괜찮은 도서가 될 수 있다. R은 코드를 입력하여 통계 처리를 하는 프로그램으로 쉬운 예제 코딩들을 직접 해 가면서 배우는 것이 효율적인데 이 책은 R을 처음 접하는 사람이라도 비교적 쉽게 따라갈 수 있도록 책이 구성되어 있다. 다만 통계학 기초에 대한 설명은 많이 생략되어 있으므로 어느 정도 기초적인 통계학 지식을 갖추고 접근하는 것이 좋다.
페이스북을 한다면 <통계마당> 커뮤니티에 가입해 보는 것도 좋다. 이곳에는 통계에 관심이 많은 사람들이 많이 모여 있어 질문을 하거나 간단한 통계 강의도 접할 수 있다. 통계를 전공하는 사람도 많고 의학 전공자들도 많아서 커뮤니티에 가입을 해 두면 꽤 유용한 정보를 많이 접할 수도 있을 것이다. <통계마당> 웹 사이트 주소는 http://www.statground.org로 여기서도 유용한 자료를 많이 접할 수 있을 것이다.
허기영 기자/서울
<zealot648@e-mednews.org>
'105호 > 의대의대생' 카테고리의 다른 글
당신만 알아야 할 금단의 치트키 (0) | 2015.06.18 |
---|---|
프랑스 정신과에서의 한달 (0) | 2015.06.18 |