안녕하세요 :)
이번 포스팅은 샘플링 전략(Sampling Strategy)에 대해 알아보려고 합니다. 실무에서 한정된 데이터를 갖고 모델의 성능을 검증하고자 할 때, 데이터의 대표성을 확보하는 일은 매우 중요합니다. 어떻게 데이터를 선택(추출)해서 검증했는지에 따라 신뢰를 얻을 수도, 한순간에 신뢰를 잃을 수도 있기 때문입니다. 이 때 데이터에서 샘플을 적절하게 추출하는 방법에 관한 수립 전략을 샘플링 전략이라고 합니다.
표본 조사
샘플링 전략은 표본 조사라고 하는 통계 분석에서 활용됩니다. 먼저 표본 조사가 무엇인지 아래의 사례를 통해 알아보겠습니다.
어떤 과학자가 "우리나라 대기 중에 떠다니는 미세먼지의 평균 농도가 얼마나 되는지"를 주제로 연구를 한다고 가정 하겠습니다.
이번 연구의 정확한 정답을 얻기 위해서는 우리나라 상공의 모든 공기를 하나도 빠짐없이 수집해서 미세먼지 농도를 측정해야 합니다. 하지만 현실적으로 이러한 방법은 불가능합니다. 우리나라 상공의 공기를 모두 수집할 수도 없을뿐더러, 바람이 불어 공기가 이동하면 측정해야 하는 공기도 바뀌기 때문입니다.
그래서 과학자는 다음과 같은 고안책을 냅니다. 먼저 우리나라 여러 지역에 100 곳을 골고루 선정합니다. 그리고 100 곳의 미세먼지 농도를 측정해서 평균값을 구합니다.
위 사례에서 "우리나라 상공의 모든 공기의 미세먼지 농도를 측정"하는 행위를 센서스(Census)라고 합니다. 정의를 살펴보면, 센서스는 모집단 전체에 대한 조사를 일컫습니다. 센서스는 마치 정확한 결과를 얻을 수 있는 것처럼 보이지만, 아래와 같은 문제점이 있습니다.
- 센서스에 잡히지 않는 대상이 있음 → 위 예시 中 "우리나라 상공의 모든 공기를 수집할 수 없음"
- 센서스의 대상인 모집단은 변할 수 있기 때문에 센서스 수행 기간을 고려하면 완벽하게 모든 대상을 조사하는 것이 불가능 함 → 위 예시 中 "바람이 불어 공기가 이동하면 측정하는 공기가 바뀜"
이처럼 센서스가 현실적으로 불가능한 경우, 모집단에서 일부 샘플을 추출하여 조사하는 표본 조사를 수행합니다. 표본 조사는 모집단의 대표성을 위한 표본의 샘플링이 가정되며, 일반적으로 임의 추출(Random Sampling)을 사용하지만 조사 및 연구 목적에 따라 적절한 샘플링 전략을 활용해야 합니다.
샘플링 전략
- 임의 추출(Simple Random Sampling) : 모집단에서 랜덤하게 샘플을 추출
- 층화 추출(Stratified Sampling) : 비슷한 관측치로 이루어진 Strata (Stratum의 복수형)를 생성하고, 각 Stratum에서 동일한 수만큼 랜덤하게 샘플을 추출
- 군집 표본(Clustering Sample) : 군집을 랜덤하게 선택해, 선택된 군집의 모든 샘플을 추출
- 다단계 표본(Multistage Sample) : 군집을 랜덤하게 선택해, 선택된 군집 안에서 다시 랜덤하게 샘플을 추출
샘플링 편차 : Literary Digest Poll
만약 연구 목적에 적절하지 못한 샘플링을 한다면 어떤 문제가 있을까요? 적절하지 않은 샘플링 전략의 결과를 실제로 보여준 역사적 사례가 있습니다. 바로 "〈The Literary Digest〉의 1936년 미국 대통령 선거 설문조사", 일명 "Literary Digest Poll" 입니다.
1936년 11월 3일에 치뤄지는 미국 대통령 선거를 앞두고, 공화당 후보 앨프 랜던(Alfred Mossman Landon)과 민주당 후보 프랭클린 루즈벨트(Franklin Delano Roosevelt)가 후보로 나섰습니다. 요즘도 선거철이 다가오면 여러 리서치 기관에서 대통령 당선과 관련한 설문조사를 진행하듯, 당시 미국에서도 대통령 후보인 랜던과 루즈벨트의 대통령 당선 가능성을 점치기 위한 여러 설문조사가 진행됐습니다. 그 중 〈The Literary Digest〉라는 미국의 주간지에서도 1936년 대선 결과를 예측하기 위해 대규모 설문조사를 진행했습니다. 〈The Literary Digest〉는 계획상 약 1,000만 명을 대상으로 설문조사를 진행하고자 했으나, 최종적으로는 약 240만 명에게만 답변을 받을 수 있었습니다.
<The Literary Digest〉는 설문조사 결과에 따라 공화당 후보인 앨프 랜던이 대통령으로 당선될 것이라 예측하였고, 설문조사 결과를 〈The Literary Digest〉 주간지에도 발표하며 미국 대중들에게 알려졌습니다. 그 후 1936년 11월 3일 미국 대통령 선거가 치뤄졌고, 실제 결과는 <The Literary Digest〉의 예측과 다르게 민주당 후보 루즈벨트가 60.8%의 큰 득표하며 랜던과 큰 격차로 승리했습니다(루즈벨트 60.8% vs. 랜던 36.5%). 이 영향으로 〈The Literary Digest〉의 이미지에 흠이 가게 되고, 이후 1938년 〈The Literary Digest〉는 폐간됩니다.
〈The Literary Digest〉에서 진행했던 설문조사에는 어떤 문제가 있었던 걸까요? 두 가지를 꼽을 수 있습니다.
첫 번째는 기존 조사 대상이었던 1,000만 명 중 설문조사에 응답하지 않았던 대상이 약 760만 명에 달했다는 점 입니다. 전체 조사 대상 중 오직 24%만이 설문조사에 응답했습니다.1936년 미국 대통령 선거 당시 민주당 후보인 루즈벨트는 1932년부터 미국의 대통령으로 재임 중이었습니다. 연임을 위해 다시 출마를 한 것이었죠. 이후 연구 자료들에 따르면, 루즈벨트 대통령을 반대하는 입장을 가진 공화당 지지자들이 당시 현 정치에 반하는 감정을 적극적으로 표출하기 위하여 설문조사에 응했을 것으로 보고 있습니다. 반대로, 민주당 지지 세력은 번거로울 수 있는 설문조사 응답에 적극적이지 않았다고 볼 수 있습니다.
두 번째는 설문조사의 대상이 주간지 독자, 자동차 소유자, 전화번호 소유자에 한정되었다는 점입니다. 이 시기는 1929년부터 1939년까지 지속됐던 경제 대공황으로 경제적 어려움이 있었던 시기였던만큼 자동차나 휴대전화를 가진 사람들은 상대적으로 고소득층에 속했습니다. 그리고 당시 고소득층은 대체로 공화당 후보를 지지하는 경향이 있었습니다. 즉, 〈The Literary Digest〉의 설문조사에 응답한 240만 명은 공화당 후보인 랜던을 지지하는 고소득층일 가능성이 높았고, 이러한 편향은 그대로 설문조사 결과에 반영되었습니다.
※ 최근 연구들에서는 두 번째 원인에 의문을 제기하기도 합니다. 참고 부탁드립니다.
위 〈The Literary Digest〉의 사례는 적절하지 않은 샘플링 전략의 수립으로 샘플링 편차가 발생한 예시입니다. 샘플링 전략 방법에 대해 숙지하여, 좋은 데이터로부터 신뢰할 수 있는 연구 결과를 얻을 수 있도록 해야겠습니다.
감사합니다 :)
'과학 > 통계' 카테고리의 다른 글
9-2. 독립동일분포(표본평균의 분포) (0) | 2020.10.06 |
---|---|
9-1. 독립동일분포(독립성, 합의 분포) (0) | 2020.09.15 |
6. 이산형 확률분포 (0) | 2020.08.14 |
1. 데이터 (0) | 2020.07.29 |