통계 5

샘플링 전략 (Sampling Strategy)

안녕하세요 :) 이번 포스팅은 샘플링 전략(Sampling Strategy)에 대해 알아보려고 합니다. 실무에서 한정된 데이터를 갖고 모델의 성능을 검증하고자 할 때, 데이터의 대표성을 확보하는 일은 매우 중요합니다. 어떻게 데이터를 선택(추출)해서 검증했는지에 따라 신뢰를 얻을 수도, 한순간에 신뢰를 잃을 수도 있기 때문입니다. 이 때 데이터에서 샘플을 적절하게 추출하는 방법에 관한 수립 전략을 샘플링 전략이라고 합니다. 표본 조사 샘플링 전략은 표본 조사라고 하는 통계 분석에서 활용됩니다. 먼저 표본 조사가 무엇인지 아래의 사례를 통해 알아보겠습니다. 어떤 과학자가 "우리나라 대기 중에 떠다니는 미세먼지의 평균 농도가 얼마나 되는지"를 주제로 연구를 한다고 가정 하겠습니다. 이번 연구의 정확한 정답을..

과학/통계 2023.01.30

9-2. 독립동일분포(표본평균의 분포)

표본평균의 분포란? 서로 독립이고 동일한 확률분포를 따르는 확률변수 $X_1, X_2, ..., X_n$의 표본평균 $\bar{X}$이 따르는 분포. 이 분포는 모평균의 구간추정이나 모평균의 검정에서 사용. 표본평균의 기댓값과 분산 확률변수 $X_1, X_2, ..., X_n$이 기댓값이 $\mu$, 분산이 ${\sigma}^2$인 확률 분포를 따를 때, $$E(\bar{X})=\mu$$ $$V(\bar{X})=\frac{{\sigma}^2}{n}$$ 표본평균의 분포 원래 분포가 뭐였든 간에(정규 분포, 포아송 분포), 표본평균의 분포는 표본 크기가 커짐에 따라 정규 분포에 가까워짐. 중심극한정리(Central limit theorem) 확률변수 $X_1, X_2, ..., X_n$이 서로 독립이고, 동..

과학/통계 2020.10.06

9-1. 독립동일분포(독립성, 합의 분포)

소개¶ 이 장에서 살펴볼 확률변수는 서로 독립인 다차원 확률변수. 독립: 확률변수가 다른 확률변수에 영향을 끼치지 않음. 독립동일분포(i.i.d.; independently and identically distributed): 서로 독립이고 각각 동일한 확률분포를 따르는 다차원 확률변수. 동일한 조건 아래에서 수행되는 실험이나 관측을 여러 번 반복하여 데이터를 얻는 것. 예: 우연히 만난 20명의 학생에게 시험 점수를 물어본 경우, 학생 한 명의 점수 각각은 전교생의 점수 분포를 따르는 1차원 확률변수, 어떤 학생을 만나기 직전에 만났던 학생과 전혀 관계없이 만난 학생이므로, 우연히 만난 20명의 점수는 서로 독립인 20차원의 확률변수 (독립동일분포). 확률분포 $F$: $X_1, X_2, ..., X_..

과학/통계 2020.09.15

6. 이산형 확률분포

6단원. 이산형 확률분포¶ 추측 통계의 목표: 한정된 표본으로부터 모집단의 평균, 분산을 추정 모수적 기법: 이 때 모집단이 어떠한 성질일 것이므로 이러한 형태를 지닌 확률분포일 것이다라는 가정을 하고, 확률분포의 기댓값과 분산을 결정하는 파라미터를 추측 비모수적 기법: 모집단의 확률분포에 어떠한 가정도 하지 않음 파라미터만 추측하면 되니까 추정이 간단하고 분석이 쉬운 모형을 만들 수 있다! 다양한 확률분포, 특히 이산형 확률분포에 대해 소개 각각의 확률분포를 어떠한 상황에서 사용하는지 설명 6.1. 베르누이 분포(Bernoulli distribution)¶ 확률변수가 취할 수 있는 값이 0과 1밖에 없는 분포 1이 나오는 확률을 $p$, 0이 나오는 확률을 $1-p$ 파라미터: $p$ $$ f(x)= ..

과학/통계 2020.08.14

1. 데이터

1.1. 데이터의 크기 데이터의 수 (샘플 수) 변수의 수 (차원): 어떤 데이터에 변수가 5개 있으면 5차원 1.2. 변수의 종류 1.2.1. 질적 변수와 양적 변수 질적 변수 예: 만족도 설문조사, 혈액형 이진 변수: 값이 2개뿐인 변수 (예: 성별, 흡연 여부) 명의 척도 단순 분류를 위한 변수 (예: 전화번호, 성별) 변수의 동일성 여부에만 의미가 있음: 대소 관계, 사칙연산 의미 X 순서 척도 순서 관계나 대소 관계에 의미가 있는 변수 (예: 성적 순위, 만족도) 대소 관계에 의미는 있으나, 사칙연산 의미 X 양적 변수 양을 표현 (예: 시험 점수, 키) 간격 척도 대소 관계와 함께 차이도 의미를 갖는 변수 (예: 연도, 온도) 섭씨 60도와 섭씨 30도의 대소 관계, 차이는 의미가 있으나, 섭..

과학/통계 2020.07.29
반응형