공부/r 프로그래밍

R 데이터 샘플링, 데이터 랜덤하게 추출하기

남는곰 2023. 5. 18. 14:20
728x90
반응형

모집단의 크기가 매우 큰 경우에는 표본을 추출하여 분석한다.

모집단을 통해 랜덤하게 추출한 표본의 통계치는 

모집단을 대표할 수 있으며.

 

우리가 통계학에서 배우듯 

표본 평균의 표본 분포는 모집단의 평균을 따른다.

물론 분산은 달라질 수 있지만 

대표적인 분석치인 평균이 모집단을 따른다는 것이 큰 주요점으로 알 수 있다.

 

대한민국 전체 가구의 소득을 조사한다고 했을때 5천만 가구의 데이터를 돌리다보면 

아무리 좋은 컴퓨터라할지라도 몇시간 아니 하루넘게 걸릴수도 있다.

따라서 우리는 표본을 추출하여 데이터를 분석할 수 있다. 

 

★R에서 랜덤하게 데이터를 추출하는 방법

R에서는 sample 이라는 함수가 있다

일정 백터에서의 샘플링은 위와같이 간단하게 샘플 함수를 통해 

다른 백터에 저장할 수 있다. 

여기서 특이한점은 replace인데, 이는 복원 추출 여부를 지정하는 것이다.

f라고 되어 있는 것은 복원 추출하지 않겠다고 하는것이고,

이는 비복원추출을 의미한다. 

#비복원 추출은 표본 추출이후 다음 추출엔 뽑은 추출을 뽑지 않는 것이고, 

복원 추출은 뽑은 표본 데이터를 다음 번 추출때도 뽑을 수 있는 추출방법이다.

데이터프레임에서는 조금 다르다.

데이터프레임의 순서를 1부터 nrow 즉, 행끝번호까지 잡고 

그 행번호들을 샘플링한다. 

그 이후 그 샘플링한 행들만 뽑아낸다.

 

 

반응형