공부/r 프로그래밍
R 데이터 샘플링, 데이터 랜덤하게 추출하기
남는곰
2023. 5. 18. 14:20
728x90
반응형
모집단의 크기가 매우 큰 경우에는 표본을 추출하여 분석한다.
모집단을 통해 랜덤하게 추출한 표본의 통계치는
모집단을 대표할 수 있으며.
우리가 통계학에서 배우듯
표본 평균의 표본 분포는 모집단의 평균을 따른다.
물론 분산은 달라질 수 있지만
대표적인 분석치인 평균이 모집단을 따른다는 것이 큰 주요점으로 알 수 있다.
대한민국 전체 가구의 소득을 조사한다고 했을때 5천만 가구의 데이터를 돌리다보면
아무리 좋은 컴퓨터라할지라도 몇시간 아니 하루넘게 걸릴수도 있다.
따라서 우리는 표본을 추출하여 데이터를 분석할 수 있다.
★R에서 랜덤하게 데이터를 추출하는 방법
R에서는 sample 이라는 함수가 있다
일정 백터에서의 샘플링은 위와같이 간단하게 샘플 함수를 통해
다른 백터에 저장할 수 있다.
여기서 특이한점은 replace인데, 이는 복원 추출 여부를 지정하는 것이다.
f라고 되어 있는 것은 복원 추출하지 않겠다고 하는것이고,
이는 비복원추출을 의미한다.
#비복원 추출은 표본 추출이후 다음 추출엔 뽑은 추출을 뽑지 않는 것이고,
복원 추출은 뽑은 표본 데이터를 다음 번 추출때도 뽑을 수 있는 추출방법이다.
데이터프레임에서는 조금 다르다.
데이터프레임의 순서를 1부터 nrow 즉, 행끝번호까지 잡고
그 행번호들을 샘플링한다.
그 이후 그 샘플링한 행들만 뽑아낸다.
반응형