728x90
반응형
모집단의 크기가 매우 큰 경우에는 표본을 추출하여 분석한다.
모집단을 통해 랜덤하게 추출한 표본의 통계치는
모집단을 대표할 수 있으며.
우리가 통계학에서 배우듯
표본 평균의 표본 분포는 모집단의 평균을 따른다.
물론 분산은 달라질 수 있지만
대표적인 분석치인 평균이 모집단을 따른다는 것이 큰 주요점으로 알 수 있다.
대한민국 전체 가구의 소득을 조사한다고 했을때 5천만 가구의 데이터를 돌리다보면
아무리 좋은 컴퓨터라할지라도 몇시간 아니 하루넘게 걸릴수도 있다.
따라서 우리는 표본을 추출하여 데이터를 분석할 수 있다.
★R에서 랜덤하게 데이터를 추출하는 방법
R에서는 sample 이라는 함수가 있다
일정 백터에서의 샘플링은 위와같이 간단하게 샘플 함수를 통해
다른 백터에 저장할 수 있다.
여기서 특이한점은 replace인데, 이는 복원 추출 여부를 지정하는 것이다.
f라고 되어 있는 것은 복원 추출하지 않겠다고 하는것이고,
이는 비복원추출을 의미한다.
#비복원 추출은 표본 추출이후 다음 추출엔 뽑은 추출을 뽑지 않는 것이고,
복원 추출은 뽑은 표본 데이터를 다음 번 추출때도 뽑을 수 있는 추출방법이다.
데이터프레임에서는 조금 다르다.
데이터프레임의 순서를 1부터 nrow 즉, 행끝번호까지 잡고
그 행번호들을 샘플링한다.
그 이후 그 샘플링한 행들만 뽑아낸다.
반응형
'공부 > r 프로그래밍' 카테고리의 다른 글
R 데이터 집계하는 법 , 열별로 평균, 합계, 최대값 산출 (0) | 2023.05.31 |
---|---|
R: 변수의 이름을 바꾸는 방법/ 데이터 분리 방법 (0) | 2023.05.20 |
R 변수 모두 삭제하는법/ 실행 단축키 (2) | 2023.05.18 |
R 특이값 구하고 삭제/변경 하기 (2) | 2023.05.17 |
r 액셀/csv 데이터 불러오는법 (0) | 2023.05.15 |
댓글