Sự khác nhau giữa Population và Sample

Lấy ví dụ: chiều cao trung bình ở nam giới, đây là một Population vì nó bao gồm tất cả những người đàn ông ở cả quá khứ (đã chết), hiện tại (đang sống) và tương lai (được sinh ra). Căn bản là chúng ta không thể tiến hành khảo sát trên toàn bộ Population vì không thể đo được chiều cao của tất cả đàn ông được (ví dụ như những người nam chưa được sinh ra). Thậm chí nếu có thể, thì cũng sẽ mất rất nhiều thời gian và tiên bạc. Ở ví dụ trên, chúng ta có một Population là “nam giới”, và thông số cần khảo sát là “chiều cao” của họ.

Thay vì vậy, chúng ta có thể tiến hành đo (thống kê) chiều cao của một tập con những nam giới – gọi là Sample (mẫu) – và từ đó suy luận kết quả của toàn bộ Population. Gọi là suy luận vì việc có những số liệu không ổn định và không chính xác là điều khó tránh khỏi trong việc có được kết quả của Population chỉ dựa trên một Sample của nó. Điều này là hiển nhiên vì số phần tử trong Sample ít hơn số phần tử trong Population, nên sẽ có mất mát thông tin.

Nói tóm lại:
Sample là một nhóm các thực thể tham gia vào việc khảo sát của bạn (có trong dữ liệu của bạn)
Population là một nhóm các thực thể lớn hơn, mà kết quả của nó sẽ được suy luận từ kết quả của Sample.

Có nhiều phương pháp để chọn một Sample và môn học nghiên cứu về nó được gọi là Sampling Theory (lý thuyết lấy mẫu). Một phương pháp hay được dùng là Simple Random Sampling (SRS). Trong SRS, mỗi phần tử của Population đều có xác suất được chọn vào một Sample như nhau (cho nên mới có từ Random). Có nhiều phương pháp lấy mẫu khác như Stratified Sampling, Cluster Sampling… mỗi cái đều có ưu và nhược riêng.

Cần lưu ý rằng Sample mà chúng ta lấy ra từ Population chỉ là một trong một tập lớn các Sample tiềm năng. Nếu 10 nhà nghiên cứu cùng khảo sát trên một Population, việc dùng các Sample khác nhau có thể sẽ thu được kết quả khác nhau. Quay trở lại ví dụ ban đầu, mỗi nhà nghiên cứu kết thúc với một chiều cao nam giới khác nhau, tức là việc thống kê chiều cao thay đổi theo từng Sample, sự phân phối này gọi là Sampling Distribution. Chúng ta có thể dùng phân phối này để hiểu về tính bất định trong ước đoán về thông số của Population.

Tham khảo và dịch từ: https://stats.stackexchange.com/questions/269/what-is-the-difference-between-a-population-and-a-sample