โหลดแพ็คเกจที่จะต้องใช้ในแบบฝึกหัดนี้
library(psych)
library(ggplot2) # for plots
library(gridExtra) #for plots
การแจกแจงค่าตัวอย่าง (sampling distribution) แสดงให้เห็นถึงความน่าจะเป็นของค่าสถิติที่เก็บได้จากสุ่มกลุ่มตัวอย่างจำนวนหนึ่ง ๆ จากประชากร ยกตัวอย่างเช่น หากเราสุ่มกลุ่มตัวอย่าง 50 คนจากประชากร 300,000 คน ค่าสถิติของกลุ่มตัวอย่าง (statistics; เช่น ค่าเฉลี่ยของกลุ่มตัวอย่าง) มีความเป็นไปได้สูงที่จะใกล้เคียงกับค่าสถิติของประชากร (parameters) แต่ก็มีความเป็นไปได้เช่นกันที่ความคลาดเคลื่อนจากการสุ่ม (sampling errors) จะทำให้เราได้ค่าสถิติของกลุ่มตัวอย่างแตกต่างไปจากค่าในระดับประชากร การแจกแจงค่าตัวอย่าง (sampling distribution) เป็นการแจกแจงความเป็นไปได้ของค่าสถิติที่เราอาจจะได้จากการสุ่มกลุ่มตัวอย่าง
เพื่อให้เข้าใจได้ง่ายขึ้น เราจะเรียนรู้เกี่ยวกับการแจกแจงค่าตัวอย่างผ่านการจำลองข้อมูล (data simulation)
ในแบบฝึกหัดนี้ เราจะสมมติว่าเรารู้ค่าสถิติประชากร (parameters) ได้แก่ ค่าเฉลี่ย (\(\mu\)) และส่วนเบี่ยงเบนมาตรฐาน (\(\sigma\)) เพื่อช่วยให้เข้าใจเนื้อหาได้ง่ายขึ้น (แต่ขอให้ระลึกไว้ว่าในการเก็บข้อมูลจริง เราแทบจะไม่มีทางรู้ข้อมูลระดับประชากรได้เลย)
สมมติว่าเรามีข้อมูลคะแนนสภาวะอารมณ์ (mood) ของประชากรนักเรียนในจินตนาการจำนวน 30,538 คน
ขอให้ดาวน์โหลดและบันทึกไฟล์ข้อมูลไว้ใน working directory เดียวกับ R script
pop <- read.csv("RES_STAT_Lab7_data.csv")
head(pop)
## ID mood
## 1 1 3.447279
## 2 2 1.103520
## 3 3 6.134288
## 4 4 5.865394
## 5 5 4.479369
## 6 6 4.789060
n <- length(pop$mood) #population size
n
## [1] 30538
pop_mean <- mean(pop$mood) #population mean
pop_var <- sum((pop$mood - pop_mean)^2)/n #population variance. Use n, instead of n-1
pop_sd <- sqrt(pop_var) #population standard deviation
จากประชากรนักเรียนนี้ เราจะสุ่มเลือกกลุ่มตัวอย่างออกมาวัดสภาวะอารมณ์ จำนวน 50 คน
survey <- sample(pop$mood, 50)
describe(survey) # sample statistics (function from psych package)
## survey
## n missing distinct Info Mean Gmd .05 .10 .25 .50 .75
## 50 0 50 1 3.336 1.472 1.362 1.753 2.433 3.219 4.442
## .90 .95
## 5.151 5.354
##
## lowest : 0.3396683 1.2400032 1.2958668 1.4421102 1.5110343, highest: 5.1594940 5.1700502 5.5043376 5.5836801 5.6353443
pop_mean
## [1] 3.455544
pop_sd
## [1] 1.395769
สังเกตว่าค่าสถิติจากกลุ่มตัวอย่าง (เช่น ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน) นั้นแตกต่างไปจากค่าพารามิเตอร์ของประชากร ความแตกต่างนั้นเกิดจากความคลาดเคลื่อนในกระบวนการสุ่มตัวอย่าง (sampling error) ตามหลักของความน่าจะเป็น
เพื่อจะให้เห็นภาพของความน่าจะเป็น เราจะลองสมมติว่า เราสุ่มกลุ่มตัวอย่างขึ้นมาใหม่ 50 คนเพื่อทำการสำรวจ (survey) แล้วคำนวณค่าสถิติ (เช่น ค่าเฉลี่ย) เก็บไว้ จากนั้นสุ่มใหม่อีก 50 คน ทำเช่นนี้ซ้ำไป 20 รอบ (กระบวนการนี้เรียกว่า resampling)
## [1] "Survey 1"
## s
## n missing distinct Info Mean Gmd .05 .10 .25 .50 .75
## 50 0 50 1 3.745 1.725 1.710 1.970 2.690 4.001 4.612
## .90 .95
## 5.696 6.071
##
## lowest : -0.5851444 1.3263832 1.6402958 1.7943474 1.8504463
## highest: 5.7278371 5.8840753 6.2241698 6.3062965 8.1453971
## [1] "Survey 2"
## s
## n missing distinct Info Mean Gmd .05 .10 .25 .50 .75
## 50 0 50 1 3.542 1.548 1.179 1.891 3.030 3.517 4.285
## .90 .95
## 5.462 5.528
##
## lowest : -0.35090808 0.03405778 0.77479373 1.67311826 1.79590445
## highest: 5.47708566 5.52191845 5.53238502 5.62430664 6.75437934
## [1] "Survey 3"
## s
## n missing distinct Info Mean Gmd .05 .10 .25 .50 .75
## 50 0 50 1 3.493 1.534 1.484 1.696 2.463 3.617 4.368
## .90 .95
## 5.019 5.527
##
## lowest : 0.3593565 1.3495815 1.4077903 1.5781518 1.5803906, highest: 5.4915412 5.4960723 5.5523306 5.7313827 5.9074416
## [1] "Survey 4"
## s
## n missing distinct Info Mean Gmd .05 .10 .25 .50 .75
## 50 0 50 1 3.289 1.577 1.156 1.807 2.418 3.184 4.121
## .90 .95
## 4.861 5.677
##
## lowest : -0.3566126 0.9408535 1.0302375 1.3095529 1.5098780
## highest: 5.2959937 5.6471394 5.7022385 5.9661831 7.2054526
## [1] "Survey 5"
## s
## n missing distinct Info Mean Gmd .05 .10 .25 .50 .75
## 50 0 50 1 3.326 1.445 1.219 1.687 2.392 3.351 4.413
## .90 .95
## 4.936 5.106
##
## lowest : 0.9458472 0.9751200 1.1839695 1.2625100 1.6223521, highest: 5.0003422 5.0303970 5.1681473 5.2142279 5.2932495
## [1] "Survey 6"
## s
## n missing distinct Info Mean Gmd .05 .10 .25 .50 .75
## 50 0 50 1 3.519 1.88 0.7296 1.3405 2.3382 3.9551 4.7042
## .90 .95
## 5.3740 5.8201
##
## lowest : -0.3768736 -0.0583227 0.6577948 0.8174576 0.9458472
## highest: 5.3794167 5.5664901 6.0275752 6.2086863 6.3141146
## [1] "Survey 7"
## s
## n missing distinct Info Mean Gmd .05 .10 .25 .50 .75
## 50 0 50 1 3.291 1.653 1.097 1.532 2.462 3.145 3.975
## .90 .95
## 5.586 5.952
##
## lowest : -0.4592843 1.0158708 1.0308166 1.1784941 1.1830109
## highest: 5.6581164 5.9204382 5.9772447 6.7713254 7.2696732
## [1] "Survey 8"
## s
## n missing distinct Info Mean Gmd .05 .10 .25 .50 .75
## 50 0 50 1 3.609 1.596 1.438 2.049 2.742 3.623 4.392
## .90 .95
## 5.255 5.843
##
## lowest : -0.5162465 1.0824457 1.2106806 1.7169435 1.9545934
## highest: 5.2967464 5.4598139 6.1572839 6.9090037 7.7091728
## [1] "Survey 9"
## s
## n missing distinct Info Mean Gmd .05 .10 .25 .50 .75
## 50 0 50 1 3.235 1.782 1.050 1.352 2.177 3.293 4.487
## .90 .95
## 5.150 5.367
##
## lowest : -1.3207181 0.8286800 0.9771296 1.1387613 1.2041281
## highest: 5.2194171 5.3228282 5.4023339 5.8766697 6.4090212
## [1] "Survey 10"
## s
## n missing distinct Info Mean Gmd .05 .10 .25 .50 .75
## 50 0 50 1 3.22 1.379 1.513 1.814 2.266 3.147 3.875
## .90 .95
## 4.674 5.601
##
## lowest : 0.8263926 1.1839695 1.3498320 1.7134642 1.7942275, highest: 4.7321641 5.3641542 5.7947540 5.8792754 6.2210218
## [1] "Survey 11"
## s
## n missing distinct Info Mean Gmd .05 .10 .25 .50 .75
## 50 0 50 1 3.487 1.528 1.429 1.713 2.445 3.486 4.544
## .90 .95
## 5.317 5.630
##
## lowest : 1.026616 1.062976 1.266702 1.628371 1.708250, highest: 5.441401 5.496039 5.738890 5.782091 5.872453
## [1] "Survey 12"
## s
## n missing distinct Info Mean Gmd .05 .10 .25 .50 .75
## 50 0 50 1 3.444 1.611 1.167 1.626 2.723 3.424 4.447
## .90 .95
## 5.315 5.421
##
## lowest : 0.06415119 0.50417415 0.92979615 1.45779089 1.57399800
## highest: 5.38085274 5.39030267 5.44572795 5.77327745 5.82078787
## [1] "Survey 13"
## s
## n missing distinct Info Mean Gmd .05 .10 .25 .50 .75
## 50 0 50 1 3.957 1.567 2.150 2.303 2.770 3.943 5.111
## .90 .95
## 5.669 5.887
##
## lowest : 1.462548 1.722680 2.077963 2.237042 2.241097, highest: 5.687082 5.738629 6.007641 6.153324 6.912331
## [1] "Survey 14"
## s
## n missing distinct Info Mean Gmd .05 .10 .25 .50 .75
## 50 0 50 1 3.556 1.402 1.605 2.183 2.726 3.517 4.163
## .90 .95
## 5.091 5.948
##
## lowest : 1.062383 1.319485 1.411185 1.841720 1.972030, highest: 5.274358 5.892463 5.993529 6.293465 6.416106
## [1] "Survey 15"
## s
## n missing distinct Info Mean Gmd .05 .10 .25 .50 .75
## 50 0 50 1 3.403 1.392 1.827 1.941 2.409 3.176 4.183
## .90 .95
## 5.206 5.614
##
## lowest : 1.624625 1.697954 1.795927 1.864018 1.889943, highest: 5.314872 5.491575 5.714642 5.879275 6.465295
## [1] "Survey 16"
## s
## n missing distinct Info Mean Gmd .05 .10 .25 .50 .75
## 50 0 50 1 3.525 1.457 1.381 2.113 2.802 3.287 4.501
## .90 .95
## 5.096 5.813
##
## lowest : 1.204128 1.274423 1.311415 1.466381 2.014037, highest: 5.331620 5.736897 5.874397 5.942414 6.679315
## [1] "Survey 17"
## s
## n missing distinct Info Mean Gmd .05 .10 .25 .50 .75
## 50 0 50 1 3.424 1.497 1.496 1.926 2.375 3.363 4.256
## .90 .95
## 5.011 5.451
##
## lowest : 0.7426884 1.0379094 1.4355623 1.5698092 1.7343988, highest: 5.0141631 5.3396618 5.5421841 6.2239297 6.3088505
## [1] "Survey 18"
## s
## n missing distinct Info Mean Gmd .05 .10 .25 .50 .75
## 50 0 50 1 3.303 1.395 1.168 1.834 2.518 3.230 4.004
## .90 .95
## 4.845 5.091
##
## lowest : 0.6571255 1.0885089 1.1064100 1.2430357 1.7183746, highest: 5.0275025 5.0574912 5.1179519 5.4051403 6.6198499
## [1] "Survey 19"
## s
## n missing distinct Info Mean Gmd .05 .10 .25 .50 .75
## 50 0 50 1 3.501 1.399 1.271 1.792 2.919 3.616 4.294
## .90 .95
## 5.011 5.373
##
## lowest : 0.1120935 0.7996950 1.2177984 1.3359470 1.6729222, highest: 5.0496463 5.3449914 5.3954664 5.6416102 5.8511383
## [1] "Survey 20"
## s
## n missing distinct Info Mean Gmd .05 .10 .25 .50 .75
## 50 0 50 1 3.441 1.287 1.900 2.101 2.504 3.393 4.307
## .90 .95
## 4.828 5.204
##
## lowest : 1.242170 1.729820 1.779309 2.047180 2.083167, highest: 5.080847 5.126891 5.267545 5.744355 5.865039
จากข้อมูลที่เราได้จากการสุ่มกลุ่มตัวอย่าง 20 ครั้งเพื่อสำรวจสภาวะอารมณ์ ค่าเฉลี่ยกลุ่มตัวอย่าง (\(\bar{X}\)) แตกต่างกันไปในแต่ละครั้ง แต่อย่างไรก็ดี จะเห็นได้ว่าค่าเฉลี่ยกลุ่มตัวอย่างแต่ละครั้งจะกระจายตัวอยู่รอบ ๆ ค่าเฉลี่ยประชากร (\(\mu\))
ในโค้ดที่ซ่อนอยู่เพื่อสร้างกราฟด้านบน ได้มีการบันทึกค่าเฉลี่ยกลุ่มตัวอย่างแต่ละครั้งไว้ในตัวแปร
m
# Sample means of the ten surveys.
m
## [1] 3.745094 3.541805 3.493273 3.289155 3.325792 3.518509 3.290723 3.609067 3.234628 3.219813 3.487225
## [12] 3.444015 3.956700 3.556137 3.402764 3.525195 3.423711 3.303130 3.501067 3.441455
เมื่อเรานำค่าเฉลี่ยกลุ่มตัวอย่างมากสร้าง histogram เราจะเห็นภาพการแจกแจงค่าเฉลี่ยตัวอย่าง (distibution of sample means หรือ sampling distribution of the means)
ในการสุ่มตัวอย่างเพื่อสำรวจแต่ละรอบ ค่าเฉลี่ยกลุ่มตัวอย่างจะไม่ได้เท่ากับค่าเฉลี่ยของประชากรพอดีแต่จะเบี่ยงเบนไปบ้างทั้งทางบวกและทางลบ เนื่องจากกระบวนการสุ่มกลุ่มตัวอย่างมีความคลาดเคลื่อนจากการสุ่มอยู่ (sampling error)
แต่จากแผนภูมิด้านบน เราจะเห็นได้ว่าค่าเฉลี่ยกลุ่มตัวอย่าง \(\bar{X}\) ส่วนใหญ่จะมีค่าใกล้เคียงกับค่าเฉลี่ยประชากร \(\mu\) ในขณะที่ค่าเฉลี่ยกลุ่มตัวอย่างที่ยิ่งห่างออกไปจากค่าเฉลี่ยประชากรก็ยังมีโอกาสเกิดขึ้นได้แต่ด้วยความน่าจะเป็นที่ต่ำลงมาก
หากเราเพิ่มจำนวนครั้งที่เราสุ่มกลุ่มตัวอย่างซ้ำจาก 20 เป็นอนันต์ (infinity) แล้วนำค่าเฉลี่ยของแต่ละกลุ่มตัวอย่างมาสร้าง histrogram เราจะได้แผนภูมิของการแจกแจงค่าตัวอย่างของค่าเฉลี่ย (sampling distribution of the means) โดยจะมีรูปแบบเป็นโค้งปกติหรือโค้งระฆังคว่ำ
เราสามารถแสดงให้เห็นหลักการดังกล่าวได้ด้วยการจำลองข้อมูล (simulation)
สมมติว่าเราสุ่มกลุ่มตัวอย่างจากประชากรเดิมครั้งละ 50 คน แล้วทำซ้ำ ๆ สัก 10,000 ครั้ง
จากนั้นบันทึกค่าเฉลี่ยกลุ่มตัวอย่างแต่ละครั้งไว้ในตัวแปร M
# Sample 10,000 times
M <- vector(mode = "numeric", 10000) #initialize a vector to store data.
# Use a for loop to repeatedly sample from a population.
for (i in 1:length(M)) {
s <- sample(pop$mood, 50)
M[i] <- mean(s)
}
str(M) # M is a vector with 10,000 values.
## num [1:10000] 3.67 3.66 3.38 3.49 3.58 ...
จากนั้นพลอตการแจกแจกค่าตัวอย่าง (sampling distribution)
ค่าเฉลี่ยของค่าเฉลี่ยกลุ่มตัวอย่าง (mean of the sample means; \(\bar{X}_M\)) แทบจะเท่ากับค่าเฉลี่ยประชากร \(\mu\) (หากเราสุ่มเป็นจำนวนอนันต์ ค่า \(\bar{X}_M\) จะเท่ากับ \(\mu\) ในทางสถิติจึงถือว่าค่าเฉลี่ยกลุ่มตัวอย่าง (sample mean; \(\bar{X}\)) เป็นตัวประมาณไม่เอนเอียง (unbiased estimator)
ถึงแม้ว่า \(\bar{X}_M\) จะเท่ากับ \(\mu\) แต่เราก็ยังเห็นว่ามีการกระจายตัวของค่าเฉลี่ยกลุ่มตัวอย่างทั้งที่สุ่มมาแล้วพบว่ามากกว่า หรือพบว่าน้อยกว่า \(\mu\) เนื่องมาจากความคลาดเคลื่อนในการสุ่ม การวัดการกระจายตัวของการแจกแจงค่าตัวอย่าง จึงเสมือนเป็นการวัดขนาดความคลาดเคลื่อนในการสุ่มกลุ่มตัวอย่างนั่นเอง
ค่าที่เราใช้วัดการกระจายตัวของข้อมูลก็คือ ส่วนเบี่ยงเบนมาตรฐานนั่นเอง
ส่วนเบี่ยงเบนมาตรฐานของการแจกแจงค่าตัวอย่าง (standard deviation of sampling distribution) มีชื่อเรียกเฉพาะว่า ความคลาดเคลื่อนมาตรฐาน (standard error; SE)
mean(M)
sd(M) #SD of sampling distribtion is SE.
## [1] 3.457363
## [1] 0.196592
หากค่า SE นั้นมีขนาดเล็ก แสดงว่า การสุ่มตัวอย่างแต่ละครั้งของเรานั้น ได้ค่าสถิติ (เช่นค่าเฉลี่ยกลุ่มตัวอย่าง) ใกล้เคียงกัน หรือ เรียกว่ามีความคลาดเคลื่อนตำ่ ส่งผลให้เรามั่นใจได้มากขึ้นว่าค่าสถิติของเรานั้นน่าจะใกล้เคียงกับค่าพารามิเตอร์ในประชากร ส่งผลให้มีช่วงค่าความเชื่อมั่นแคบ (คือ ± เพียงเล็กน้อย)
แต่ถ้าค่า SE มีขนาดใหญ่ แสดงว่า การสุ่มตัวอย่างแต่ละครั้ง ได้ค่าสถิติแกว่งไปมาเป็นวงกว้าง หรือมีความคลาดเคลื่อนสูง ส่งผลให้ต้องมีช่วงค่าความเชื่อมั่นกว้าง (ต้อง ± เผื่อไว้เยอะ)
แม้ว่าในความเป็นจริง เราจะไม่สามารถสุ่มกลุ่มตัวซ้ำ ๆ ได้เป็นพันเป็นหมื่นครั้ง แต่โดยอาศัยหลักการทางคณิตศาสตร์ (ดูวิธีคิด) เราสามารถประมาณค่าความคลาดเคลื่อนมาตรฐานด้วยสูตร
\[SE = \frac{\sigma}{\sqrt{n}}\]
ค่าที่เราได้จากการจำลองด้านบนควรมีค่าใกล้เคียงกับค่าจากสูตรนี้
se <- pop_sd/sqrt(50) #SE from formula
se
## [1] 0.1973915
sd(M) # SE from simulation
## [1] 0.196592
จากสูตร เราจะเห็นได้ว่าปัจจัยที่มีผลต่อความคลาดเคลื่อนมาตรฐาน คือ ส่วนเบี่ยงเบนมาตรฐานของตัวแปร (SD) และจำนวนกลุ่มตัวอย่าง
หากตัวแปรที่เรากำลังศึกษาเป็นตัวแปรที่มีความแปรปรวนสูง เช่น ศึกษาความสูงของมนุษย์ตั้งแต่ 1 ขวบ - 90 ปี ย่อมแปรปรวนมากกว่าศึกษาความสูงของนักกีฬาบาสเกตบอลเพศชายอายุ 20-25 ปี และส่งผลให้มีความคลาดเคลื่อนจากการสุ่มแตกต่างกันไปด้วย
ปัจจัยที่สอง คือจำนวนกลุ่มตัวอย่าง กลุ่มตัวอย่างขนาดใหญ่ที่สุ่มมาจากประชากร จะมีโอกาสได้ค่าเฉลี่ยกลุ่มตัวอย่างที่ใกล้เคียงค่าเฉลี่ยประชากรมากกว่ากลุ่มตัวอย่างขนาดเล็ก เนื่องจากความคลาดเคลื่อนในการสุ่ม (เช่น การสุ่มได้ค่าสุดโต่ง) จะมีผลกระทบน้อยลงเมื่อเฉลี่ยในกลุ่มตัวอย่างจำนวนมาก ด้วยเหตุนี้เองเมื่อกลุ่มตัวอย่างมีขนาดใหญ่ขึ้น การประมาณค่าสถิติจึงมีความแม่นยำมากขึ้นด้วย (โดยจะมีช่วงความเชื่อมั่นแคบลง หรือช่วง ± น้อยลง)
การแจกแจงค่าตัวอย่างเป็นการแจกแจงความน่าจะเป็นของค่าสถิติที่เราได้จากการสุ่มกลุ่มตัวอย่าง และการแจกแจงค่าตัวอย่างมีการกระจายตัวแบบโค้งปกติ เราจึงสามารถใช้หลักการของการแจกแจงปกติ (normal distribution) เพื่อคำนวณความน่าจะเป็นของค่าสถิติตัวอย่างได้
เช่น หากเราทราบค่าเฉลี่ยประชากร \(\mu\) และส่วนเบี่ยงเบนมาตรฐานประชากร \(\sigma\) เราสามารถทราบได้ว่า 95% ของการสุ่มกลุ่มตัวอย่าง (เช่น 9,500 กลุ่มตัวอย่างจากการสุ่ม 10,000 ครั้ง) จะได้ค่าสถิติ (เช่น ค่าเฉลี่ย) อยู่ระหว่าง ±1.96 SD ของการแจกแจงค่าตัวอย่าง (หรือ ±1.96 SE)
ในตัวอย่างนี้ เรามี \(\mu\) = 3.46 เราจะพบว่า 95% ของกลุ่มตัวอย่างที่สุ่มขึ้นมาจะมีค่าเฉลี่ยระหว่าง [3.07, 3.84]
กล่าวได้อีกอย่างว่า ค่าที่อยู่นอกเหนือช่วงดังกล่าว เป็นค่าที่มีโอกาสสุ่มได้น้อย (น้อยกว่า 5%)
ช่วงขอบเขตดังกล่าว เรียกว่า ช่วงความเชื่อมั่นที่ระดับ 95% (95% confidence interval)
วิธีการคำนวณขอบเขตล่าง (lower limit) และขอบเขตบน (upper limit) คือ \(\mu ± 1.96SE\).
LL <- mean(pop$mood) + (-1.96*se)
UL <- mean(pop$mood) + (1.96*se)
LL
UL
## [1] 3.068656
## [1] 3.842431
การแจกแจงค่าตัวอย่างเป็นรากฐานในการทดสอบสมมติฐานทางสถิติ
ยกตัวอย่างเช่น เราสงสัยว่านักเรียนที่ชอบฟังเพลงเศร้าจะมีสภาวะอารมณ์แตกต่างจากประชากรนักเรียนหรือไม่
ในทางสถิติเราจะมีสมมติฐานสองข้อ คือ สมมติฐานว่าง (null hypothesis) และสมมติฐานทางเลือก (alternative hypothesis)
สมมติฐานว่าง เป็นสมมติฐานที่บอกว่าค่าเฉลี่ยกลุ่มตัวอย่าง (เช่น นักเรียนที่ชอบฟังเพลง 50 คน) เท่ากับค่าเฉลี่ยประชากร (คือ ไม่แตกต่างกัน)
\[H_0: \bar{X} = \mu\] หรือ \[H_0: \bar{X} - \mu = 0\] สมมติฐานทางเลือก เป็นสมมติฐานที่บอกว่าค่าเฉลี่ยกลุ่มตัวอย่างไม่เท่ากับ (มากกว่าหรือน้อยกว่า) ค่าเฉลี่ยประชากร
\[H_1: \bar{X} ≠ \mu\] หรือ \[H_1: \bar{X} - \mu ≠ 0\]
แนวคิดในการทดสอบสมมติฐานว่างก็คือ ทดสอบว่าความแตกต่างที่เกิดขึ้นเป็นไปได้มากน้อยเพียงใด หากสมมติฐานว่างเป็นจริง
เช่น มีความน่าจะเป็นเท่าไหร่ที่นักเรียนที่ชอบฟังเพลงจะมีคะแนนสภาวะอารมณ์น้อยกว่าค่าเฉลี่ยประชากรเกิน 0.3 คะแนน หากแท้จริงแล้วไม่ได้มีความแตกต่างอยู่จริง (นั่นคือกลุ่มนักเรียนที่ชอบฟังเพลงเศร้า ไม่ได้แตกต่างไปจากประชากรทั่วไป)
แนวคิดสมมติฐานว่าง ตั้งอยู่บน ข้อสมมุติว่าความแตกต่างระหว่าง \(\bar{X}\) และ \(\mu\) เป็นเพียงแค่ความคลาดเคลื่อนจากการสุ่มกลุ่มตัวอย่าง
หากหลักฐานทางสถิติ ทำให้เราสงสัยว่าสมมติฐานว่าง อาจจะ ไม่เป็นจริง เราจะปฏิเสธสมมติฐานว่าง (\(H_0\)) แล้วยอมรับสมมติฐานทางเลือก (\(H_1\))
สมมติว่า เราไปเก็บข้อมูลกลุ่มตัวอย่างนักเรียนที่ชอบฟังเพลงเศร้ามาได้จำนวน 50 คน และได้ค่าเฉลี่ยคะแนนสภาวะอารมณ์ M = 3.1 เราสามารถนำค่าเฉลี่ยที่ได้นี้ไปเทียบว่าอยู่ตรงไหนของช่วงความเชื่อมั่น
ค่าเฉลี่ยกลุ่มตัวอย่างที่ 3.1 ยังอยู่ในช่วง 95% ของการแจกแจงค่าตัวอย่าง (หรือช่วงความเชื่อมั่น 95 %) ในทางสถิตินับว่ายังไม่เพียงพอที่จะสรุปได้ว่า กลุ่มตัวอย่างนี้แตกต่างจากค่าเฉลี่ยประชากร กล่าวคือ เราไม่พบความแตกต่างอย่างมีนัยสำคัญทางสถิติ
การที่กลุ่มตัวอย่างมีค่าเฉลี่ย (\(\bar{M} = 3.1\)) ซึ่งดูน้อยกว่าค่า \(\mu\) อาจจะเป็นแค่เพราะความคลาดเคลื่อนในการสุ่มกลุ่มตัวอย่าง
สมมติว่าเราเก็บกลุ่มตัวอย่างนักเรียนที่หยุดเรียนบ่อย ๆ 50 คน ได้ค่าเฉลี่ยสภาวะอารมณ์ M = 2.96
ค่าเฉลี่ยของกลุ่มตัวอย่างกลุ่มนี้อยู่นอกช่วง 95% แสดงว่า หากกลุ่มตัวอย่างนี้มีสภาวะอารมณ์เหมือนกับประชากรนักเรียนทั่วไป การจะสุ่มกลุ่มตัวอย่างแล้วได้ค่าเฉลี่ย 2.96 หรือน้อยกว่านั้นมีโอกาสไม่ถึง 5% ซึ่งถือว่ามีความเป็นไปได้ต่ำ
ด้วยความเป็นไปได้ที่ต่ำนี้ ทำให้เรา สงสัย ว่าสมมติฐานว่าง (\(H_0: \bar{X} = \mu\)) น่าจะไม่เป็นจริง จึงสรุปว่าสมมติฐานทางเลือกน่าจะเป็นจริง (\(H_1: \bar{X} ≠ \mu\))
เราจึงอนุมานว่าความแตกต่างนี้น่าเกิดจากความแตกต่างของกลุ่มตัวอย่างจริง ๆ ไม่ใช่แค่ความคลาดเคลื่อน จึงสรุปว่าพบความแตกต่างอย่างมีนัยสำคัญทางสถิติ
จุดสำคัญของการตีความความน่าจะเป็นในการทดสอบสมมติฐานว่าง คือ ความน่าจะเป็นของข้อมูลเมื่อสมมติฐานว่างเป็นจริง -probability of data given \(H_0\) is true; \(P(D|H_0)\) นั่นหมายความว่า เราไม่ได้ทดสอบว่าสมมติฐานว่างเป็นจริงหรือไม่ เราทึกทักเอาก่อนว่าสมมติฐานว่างเป็นจริง แล้วถ้าข้อมูลดูเป็นไปได้น้อยมากหากสมมติฐานว่างเป็นจริง เราจึงค่อยอนุมานว่า สมมติฐานว่างน่าจะไม่เป็นจริง และสมมติฐานทางเลือกน่าจะเป็นจริง
จะเห็นได้ว่าแม้ว่าเราจะพบความแตกต่างอย่างมีนัยสำคัญทางสถิติแล้ว เราก็ยังมีโอกาสตัดสินใจผิดอยู่ แต่เรามั่นใจว่าโอกาสในการตัดสินใจผิดนั้นไม่เกิน 5% อัตราความผิดพลาดของการปฏิเสธสมมติฐานว่างที่เป็นจริง เรียกว่า Type I Error
นั่นคือ หากเราสุ่มกลุ่มตัวอย่างที่ไม่แตกต่างจากประชากรมาก 100 ครั้ง ด้วยการกำหนดช่วงความเชื่อมั่นที่ ±1.96 SE หรือที่ 95 % เราจะพบว่าค่าเฉลี่ยกลุ่มตัวอย่างจะอยู่ในช่วงความเชื่อมั่น 95 ครั้ง (สรุปถูกต้อง ว่าไม่แตกต่างอย่างมีนัยสำคัญ) และพบว่ามีค่าเฉลี่ยกลุ่มตัวอย่างที่บังเอิญอยู่นอกช่วงความเชื่อมั่น 5 ครั้ง (สรุปผิด ว่าแตกต่างกันอย่างมีนัยสำคัญ) ในทางสถิติคือว่าเป็นอัตราความผิดพลาดที่ยอมรับได้ในสาขาวิชาจิตวิทยา (มีศาสตร์บางสาขาที่กำหนด Type I Error ถึง 1% หรือต่ำกว่านั้น)
อีกวิธีการทดสอบสมมติฐานว่าง คือ การทดสอบค่าความแตกต่างระหว่างกลุ่มตัวอย่างกับค่าเฉลี่ยประชากรด้วยสถิติ z-test
การทดสอบ z-test ใช้หลักการนำความแตกต่างระหว่างกลุ่มตัวอย่าง (\(\bar{X}\)) กับค่าเฉลี่ยประชากร (\(\mu\)) มาเปรียบเทียบกับความคลาดเคลื่อนมาตรฐาน (\(SE\)) ให้อยู่ในรูปคะแนนมาตรฐาน (\(z\)) เพื่อทดสอบกับความน่าจะเป็นตามการแจกแจงปกติ (normal distribution) ตามสูตรด้านล่าง\[z = \frac{\bar{X}-{\mu}}{SE} \] และ \[SE = \frac{\sigma}{\sqrt{N}}\]
การทดสอบด้วย z-test และการสร้าง 95% CI จาก z-score นั้น จำเป็นต้องรู้ค่าเฉลี่ย (\(\mu\)) และส่วนเบี่ยงเบนมาตรฐานประชากร (\(\sigma\)) ซึ่งเป็นเงื่อนไขที่มักพบได้ยากในการเก็บข้อมูลจริง อย่างไรก็ดีวิธีคิดของ z-test เป็นรากฐานสำคัญของสถิติที่จะได้เรียนในแบบฝึกหัดถัด ๆ ไป
เราลองนำค่าจาก Example 2 ด้านบนมาคำนวณ
x_bar <- 2.96
mu <- pop_mean
se <- pop_sd/sqrt(50) #N = 50
z <- (x_bar - mu)/se
z
## [1] -2.51046
ค่าวิกฤติของสถิติ z สำหรับ \(\alpha = .05\) คือ ±1.96
ค่าสถิติทดสอบ z ที่คำนวณได้นั้นน้อยกว่า -1.96 จึงสรุปได้ว่าค่าเฉลี่ยกลุ่มตัวอย่างน้อยกว่าค่าเฉลี่ยประชากรนั้นมีนัยสำคัญทางสถิติ ซึ่งสอดคล้องกับผลการวิเคราะห์โดยช่วงความเชื่อมั่นด้านบน
หากเรารู้ค่า \(\bar{X}\), \(n\), \(\mu\), และ \(\sigma\) เราสามารถใช้ zsum.test
จากแพ็คเกจ BSDA เพื่อคำนวณสถิติทดสอบได้
library(BSDA)
zsum.test(2.96, mu = pop_mean, sigma.x = pop_sd, n.x = 50)
##
## One-sample z-Test
##
## data: Summarized x
## z = -2.5105, p-value = 0.01206
## alternative hypothesis: true mean is not equal to 3.455544
## 95 percent confidence interval:
## 2.57312 3.34688
## sample estimates:
## mean of x
## 2.96
หากเรามีตัวแปรข้อมูลที่ต้องการทดสอบอยู่แล้วใน R เราสามารถใช้คำสั่ง
z.test
ในคำสั่ง z.test
เราต้องใช่ x = data
,
mu = population mean
,
sigma.x = population SD
sample
## [,1]
## [1,] 2.9227159
## [2,] 2.9305205
## [3,] 3.0335924
## [4,] 1.3830731
## [5,] 1.8933377
## [6,] 3.4158080
## [7,] 1.6385437
## [8,] 2.9884054
## [9,] 3.6678803
## [10,] 2.3353789
## [11,] 4.6114308
## [12,] 3.3334482
## [13,] 3.1587037
## [14,] 3.6616668
## [15,] 5.5999712
## [16,] 2.2591939
## [17,] 4.2587237
## [18,] 5.2248155
## [19,] 2.3754317
## [20,] 3.1386960
## [21,] 2.7785761
## [22,] 3.7741818
## [23,] 2.5077436
## [24,] 3.3032235
## [25,] 0.5293351
## [26,] 4.3496905
## [27,] 2.6655799
## [28,] 2.5756664
## [29,] 0.6912684
## [30,] 3.5441040
## [31,] 3.9975453
## [32,] 1.4873152
## [33,] 2.5327771
## [34,] 0.4746663
## [35,] 3.5289659
## [36,] 1.9030166
## [37,] 3.8970793
## [38,] 2.0136866
## [39,] 2.1300517
## [40,] 3.2110150
## [41,] 2.9909678
## [42,] 1.6648189
## [43,] 4.7603738
## [44,] 2.1906738
## [45,] 1.6077589
## [46,] 3.5648492
## [47,] 4.1080512
## [48,] 5.4924361
## [49,] 3.3185611
## [50,] 2.5746837
z.test(x = sample, mu = pop_mean, sigma.x = pop_sd)
##
## One-sample z-Test
##
## data: sample
## z = -2.5105, p-value = 0.01206
## alternative hypothesis: true mean is not equal to 3.455544
## 95 percent confidence interval:
## 2.57312 3.34688
## sample estimates:
## mean of x
## 2.96
Copyright © 2022 Kris Ariyabuddhiphongs