รู้จัก Central Limit Theorem ขุมพลังแห่งโลกสถิติ

บทความนี้มาทำความรู้จักกับทฤษฏีที่ยิ่งใหญ่ (อันดับต้นๆ) ในโลกสถิติ – Central Limit Theorem การสร้าง sampling distribution และความหมายของ standard error

The Heart of Statistics

หัวใจของวิชาสถิติคือการสุ่มตัวอย่าง ถ้าเราสุ่มตัวอย่าง (sample) ขนาดใหญ่พอ หน้าตาของกลุ่มตัวอย่างจะเหมือนกับประชากร (population) ที่เราสนใจ โดยการสุ่มต้องเป็นไปอย่างแรนดอม หรือที่นักสถิติเรียกกันว่า random sampling i.e. สุ่มโดยใช้หลักความน่าจะเป็น ประชากรที่เราสนใจทั้งหมดมีโอกาสในการถูกสุ่มเท่ากัน

การสุ่มตัวอย่างที่ดีที่สุดในทางสถิติคือ random sampling

การสรุปผลจาก sample กลับไปที่ population นักสถิติเรียกว่าการทำ “Inference” และการทำ inference จะเกิดขึ้นไม่ได้เลยถ้าเราไม่รู้จัก [su_label type=”important”]Central Limit Theorem[/su_label] – The most powerful theorem in statistics

The Most Powerful Theorem

Central Limit Theorem (CLT) บอกว่า ถ้าเราสุ่มตัวอย่างซ้ำเรื่อยๆ และบันทึกค่าสถิติที่ได้จากการสุ่มตัวอย่างแต่ละครั้ง เช่น ค่าเฉลี่ย (mean) หรือค่าร้อยละ (%) และนำค่าเหล่านั้นมาสร้างกราฟ histogram

กราฟจะออกมาเป็น normal distribution เสมอ 😛 โดยเงื่อนไขสองข้อที่จะทำให้ CLT เป็นจริงคือ [1] การสุ่มตัวอย่างต้องเป็นไปอย่าง random และ [2] กลุ่มตัวอย่างต้องมีขนาดใหญ่พอ n >= 30

ที่มา – https://www.simplypsychology.org/z-score.html

and that’s the POINT! ถ้าเรารู้ว่าการกระจายตัวของ scores เป็นแบบ normal เราจะสามารถพูดเรื่องความน่าจะเป็นเกี่ยวกับ scores นั้นได้แบบนี้ “~95% ของ scores จะวิ่งอยู่ในช่วง +/- 2SD จากค่าเฉลี่ยตรงกลาง”

ตัวเลขสามตัวที่ทุกคนควรจำให้ได้เกี่ยวกับ normal distribution คือ 68.2, 95.4 และ 99.7

+/- 1SD68.2% ของ scores จะวิ่งอยู่ระหว่าง +/- 1SD จาก mean score
+/- 2SD95.4% ของ scores จะวิ่งอยู่ระหว่าง +/- 2SD จาก mean score
+/- 3SD99.7% ของ scores จะวิ่งอยู่ระหว่าง +/- 3SD จาก mean score

และสอง elements สำคัญของ central limit theorem คือ Sampling Distribution และ Standard Error

[1] Sampling Distribution

Histogram ที่ได้จากการทำ repeated samples (central limit theorem) มีชื่อทางการในโลกสถิติว่า “Sampling Distribution” ถ้าเราเพิ่มจำนวน sample size ในการสุ่มตัวอย่างแต่ละครั้ง sampling distribution จะมีช่วงแคบลงเรื่อยๆ แปลว่าค่า estimate ของเราจะมีความแม่นยำขึ้น i.e. ค่าเฉลี่ยของ sampling distribution จะมีค่าเข้าใกล้ค่าเฉลี่ยของ population (หรือที่เรียกกันสั้นๆว่า mu)

สังเกต histogram สองรูปด้านล่าง รูปซ้ายเราสุ่ม n=30 และรูปขวา n=1000 และทำ repeated samples ทั้งหมด 1,000 รอบ (note – การสุ่มตัวอย่างของ CLT เป็นแบบ sampling without replacement)

central limit theorem ทำให้ histogram ทั้งสองรูป approximately normal

[2] Standard Error

Standard error คือส่วนเบี่ยงเบนมาตรฐานของ sampling distribution (means) คิดง่ายๆจากสูตร se = sd/ sqrt(n) โดย sd คือส่วนเบี่ยงเบนมาตรฐานของ sample ที่เราสุ่มมาจากประชากร

sampling distribution

Note – ความแตกต่างของ sd และ se คือ sd วัดการกระจายตัวของ sample distribution แต่ se วัดการกระจายตัวของ sampling distribution ที่ได้มาจากการทำ repeated samples

What’s The Point?

Implication ของ CLT คือในชีวิตจริงไม่มีใครว่างทำ repeated samples เป็นร้อยเป็นพันครั้ง แต่นักสถิติสุ่มตัวอย่างด้วย random sampling แค่ครั้งเดียวและ apply CLT สร้าง sampling distribution ไปครอบ sample mean คำนวณค่า se และสร้าง interval estimate ที่นักสถิติเรียกว่า Confidence Interval

ขั้นตอนการสร้างช่วงความเชื่อมั่น 95% CI แค่เรารู้ mean, sd และ n ของกลุ่มตัวอย่าง (sample)

  1. คำนวณ se จากสูตร se = sd/ sqrt(n)
  2. z = 1.96 สำหรับระดับความมั่นใจ 95%
  3. คำนวณ margin error จากสูตร me = se*z
  4. สร้างช่วงความเชื่อมั่น [mean – me, mean + me]

Alright! ส่วนตัวแอดคิดว่าถ้าอยากเรียนสถิติให้รู้เรื่อง อย่างแรกต้องเข้าใจ central limit theorem ก่อนเลย รวมถึงความหมายของ sampling distribution และ standard error บทความหน้าเราจะเขียนอธิบายเรื่อง confidence interval ให้อ่านแบบเต็มๆอีกครั้ง (hint – CI ใช้ทดสอบสมมติฐานทางสถิติได้ด้วย!)

Example R Code

ตัวอย่างการทำ simulation ง่ายๆเพื่อทดสอบทฤษฏี central limit theorem ใน R เราใช้ฟังชั่น replicate() เพื่อสุ่มตัวอย่างซ้ำ 1000 รอบ (line 9-11)

## look at dataframe diamonds
library(tidyverse)
glimpse(diamonds)
## assume this is all prices (population)
pop_prices <- diamonds$price
## sample n=30, repeats 1000 times
sam_prices <- replicate(
1000, mean(sample(pop_prices, size = 30))
)
## check if the mean of sample means is close to the population mean
summary(pop_prices)
summary(sam_prices)
## look at the histogram
hist(sam_prices, xlim = c(1000, 7000))
## let's change line 10, size=1000. Look at the histogram again.

11 thoughts on “รู้จัก Central Limit Theorem ขุมพลังแห่งโลกสถิติ

  1. ขอบบคุณครับ รออ่าน Confidence Interval อยู่นะครับ

    1. ไม่ต้อง 30 ก็ได้ครับ จริงๆแล้วยิ่งเยอะยิ่งดีครับ (30 เหมือนเป็นตัวเลขที่ทฤษฏีบอกต่อกันมา)

Leave a Reply