วันก่อนแอดไปอ่านเจอบทความของอาจารย์ที่สอน Business Analytics NIDA ที่เล่าเรื่องการใช้สูตรยามาเน่ของนักศึกษาที่ใช้ตามๆกันมาแบบไม่เข้าใจสูตรนี้จริงๆ บทความนี้แอดจะเขียนอธิบายการใช้งานสูตรยามาเน่ และ master formula ที่บริษัท survey platform ระดับโลกเค้าใช้กันให้อ่านเอง
สูตรคำนวณจำนวนตัวอย่าง (sample size) ยอดนิยมสำหรับการเก็บแบบสอบถามของงานวิจัยนักศึกษาปริญญาตรี/ โทในประเทศไทยคือสูตรของอาจารย์ Taro Yamane ใช้กันเกือบทุกเล่ม เคยไปนั่งเปิดๆดูในห้องสมุดมหิดล น่าจะมากกว่า 80% ของ IS/Thesis ทั้งหมดเลย โดยเฉพาะภาควิชาการตลาด 555+
The Formula
สูตรยามาเน่มีตัวแปรที่เราต้องรู้ค่าสองตัวคือ N และ e โดยที่ N คือจำนวนประชากร และ e คือค่าความคลาดเคลื่อน (i.e. error) เวลาแทนค่า e ในสมการต้องเขียนเป็นทศนิยม เช่น e = .05 (error = 5% เป็นค่ามาตรฐานที่เราใช้ในสูตรยามาเน่ สามารถเปลี่ยนได้ตามความเหมาะสม)

อาจารย์ยามาเน่ assume ความมั่นใจร้อยละ 95 และความแปรปรวนสูงที่สุด (maximum variance) ที่ค่า p = .5 ทำให้สูตรยามาเน่ใช้งานง่ายขึ้นและมีตัวแปรที่เราต้องแทนค่าแค่สองตัวคือ N และ e ถ้ากลุ่มประชากรที่เราสนใจ N = 5000 และ e = .05 แทนค่าในสมการด้านบนเราต้องเก็บ sample size = 5000/ (1 + 5000*.05^2) = 370 คน ตัวเลขนี้คือ n ขั้นต่ำที่เราต้องการในงานวิจัยนั้นๆ
Tip – เวลานักวิจัยตลาดทำงานจริง เราจะประเมิน % response rate ว่าเวลาออกไปสัมภาษณ์ เราต้องติดต่อผู้ตอบแบบสอบถามทั้งหมดกี่คนเพื่อให้ได้ n ที่เราต้องการ สมมติว่า % response = 20% เราต้องติดต่อ (i.e. contacts) อย่างน้อย 370 / .2 = 1850 คน นี่มันงานยากกว่าที่คิด 555+
When to Use
เราใช้สูตรยามาเน่ในกรณีไหน? สูตรนี้จะใช้ได้ถ้าเงื่อนไขต่อไปนี้เป็นจริง
- เรารู้จำนวนประชากรทั้งหมด (finite population)
- ค่าของประชากรที่เราต้องการวัดเป็นค่าร้อยละคิดจากคำถามแบบ dichotomous (% proportion) ถ้าแบบสอบถามเป็นแบบ likert scale (e.g. 1-5) เราก็จะไม่สามารถใช้สูตรยามาเน่ได้
- การสุ่มตัวอย่างเป็นไปตามทฤษฏีความน่าจะเป็น (random sampling)
Tip – ถึงแม้ว่าแบบสอบถามเราจะเก็บมาแบบ likert scale 1-5 เราก็สามารถประยุกต์ใช้สูตรยามาเน่ได้ ด้วยการจับกลุ่มคำตอบของคำถามแบบ likert scale (i.e. grouping) เช่น โค้ด 4/5 = 1 และ 1/2/3 = 0 เป็นต้น
ในกรณีที่เราไม่รู้จำนวนประชากรเป๊ะๆ วิธีที่คนส่วนใหญ่ใช้คือการประมาณค่า N คร่าวๆใส่ไปในสูตรยามาเน่เพื่อให้ได้ sample size ออกมาประมาณ 380-400 แอดเขียนอธิบายเรื่องนี้ในหัวข้อถัดไป
Sample Size Table
ถ้าเราใช้ e = .05 ในสูตรยามาเน่และขนาดประชากรใหญ่ขึ้นเรื่อยๆ sample size ที่เราคำนวณได้จะ converge สู่ตัวเลข 400 แปลว่าจริงๆเราไม่ต้องเสียเวลาคำนวณ ใช้ n=400 ไปเลย จบๆ 555+ (ลองดูตารางสรุปด้านล่าง)
population | sample size (e=0.05) |
1,000 | 286 |
10,000 | 385 |
100,000 | 398 |
1,000,000 | 400 |
ตัวแปรที่ส่งผลต่อ sample size มากที่สุดในสูตรยามาเน่คือค่า e ด้านล่างแอดลองสร้างตาราง n โดยกำหนด e = .01 (e ลดลงแปลว่าผลแม่นยำมากขึ้น) n จะมีค่าเพิ่มขึ้นแบบก้าวกระโดดเมื่อเทียบกับตาราง e = .05 ด้านบน ลองเปรียบเทียบที่ N=100,000 ระหว่าง n=398 (e=.05) และ n=9091 (e=.01) แตกต่างกัน 22.8 เท่า!
population | sample size (e=0.01) |
1,000 | 909 |
10,000 | 5000 |
100,000 | 9091 |
1,000,000 | 9901 |
ในทางตรงกันข้าม ถ้าเราเพิ่ม e = .10 ที่ N = 100,000 sample size ที่เราต้องการจากสูตรยามาเน่จะเท่ากับ 100000 / (1 + 100000*.10^2) = 100 คน คำแนะนำสำหรับนักศึกษา ป.ตรี/ โททั่วประเทศที่อยากใช้สูตรยามาเน่ในงานวิจัย ถ้าเวลาเก็บข้อมูลมีน้อยและต้องรีบส่งงานอาจารย์ ให้ลองปรับค่า e เป็น 7-8% จะได้ไม่ต้องเก็บ sample size เยอะมาก (งานเสร็จทัน ไม่ต้องเครียด 555+)
The Master Formula
แล้วโลกนี้มีสูตรที่ดีกว่าของยามาเน่มั้ย? มี! มาดู master formula นี้กัน
เว็บไซต์สร้างแบบสอบถาม/ market research survey ระดับโลกอย่าง Qualtrics และ SurveyMonkey ใช้สูตรการคำนวณ sample size ที่ละเอียดกว่าของยามาเน่ และสามารถประยุกต์ใช้ได้ทั้งแบบรู้หรือไม่รู้จำนวน population ก็ได้ (อ้างอิงจาก Cochran, 1963) กรณีที่เราไม่รู้ N ให้ใช้สูตรนี้

โดยที่ p * (1-p) เรียกว่า variance ถ้าเรากำหนดค่า p = .5; (1-p) = .5 เราจะได้ maximum variance = .5 * .5 = .25 (i.e. ค่า p ที่นิยมใช้ในสูตรนี้คือ .5) ค่า e เป็นตัวเดียวกันกับสูตรยามาเน่ ส่วน z ได้มาจาก Standard Normal Distribution ในตารางด้านล่าง โปรแกรมสถิติส่วนใหญ่กำหนดค่า confidence = .95 (default) แปลว่าตัวเลข z = 1.96 จะถูกหยิบมาใช้บ่อยมาก เป็นตัวเลขที่นักสถิติต้องจำได้ (แอดจำหมดเลยตั้งแต่ 1.65 1.96 2.58)
Confidence Level | z |
90% | 1.65 |
95% | 1.96 |
99% | 2.58 |
มาลองดูตัวอย่างนี้ confidence level = .95, p = .5 และ e = .05 เราจะคำนวณ sample size = (1.96^2 * .5 * (1-.5)) / (.05^2) = 384.16 ปัดขึ้นเป็น 385 คน (ค่านี้เรียกว่า n0)
กรณีที่เรารู้ N ให้ใช้สูตรต่อไปนี้ปรับ n0 ที่เราได้จากสมการด้านบน นักสถิติเรียกสูตรที่สองนี้ว่าการทำ Finite Population Correction สมมติว่า N=3000 แทนค่าในสมการ 385 / (1+(385-1)/ 3000) = 341.3 ปัดขึ้นเป็น 342 คน สังเกตว่า n จะลดลงจากกรณีที่เราไม่รู้ N นิดนึง

วิธีการคำนวณนี้จะได้ผลเท่ากับโปรแกรมคำนวณ sample size ของทั้ง Qualtrics และ SurveyMonkey เลย ข้อดีของการใช้สูตรนี้คือเราสามารถปรับระดับความเชื่อมั่น (z) และ margin or error (e) ได้ด้วยตัวเอง เด็ด!

Summary
แอดแนะนำให้เปลี่ยนมาใช้สมการนี้ดีกว่า n = z^2*p*(1-p) / e^2 (i.e. ยืดหยุ่น ปรับจูนค่าได้ง่ายกว่า) ใช้คู่กับ finite population correction กรณีที่เรารู้ขนาดประชากรจริง เป็นสูตรเดียวกับที่ บ.วิจัยระดับโลกใช้กัน
สูตรทั้งหมดที่เราสอนในบทความนี้ใช้ได้กับงานวิจัยเชิงสำรวจเท่านั้น (i.e. observational study) เช่น การสำรวจความเห็นผู้บริโภค เป็นต้น ถ้างานวิจัยของใครเป็นแบบการทดลอง (i.e. experimental study) เช่น การทำ AB testing ทดสอบเรื่อง causality ฯลฯ การกำหนด sample size ต้องใช้ความรู้เรื่อง statistical power ด้วย ลองอ่านบทความเรื่อง power ของเราได้ที่นี่
Final Note
– ถ้าเกิดแบบสอบถามเราเป็นการวัดค่าเฉลี่ย (mean) จะมีอีกสูตรนึงที่ใช้บ่อยๆคือ n = z^2*sigma^2 / e^2 แต่ในทางปฏิบัติสูตรนี้ก็นำมาใช้ได้ยากเพราะว่า sigma คือความแปรปรวนของค่าเฉลี่ยในประชากรที่เราไม่รู้ค่า (unknown parameter) บริษัทวิจัยตลาดและ survey platform จึงนิยมใช้สูตรที่เราสอนในบทความนี้มากกว่า (i.e. กำหนด p = 0.5 เพื่อให้ได้จำนวน n ขั้นต่ำที่เราต้องเก็บในแต่ละโปรเจ็ค)
ปล. รูป blog cover วันนี้คืออาจารย์ Toru Muranishi (The Naked Director) ไม่ใช่รูปอาจารย์ยามาเน่นะ 555+
References
- What is Yamane sample calculation – Quora
- Determining sample size – University of Florida บทความนี้ดีมาก แนะนำให้อ่านถ้ามีเวลา 😛
ส่วนด้านล่างเป็นตาราง sample size ของ Yamane สังเกตว่ายิ่ง margin error สูงขึ้นเท่าไหร่ sample size จะค่อยๆลดลงตามสูตรที่เราอธิบายในบทความนี้เลย

Leave a Reply