รีวิวสูตรคำนวณจำนวนตัวอย่างของ อ.Taro Yamane

วันก่อนแอดไปอ่านเจอบทความของอาจารย์ที่สอน Business Analytics NIDA ที่เล่าเรื่องการใช้สูตรยามาเน่ของนักศึกษาที่ใช้ตามๆกันมาแบบไม่เข้าใจสูตรนี้จริงๆ บทความนี้แอดจะเขียนอธิบายการใช้งานสูตรยามาเน่ และ master formula ที่บริษัท survey platform ระดับโลกเค้าใช้กันให้อ่านเอง

สูตรคำนวณจำนวนตัวอย่าง (sample size) ยอดนิยมสำหรับการเก็บแบบสอบถามของงานวิจัยนักศึกษาปริญญาตรี/ โทในประเทศไทยคือสูตรของอาจารย์ Taro Yamane ใช้กันเกือบทุกเล่ม เคยไปนั่งเปิดๆดูในห้องสมุดมหิดล น่าจะมากกว่า 80% ของ IS/Thesis ทั้งหมดเลย โดยเฉพาะภาควิชาการตลาด 555+

The Formula

สูตรยามาเน่มีตัวแปรที่เราต้องรู้ค่าสองตัวคือ N และ e โดยที่ N คือจำนวนประชากร และ e คือค่าความคลาดเคลื่อน (i.e. error) เวลาแทนค่า e ในสมการต้องเขียนเป็นทศนิยม เช่น e = .05 (error = 5% เป็นค่ามาตรฐานที่เราใช้ในสูตรยามาเน่ สามารถเปลี่ยนได้ตามความเหมาะสม)

อาจารย์ยามาเน่ assume ความมั่นใจร้อยละ 95 และความแปรปรวนสูงที่สุด (maximum variance) ที่ค่า p = .5 ทำให้สูตรยามาเน่ใช้งานง่ายขึ้นและมีตัวแปรที่เราต้องแทนค่าแค่สองตัวคือ N และ e ถ้ากลุ่มประชากรที่เราสนใจ N = 5000 และ e = .05 แทนค่าในสมการด้านบนเราต้องเก็บ sample size = 5000/ (1 + 5000*.05^2) = 370 คน ตัวเลขนี้คือ n ขั้นต่ำที่เราต้องการในงานวิจัยนั้นๆ

Tip – เวลานักวิจัยตลาดทำงานจริง เราจะประเมิน % response rate ว่าเวลาออกไปสัมภาษณ์ เราต้องติดต่อผู้ตอบแบบสอบถามทั้งหมดกี่คนเพื่อให้ได้ n ที่เราต้องการ สมมติว่า % response = 20% เราต้องติดต่อ (i.e. contacts) อย่างน้อย 370 / .2 = 1850 คน นี่มันงานยากกว่าที่คิด 555+

When to Use

เราใช้สูตรยามาเน่ในกรณีไหน? สูตรนี้จะใช้ได้ถ้าเงื่อนไขต่อไปนี้เป็นจริง

  • เรารู้จำนวนประชากรทั้งหมด (finite population)
  • ค่าของประชากรที่เราต้องการวัดเป็นค่าร้อยละคิดจากคำถามแบบ dichotomous (% proportion) ถ้าแบบสอบถามเป็นแบบ likert scale (e.g. 1-5) เราก็จะไม่สามารถใช้สูตรยามาเน่ได้
  • การสุ่มตัวอย่างเป็นไปตามทฤษฏีความน่าจะเป็น (random sampling)

Tip – ถึงแม้ว่าแบบสอบถามเราจะเก็บมาแบบ likert scale 1-5 เราก็สามารถประยุกต์ใช้สูตรยามาเน่ได้ ด้วยการจับกลุ่มคำตอบของคำถามแบบ likert scale (i.e. grouping) เช่น โค้ด 4/5 = 1 และ 1/2/3 = 0 เป็นต้น

ในกรณีที่เราไม่รู้จำนวนประชากรเป๊ะๆ วิธีที่คนส่วนใหญ่ใช้คือการประมาณค่า N คร่าวๆใส่ไปในสูตรยามาเน่เพื่อให้ได้ sample size ออกมาประมาณ 380-400 แอดเขียนอธิบายเรื่องนี้ในหัวข้อถัดไป

Sample Size Table

ถ้าเราใช้ e = .05 ในสูตรยามาเน่และขนาดประชากรใหญ่ขึ้นเรื่อยๆ sample size ที่เราคำนวณได้จะ converge สู่ตัวเลข 400 แปลว่าจริงๆเราไม่ต้องเสียเวลาคำนวณ ใช้ n=400 ไปเลย จบๆ 555+ (ลองดูตารางสรุปด้านล่าง)

populationsample size (e=0.05)
1,000286
10,000385
100,000398
1,000,000400

ตัวแปรที่ส่งผลต่อ sample size มากที่สุดในสูตรยามาเน่คือค่า e ด้านล่างแอดลองสร้างตาราง n โดยกำหนด e = .01 (e ลดลงแปลว่าผลแม่นยำมากขึ้น) n จะมีค่าเพิ่มขึ้นแบบก้าวกระโดดเมื่อเทียบกับตาราง e = .05 ด้านบน ลองเปรียบเทียบที่ N=100,000 ระหว่าง n=398 (e=.05) และ n=9091 (e=.01) แตกต่างกัน 22.8 เท่า!

populationsample size (e=0.01)
1,000909
10,0005000
100,0009091
1,000,0009901

ในทางตรงกันข้าม ถ้าเราเพิ่ม e = .10 ที่ N = 100,000 sample size ที่เราต้องการจากสูตรยามาเน่จะเท่ากับ 100000 / (1 + 100000*.10^2) = 100 คน คำแนะนำสำหรับนักศึกษา ป.ตรี/ โททั่วประเทศที่อยากใช้สูตรยามาเน่ในงานวิจัย ถ้าเวลาเก็บข้อมูลมีน้อยและต้องรีบส่งงานอาจารย์ ให้ลองปรับค่า e เป็น 7-8% จะได้ไม่ต้องเก็บ sample size เยอะมาก (งานเสร็จทัน ไม่ต้องเครียด 555+)

The Master Formula

แล้วโลกนี้มีสูตรที่ดีกว่าของยามาเน่มั้ย? มี! มาดู master formula นี้กัน

เว็บไซต์สร้างแบบสอบถาม/ market research survey ระดับโลกอย่าง Qualtrics และ SurveyMonkey ใช้สูตรการคำนวณ sample size ที่ละเอียดกว่าของยามาเน่ และสามารถประยุกต์ใช้ได้ทั้งแบบรู้หรือไม่รู้จำนวน population ก็ได้ (อ้างอิงจาก Cochran, 1963) กรณีที่เราไม่รู้ N ให้ใช้สูตรนี้

โดยที่ p * (1-p) เรียกว่า variance ถ้าเรากำหนดค่า p = .5; (1-p) = .5 เราจะได้ maximum variance = .5 * .5 = .25 (i.e. ค่า p ที่นิยมใช้ในสูตรนี้คือ .5) ค่า e เป็นตัวเดียวกันกับสูตรยามาเน่ ส่วน z ได้มาจาก Standard Normal Distribution ในตารางด้านล่าง โปรแกรมสถิติส่วนใหญ่กำหนดค่า confidence = .95 (default) แปลว่าตัวเลข z = 1.96 จะถูกหยิบมาใช้บ่อยมาก เป็นตัวเลขที่นักสถิติต้องจำได้ (แอดจำหมดเลยตั้งแต่ 1.65 1.96 2.58)

Confidence Levelz
90%1.65
95%1.96
99%2.58

มาลองดูตัวอย่างนี้ confidence level = .95, p = .5 และ e = .05 เราจะคำนวณ sample size = (1.96^2 * .5 * (1-.5)) / (.05^2) = 384.16 ปัดขึ้นเป็น 385 คน (ค่านี้เรียกว่า n0)

กรณีที่เรารู้ N ให้ใช้สูตรต่อไปนี้ปรับ n0 ที่เราได้จากสมการด้านบน นักสถิติเรียกสูตรที่สองนี้ว่าการทำ Finite Population Correction สมมติว่า N=3000 แทนค่าในสมการ 385 / (1+(385-1)/ 3000) = 341.3 ปัดขึ้นเป็น 342 คน สังเกตว่า n จะลดลงจากกรณีที่เราไม่รู้ N นิดนึง

วิธีการคำนวณนี้จะได้ผลเท่ากับโปรแกรมคำนวณ sample size ของทั้ง Qualtrics และ SurveyMonkey เลย ข้อดีของการใช้สูตรนี้คือเราสามารถปรับระดับความเชื่อมั่น (z) และ margin or error (e) ได้ด้วยตัวเอง เด็ด!

โปรแกรมคำนวณ sample size ของ SurveyMoney สามารถใช้งานได้ฟรี

Summary

แอดแนะนำให้เปลี่ยนมาใช้สมการนี้ดีกว่า n = z^2*p*(1-p) / e^2 (i.e. ยืดหยุ่น ปรับจูนค่าได้ง่ายกว่า) ใช้คู่กับ finite population correction กรณีที่เรารู้ขนาดประชากรจริง เป็นสูตรเดียวกับที่ บ.วิจัยระดับโลกใช้กัน

สูตรทั้งหมดที่เราสอนในบทความนี้ใช้ได้กับงานวิจัยเชิงสำรวจเท่านั้น (i.e. observational study) เช่น การสำรวจความเห็นผู้บริโภค เป็นต้น ถ้างานวิจัยของใครเป็นแบบการทดลอง (i.e. experimental study) เช่น การทำ AB testing ทดสอบเรื่อง causality ฯลฯ การกำหนด sample size ต้องใช้ความรู้เรื่อง statistical power ด้วย ลองอ่านบทความเรื่อง power ของเราได้ที่นี่

Final Note – ถ้าเกิดแบบสอบถามเราเป็นการวัดค่าเฉลี่ย (mean) จะมีอีกสูตรนึงที่ใช้บ่อยๆคือ n = z^2*sigma^2 / e^2 แต่ในทางปฏิบัติสูตรนี้ก็นำมาใช้ได้ยากเพราะว่า sigma คือความแปรปรวนของค่าเฉลี่ยในประชากรที่เราไม่รู้ค่า (unknown parameter) บริษัทวิจัยตลาดและ survey platform จึงนิยมใช้สูตรที่เราสอนในบทความนี้มากกว่า (i.e. กำหนด p = 0.5 เพื่อให้ได้จำนวน n ขั้นต่ำที่เราต้องเก็บในแต่ละโปรเจ็ค)

ปล. รูป blog cover วันนี้คืออาจารย์ Toru Muranishi (The Naked Director) ไม่ใช่รูปอาจารย์ยามาเน่นะ 555+

References

  • What is Yamane sample calculation – Quora
  • Determining sample size – University of Florida บทความนี้ดีมาก แนะนำให้อ่านถ้ามีเวลา 😛

ส่วนด้านล่างเป็นตาราง sample size ของ Yamane สังเกตว่ายิ่ง margin error สูงขึ้นเท่าไหร่ sample size จะค่อยๆลดลงตามสูตรที่เราอธิบายในบทความนี้เลย

ตาราง sample size – Yamane (ที่มา University of Florida)

9 thoughts on “รีวิวสูตรคำนวณจำนวนตัวอย่างของ อ.Taro Yamane

  1. บทความนี้ดีมากๆ อธิบายเข้าใจง่ายเช่นเคย เคยสอนวิจัยตลาดและก็มีส่วนที่ยังไม่เข้าใจถ่องแท้ มีหลายเรื่องที่พี่ได้เข้าใจมากขึ้นพอได้อ่านแล้ว ขอเอาความรู้​นี้แชร์​ต่อนะครับ​

  2. พอดียังไม่เข้าใจประโยค “ค่าของประชากรที่เราต้องการวัดเป็นค่าร้อยละคิดจากคำถามแบบ dichotomous (% proportion) ถ้าแบบสอบถามเป็นแบบ likert scale (e.g. 1-5) เราก็จะไม่สามารถใช้สูตรยามาเน่ได้” ครับ พอมีตัวอย่างไหมครับ
    และขอบคุณสำหรับความรู้เรื่องการใช้สูตรยามาเน่ครับผม

    1. Yamane ใช้ได้กับคำถามที่ตอบแบบ yes/no ครับผม เพื่อวัด %คนที่ตอบใช่ หรือไม่ใช่ แต่ถ้าแบบสอบถามเราวัดแบบ likert scale 1-5 สูตรยามาเน่อาจจะไม่เหมาะเท่าไหร่ (วิธีอ้อมๆคือเราจับกลุ่มคำตอบ 4/5 เป็นโค้ด 1 และ 1/2/3 เป็นโค้ด 0 ก็พอจะใช้ยามาเน่ได้ครับ)

      1. ขอบคุณมากๆครับ เข้าใจเลยครับ ติดตาม datarockie ใน FB อยู่เรื่อยๆนะครับ

  3. สวัสดีค่ะขอถามหน่อยนะคะว่าสมมุติว่าถ้างานวิจัยก่อนให้ค่า prevalence เป็น 14 ต่อ100000คน จะแทนค่า n อย่างไรคะ

    1. prevalence จริงๆแอดเห็นคนใช้เยอะกับงานวิจัยแบบทดลองครับ (experiment) จะเป็นคนละหลักการกับการทำ survey ในบทความนี้ครับ ลองดูตัวอย่าง prevalence, precision กับการคำนวณ sample ได้ในบทความนี้ครับ https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4017493/

  4. ถ้าจะใช้สูตรของยามาเน โดยใช้ประชากรที่มาจากการเทียบเทียบบัญญัติไตรยางค์ ได้มั้ยคะ

  5. การคำนวณขนาดตัวอย่างของยามาเน่ ควรใช้กับลักษณะประชากรแบบไหนคะ

Leave a Reply