DataRockie

เทคนิคการกำหนด Sample Size ง่ายๆ ใช้ได้ทุกงาน

กำลังทำวิจัย market research, survey, poll แต่ไม่รู้ว่าต้องเก็บ sample size เท่าไรดี? บทความนี้มีคำตอบ ชัดทุกประเด็น #พรรคพี่ไม่ได้มาเล่นๆ

  • ตอบสั้นๆในทางสถิติคือ n ยิ่งเยอะ ยิ่งดี
  • ตอบยาวๆคือขึ้นอยู่กับ confidence level และ margin of error ที่เรารับได้
  • ตอบเชิงธุรกิจคือ ขึ้นอยู่กับเงินและเวลาที่เรามีในการทำงานนั้นๆ

โอ้โหว มีหลายมุมมอง งั้นเรามาเริ่มจากเชิง academic กันก่อน (แบบพวกงานวิจัยเด็กมหาลัย)

Types of Research

ขอบคุณรูปสวยๆจาก Pexels

งานวิจัยทางสถิติหลักๆจะมีอยู่สองแบบ แต่ละแบบมีวิธีการ set up วิเคราะห์และสรุปผลแตกต่างกัน

  1. observational study อยากรู้พฤติกรรมหรือทัศนคติของประชากรที่เราสนใจ จะหนักไปที่การทำ estimation เช่น อยากรู้ว่าคนไทยชอบกินชานมไข่มุกกี่ %? i.e. unknown parameter
  2. experimental study ต้องการทดสอบพวก causality หรือ cause and effect ในเรื่องที่เราสนใจ AB test เป็นหนึ่งในเครื่องมือที่ใช้เยอะที่สุดสำหรับการทดลองประเภทนี้

market research (incl. survey, poll) ถือว่าเป็น observational study คือนักวิจัยออกไปสังเกตพฤติกรรมของผู้บริโภค พูดคุย สอบถามความเห็น แต่ไม่ได้พยายามจะเปลี่ยนหรือแทรกแซงพฤติกรรมเหล่านั้น ในขณะที่ experiment คือการทดสอบอะไรบางอย่าง เช่น การอ่านหนังสือช่วยให้คะแนนสอบดีขึ้นจริงหรือเปล่า?

พอวัตถุประสงค์ของงานวิจัยทั้งสองแบบไม่เหมือนกัน ทำให้หลักการคำนวณ sample size แตกต่างกันไปด้วย

Sample Size Formula

สูตรการคำนวณ sample size ของ market research ปกติรู้แค่ confidence level และ margin of error ที่เรารับได้ก็เพียงพอแล้ว (เด๋วเราจะอธิบายสองค่านี้ให้อ่าน รอแป๊ป) ส่วนงาน experiment จำเป็นต้องรู้ค่า power และ effect size เพิ่มขึ้นมา แถมต้องมีการ set up อีกร้อยแปดอย่าง งาน craft มากๆ

bnk48

วันนี้เราจะโฟกัสที่ sample size ของการทำ survey เป็นหลัก คำถามแบบ binary question ตอบได้แค่ใช่หรือไม่ใช่ เช่น คุณชอบ BNK หรือเปล่า? ชอบบบบบบบบ ถถถ+

  • Confidence Level แปลว่าเราจะมั่นใจในผล estimate ของเราได้กี่ %
  • Margin of Error แปลว่าผล estimate ของเราจะเหวี่ยงขึ้นลงประมาณไหนถ้าเราต้องสุ่มตัวอย่างซ้ำอีกหลายๆครั้ง เหมือนดู variance ของค่า estimate ที่เราเก็บมา

สมมติเราทำ survey ที่มีค่า confidence level เท่ากับ 95% และ MoE เท่ากับ 5%

ผล survey พบว่า 75% ของผู้ตอบแบบสอบถามตอบว่าชอบ BNK เราจะเขียนสรุปได้แบบนี้ estimated preference for BNK = 75% [+/-5%] หรือเท่ากับ [70% ≤ X ≤ 80%] โดย X คือค่า estimate ที่นักสถิติเรียกว่า Random Variable

  • ถ้า X คือค่า random variable แปลว่ามันจะเปลี่ยนไปเรื่อยๆถ้าเราสุ่มตัวอย่างใหม่
  • ทุกครั้งที่เราสุ่มตัวอย่างใหม่ทำทุกอย่างเหมือนเดิมเป๊ะ ค่า X จะมี MoE เท่ากับ +/- 5%
  • [lower bound ≤ X ≤ upper bound] เรียกว่าช่วงความเชื่อมั่น Confidence Interval หรือเรียกสั้นๆว่า CI
  • ถ้าเราทำ survey ซ้ำ 100 ครั้ง เราจะได้ CI มาทั้งหมด 100 ช่วง – CI 95% แปลว่า ช่วงความเชื่อมั่น 95/100 ช่วงที่เราสร้างขึ้นมาจะเก็บค่า true parameter ว่าคนไทยชอบ BNK กี่ %?

ตรงนี้สำคัญมาก ทฤษฏีที่เราอธิบายใน section นี้จะเป็นจริงก็ต่อเมื่อการสุ่มตัวอย่างเป็นไปอย่างแรนดอม!! เช่น simple random sampling เป็นต้น

แล้ว confidence interval, margin of error มีความสัมพันธ์ยังไงกับ sample size?

Up Your Sample Size

ถ้าเราเพิ่ม sample size จะส่งผลสามอย่างต่อค่า estimate ที่เรากำลังศึกษาอยู่

  1. ความแม่นยำจะสูงขึ้น – greater accuracy
  2. มั่นใจในผลได้มากขึ้น – greater confidence
  3. margin or error จะต่ำลง – greater precision

ไม่ต้องกังวลกับสูตรคำนวณเยอะ เพราะตามหลักสถิติการเก็บ n ยิ่งเยอะยิ่งดี (เก็บน้อยไปสิที่จะมีปัญหา!) ไอเดียนี้ใช้ได้กับทั้งงาน observational และ experimental study

แต่ถ้าใครทำงานเป็น market research agency จะเจอกับความจริงว่าลูกค้าทุกคนที่มาจ้างเราทำ survey มีเงินและเวลาที่จำกัด งานร้อนมาตลอดปีเพราะลูกค้าอยากได้ผลเร็วๆ แปลว่าในทางปฏิบัติ n จะขึ้นอยู่กับปัจจัยทางธุรกิจมากกว่าปัจจัยทางสถิติที่เราเขียนอธิบายมาตั้งยาว 555+

Business factors (money + time) > Statistical factors (confidence + error)

DataRockie

และจุดนี้เองที่ทำให้โลกฝั่ง business กับ academic มองปัญหาจากมุมที่แตกต่างกัน ฝั่งหนึ่งเน้น result อีกฝั่งเน้นกระบวนการ procedure by the book

Note – best case คือมีทั้งเงิน มีทั้งเวลา และ set up ทุกอย่างตามหนังสือสถิติเป๊ะๆ แต่ยอมรับเหอะว่ามันทำได้ยากมากในชีวิตจริง random sampling ของจริงก็ทำได้ยากมาก ให้ตายเถอะ !!

But How Large?

Saturation x Number of Interviews (ที่มา – medium)

อะไรที่เยอะมากไปก็ไม่ดี sample size ก็เช่นกัน อ้าวววววไหนตอนแรกบอกยิ่งเยอะยิ่งดี?

กฏธรรมชาติที่เกิดขึ้นเสมอเวลาเราเพิ่ม sample size ของเราคือ Law of Diminishing Return การสัมภาษณ์ n เพิ่มขึ้น 1 คน จะได้ผลตอบแทนต่อหน่วยลดลงเรื่อยๆ

ผลตอบแทนที่ว่าคือ incremental knowledge ที่ได้จากการเพิ่มกลุ่มตัวอย่าง ศัพท์เทคนิคที่นักวิจัยเชิงคุณภาพใช้กันคือ Saturation หรือจุดอิ่มตัวขององค์ความรู้ พอถึงจุดนั้นก็ควรหยุดทำ in-depth ได้แล้ว

เวลาเราจ้าง market research agency ทำ survey เค้าจะคิดเงินเป็นราคาต่อหัวของผู้ตอบแบบสอบถาม ภาษาอังกฤษเรียกว่า cost per interview (CPI) เช่น โปรเจ็คราคาสองแสนบาท n=1000

CPI จะเท่ากับ 200000/ 1000 = 200 บาท เป็นราคา fixed ที่อยู่ใน proposal

sample ช่วงแรกที่เราเก็บมาตั้งแต่คนที่ 1-100 อาจจะให้ข้อมูลเราเยอะมากเกี่ยวกับเรื่องที่เราศึกษา แต่ sample คนที่ 1900-2000 อาจจะไม่ได้ให้ new information เราเท่าไร พูดง่ายๆคือข้อมูลเราอิ่มตัวแล้วแต่ลูกค้ายังต้องจ่ายเงินเท่าเดิมคือหัวละ 200 บาท

แปลว่าเงินที่จ่ายสำหรับ n 1900-2000 ได้ผลตอบแทนน้อยลงเปรียบเทียบกับ n 0-100 และนี่คือหัวใจของกฏ diminishing return – too many is not good, but too few is also unhealthy.

The One Rule You Need

Maximize sample size ภายใต้งบประมาณและเวลาที่มีจำกัด อย่าลืมเรื่อง diminishing return การเก็บ sample มากขึ้นได้จะผลตอบแทนต่อหน่วยลดลงเรื่อยๆ

Sample Size Table

สำหรับเพื่อนๆที่อ่านมาถึงตรงนี้แล้วอยากรู้ว่า survey ของเราควรเก็บ n เท่าไรดี ลองดู guideline ได้ในตารางด้านล่าง โดยคอลั่ม MoE assume CL 95% และคอลั่ม CL assume MoE 5%

เช่น งาน survey ที่มี pop เกินหนึ่งล้าน confidence level 95% MoE 5% ต้องเก็บ n = 384

sample size guideline โดย Survey Monkey

Final Tip

ไม่ใช่ทุกคนจะช่วยตอบแบบสอบถามกลับมาให้เรา ถ้าเป็น online survey ได้ response rate แค่ 20-30% ก็ถือว่าหรูแล้ว ถ้าเราต้องการ complete n = 400 แปลว่าตอนส่ง survey อาจต้องส่งเกิน 400 ไปพอสมควร (มี buffer) คิดง่ายๆจากสูตร n/response rate

เราต้องส่ง survey ทั้งหมดมากกว่า 1300 ชุดถึงจะได้ n กลับมาอย่างน้อย 400 ถ้า response rate อยู่ที่ประมาณ 30% นักวิจัยตลาดเรียก % นี้ว่า incidence และราคา CPI ขึ้นอยู่กับตัวเลขนี้โดยตรง


References

Leave a Reply