ดุสิตโพลเผยผลการสำรวจความคิดเห็นของผู้มีสิทธิเลือกตั้ง 350 เขตทั่วประเทศ จำนวน 79,521 คน เมื่อเย็นวันที่ 24 มีนาคม 2562 เราลองทำตารางเปรียบเทียบผลโพล vs. คะแนนจริงอย่างไม่เป็นทางการด้านล่าง
[su_spoiler title=”Spoiler สาเหตุสำคัญที่ทำให้ผลโพลเพี้ยน”][1] ไม่ได้ใช้การสุ่มตัวอย่างแบบ random sampling ในการสำรวจความเห็น i.e. biased poll
[2] กลุ่มตัวอย่าง 79,521 คน คิดเป็น 0.25% ของจำนวนผู้มีสิทธิเลือกตั้งทั้งหมด i.e. sample ยังน้อยเกินไปสำหรับปัญหาการเลือกตั้ง[/su_spoiler]

คอลั่ม D คำนวณจาก [คะแนนจริง – ผลโพล] ดูแบบเร็วๆจะเห็นว่าผลโพลผิดไปจากความจริงเยอะมาก บทความนี้จะอธิบายเหตุผลสำคัญทางสถิติที่ทำให้ผล poll เพี้ยนได้ขนาดนี้
Biased Polls
นักสถิติเรียกการสุ่มตัวอย่างที่ไม่ได้ใช้ probability sampling ว่า “Biased” แปลว่า มีอคติหรือความคิดเห็นเบี้ยวไปที่คนกลุ่มใดกลุ่มหนึ่ง สิ่งที่ดุสิตโพลไม่ได้บอกในโพลนี้คือเค้าเก็บข้อมูล 79,521 คนจากเขตไหน คิดเป็นสัดส่วนเท่าไรในแต่ละเขต รวมถึง demographic profile เบื้องต้นของผู้ตอบแบบสอบถาม
ทำไมดุสิตโพลถึงไม่บอกข้อมูลอื่นๆเลยนอกจาก result? มีความเป็นไปได้สองอย่างคือ
- ดุสิตโพลต้องรีบส่งผลให้กับสำนักข่าวต่างๆ (assume ว่าทำทุกอย่างถูกตามหลักสถิติ)
- ดุสิตโพลเปิดเผลข้อมูลเหล่านี้ไม่ได้เพราะผลโพลที่เก็บมา biased มากจนไม่สามารถ represent ประชากรผู้มีสิทธิเลือกตั้งจริงได้เลย
Good Practice – ทุกครั้งที่รายงานผล poll ต้องอธิบายเรื่องวิธีการเก็บข้อมูล และสรุปผล profile ของผู้ตอบแบบสอบถามให้ชัดเจน
So Why Biased?
ปกติการเก็บข้อมูล survey/ poll จะมีอยู่สามวิธีดังนี้
- door-to-door พนักงานเดินทางไปสัมภาษณ์ที่บ้านของผู้ตอบแบบสอบถาม
- intercept (บนถนน/ ห้างสรรพสินค้า/ หน่วยเลือกตั้ง) สัมภาษณ์ตามถนนหรือหน่วยเลือกตั้ง
- telephone/ email/ mail/ online สัมภาษณ์ทางโทรศัพท์ อีเมล์ หรือช่องทางออนไลน์อื่นๆ
ดูจากวิธีของดุสิตโพลแล้ว – เก็บตัวอย่างขนาดใหญ่ภายในเวลาจำกัด – น่าจะใช้วิธี INTERCEPT ในการเก็บข้อมูลคือ[su_highlight]ให้พนักงานสัมภาษณ์ไปประจำอยู่ตามหน่วยเลือกตั้งทั้ง 350 เขต และถามใครก็ได้ที่สะดวกจะตอบแบบสอบถามให้เรา สะดวกแบบนี้นักสถิติเรียกว่า “Convenience Sampling” เป็นการสุ่มแบบไม่ใช้ความน่าจะเป็น แปลว่าผลโพลจะเพี้ยน 100%[/su_highlight] บ้าจริง!
[su_spoiler title=”ทำไม convenience sampling ถึงไม่ work?”]สมมติเราเข้าไปถามผู้มีสิทธิเลือกตั้ง 100 คน มีคนช่วยตอบแบบสอบถามให้เรา 70 คน (อีก 30 คนบอกว่าต้องรีบกลับบ้าน) แปลว่า poll นี้จะ represent ผู้มีสิทธิเลือกตั้งที่พร้อมเปิดเผยความเห็นทางการเมือง แต่ไม่ได้ represent ผู้มีสิทธิเลือกตั้งในประเทศไทยทั้งหมด make sense?[/su_spoiler]
Good Practice – สุ่มตัวอย่างแบบใช้ความน่าจะเป็นเสมอ always random ถ้าอยากได้ผลโพลที่เอาไปใช้ได้จริง i.e. มีโอกาสถูกต้องมากกว่า convenience sampling
But We Got Large Sample
แต่พวกผมเก็บ sample มาตั้ง 79,521 คน!! ขนาด sample size ไม่สำคัญเท่ากับคุณภาพของการสุ่มตัวอย่างเลย โพลจะเก็บ sample size มาเป็นล้านแต่ถ้าไม่ random ก็ biased อยู่ดี
Good Practice – ในวิชาสถิติ random sampling ชนะทุกอย่าง กลับไปอ่านข้อบนอีกที
Social Media Polls
ช่วงที่ผ่านมาเราเห็นผลโพลบน social media เยอะมากเช่นกัน การสุ่มตัวอย่างบนช่องทางออนไลน์จัดว่า biased เหมือนกัน เพราะใช้การสุ่มแบบสะดวกอีกแล้ว! ประมาณว่าใครผ่านมาเห็นโพลนี้บน facebook ช่วยกดตอบหน่อย แล้วคนที่ไม่ได้เล่น facebook จะมีสิทธิออกความเห็นหรือเปล่า? ก็ไม่ .. [su_highlight]แปลว่าโพลออนไลน์ (FB) กีดกันคนอีกมากกว่า 20 ล้านคนที่ไม่ได้อยู่ platform นี้ และไม่ได้ represent ประชากรไทยทั้งหมดจริงๆ[/su_highlight]
พี่ต่อ Wisesight ให้ความเห็นเรื่องนี้ได้น่าสนใจ – social media ยังไม่สามารถใช้ represent ประชากรไทยได้ ผลโพลหรือ public data ที่เราเห็นบน facebook/ twitter เป็นแค่เหรียญด้านเดียว
Am I Surprised?
ถามว่าแอดแปลกใจกับผลโพลที่ออกมาหรือเปล่า? ก็บอกเลยว่าไม่ ในประเทศไทยเราไม่ค่อยเห็นผลโพลที่ทำออกมาน่าเชื่อถือจริงๆเลย (ถ้าคิดตามหลักสถิติ) แต่ต้องขอชื่นชมดุสิตโพลที่อย่างน้อยก็ได้ใช้ความพยายามอย่างมากในการเก็บข้อมูล 79,521 คน แค่ครั้งหน้าถ้าอยากได้โพลที่ดีกว่านี้ ลองเปลี่ยนไปใช้วิธีอื่นที่ไม่ใช่ intercept ดูบ้าง หรือทำ intercept + quota on contact ก็ได้
ผมว่าเอาแบบสอบถามมาดูก่อนดีกว่า วิธีการออกแบบคำถาม มันดีพอ ไหม