DataRockie

เมื่อ Statistical Significance ถูกตั้งคำถามอีกครั้งในศตวรรษที่ 21

เมื่อวันที่ 20 มีนาคมที่ผ่านมา มีหนึ่งบทความตีพิมพ์ในนิตยสาร Nature กล่าวถึงการทำ statistical significance ด้วยค่า p-value และกฎที่เราใช้กันมาเกือบร้อยปี P < .05 ใจความสำคัญของบทความนี้คือการเรียกร้องให้นักวิทยาศาสตร์หยุดใช้ P ทดสอบสมมติฐานเพื่อสรุปผลซิก/ ไม่ซิกของงานวิจัย

[su_spoiler title=”Nature คืออะไร?”]Nature คือ academic journal ที่มีค่า impact factor อันดับต้นๆในโลก เรียกได้ว่าบทความที่ได้ตีพิมพ์ใน journal นี้คุณภาพระดับโคตรพรีเมียม ทำให้บทความ “Statisticians rise up against statistical significance” ถูกแชร์มากมายบน facebook เมื่อวานนี้[/su_spoiler]

ผู้เขียนบทความนี้ทั้งสามคน {Amrhein, Greenland และ McShane} ไม่ได้มาตัวคนเดียว เพราะเค้าไปล่าลายชื่อของเพื่อนนักวิจัยอีกมากกว่า 800 คนจาก 50 ประเทศ ที่เห็นด้วยกับเนื้อหาในงานฉบับนี้

We agree, and call for the entire concept of statistical significance to be abandoned.

V. Amrhein, S. Greenland, B. McShane

Difficult to Understand

เหตุผลหลักที่ควรหยุดใช้ p-value สรุปผลซิก/ ไม่ซิกคือคนส่วนใหญ่ขาดความเข้าใจในการใช้งาน ขนาดนักสถิติที่เรียนมาอย่างจริงจังเป็นสิบๆปียังอธิบายค่านี้ผิดไปจากทฤษฏี จากการวิเคราะห์ 791 บทความพบว่า 51% สรุปผล significance ผิด (รูปด้านล่าง)

ที่มา: V. Amrhein et al.

[su_highlight background=”#DDFF99″ color=”#000000″]p-value ไม่ใช่ concept ที่เข้าใจง่ายๆ ตามทฤษฏีเราสามารถเขียน p-value เป็นความน่าจะเป็นได้แบบนี้ -> p(observed data or more extreme | null hypothesis is TRUE)[/su_highlight] แต่ก็มีนักวิจัยอีกหลายคนอ่านค่านี้ว่า p(null hypothesis is TRUE | observed data or more extreme) เช่น P=0.02 มีโอกาสแค่ 2% ที่ Ho จะเป็นเรื่องจริง ซึ่งเป็นการอ่านค่าที่ผิดอย่างแรง เพราะชีวิตจริงเราไม่สามารถพูดเรื่องความน่าจะเป็นของ Ho ได้เลย นอกจากจะทำ inverse probability ด้วย Bayes Theorem ตามที่เราอธิบายในบทความนี้

[su_spoiler title=”การอธิบายค่า P อย่างถูกต้อง”]ความน่าจะเป็นของข้อมูลที่เราเก็บมาถ้าเกิด hypothesis (Ho) เป็นเรื่องจริง เช่น P=0.02 อ่านว่า “ความน่าจะเป็นของ data ที่เราเห็นตรงหน้ามีโอกาสเกิดขึ้นแค่ 2% ถ้าสมมติฐานที่เรากำลังทดสอบเป็นเรื่องจริง”[/su_spoiler]

การใช้ Bayes ไม่ได้แปลว่าเราจะสรุปผลได้ดีกว่า p-value แต่อย่างน้อย Bayesian ก็ยอมรับเรื่องความไม่แน่นอน <uncertainty> ที่มีอยู่ในผลวิจัยของเรา

Weaknesses of P

มาดูจุดอ่อนสำคัญของการใช้ p-value กันบ้าง การใช้ P สรุปผลนัยสำคัญทางสถิติโดยไม่คำนึงถึงเหตุผล 4 ข้อด้านล่างมีโอกาสที่นักวิจัยจะสรุปผลผิดสูงมาก i.e. มั่นใจเกินไปกับผล significance ที่ได้

  • p-value อ่อนไหวต่อ sample size ยิ่งเราเก็บตัวอย่างมากขึ้น โดยทั่วไป p-value จะลดลง ในยุคของ Big Data แทบจะทุกการทดสอบทางสถิติส่งค่า P < .05 ได้หมดเลย
  • confidence level .95 และ alpha .05 ไม่ได้แปลว่าเราจะมั่นในผล significance ได้ 95% หรือมีโอกาสเกิด false positive แค่ 5% (อ่านบทความเรื่อง False Discovery ของเราได้ที่นี่)
  • [su_highlight background=”#DDFF99″ color=”#000000″]ปัญหาเรื่อง replication งานวิจัยส่วนใหญ่ไม่สามารถทำซ้ำแล้วได้ผลเหมือนเดิม เพราะ P เป็นค่า random statistics ที่เปลี่ยนไปเรื่อยๆตามการสุ่มตัวอย่าง[/su_highlight]
  • P < .05 ไม่ได้แปลว่าผลวิจัยของเราจะมี practical significance นอกจากค่า P นักวิจัยต้องอธิบาย confidence interval และ effect size (กรณีทำ experiment study) ในเปเปอร์ของเราด้วย

What Should We Do?

บทความนี้สรุปว่า “เราควรหยุดใช้ p-value เพื่อสรุปผล significance” และควรอธิบายเรื่องความไม่แน่นอนของผลวิจัย – We must learn to embrace uncertainty (เข้าทาง Bayesian เลย 555+)

นักวิทยาศาสตร์ควรรายงานค่า P แบบเป๊ะๆ เช่น P=0.021 หรือ P=0.13 โดยไม่ต้องบอกว่าผลวิจัยนั้นซิกหรือไม่ซิก ไม่ต้องมี *** เพื่อโน้มน้าวคนอ่าน ไม่ต้องมี statistical threshold .05 มาเกี่ยวข้อง เพื่อให้นักวิจัยใช้เวลากับการคิด <thinking> โฟกัสที่การแก้ปัญหามากกว่าการทำงานเพื่อผล significance

References

Leave a Reply