The truth is rarely pure and never simple.
Oscar Wilde
โลกเรามีข้อมูลใหม่เกิดขึ้นทุกวัน วันละประมาณ 2.5 quintillion bytes (source: IBM) ถ้าใครนึกไม่ออกว่ามันเยอะขนาดไหน มันคือ 2,500,000,000,000,000,000 bytes (10 ยกกำลัง 18)
Big Data มหาศาลนี้เองที่เป็นแรงขับเคลื่อนโลกของเราในศตวรรษที่ 21 คงไม่ผิดที่จะบอกว่ามนุษย์ใช้ data เป็นเครื่องมือในการหาความจริง (truth seeking) เพื่อแปรเปลี่ยนเป็นความรู้ (knowledge) ในการพัฒนาศักยภาพด้านอื่นๆของพวกเราต่อไปในอนาคต
แต่ Big Data ก็มาพร้อมกับปัญหาใหม่ เพราะมันทำให้การแยก signal ออกจาก noise | แยกข้อเท็จจริง (fact) ออกจากความคิดเห็น (opinion) | แยกความจริง (truth) ออกจากความเชื่อ (belief) ทุกวันนี้กลายเป็นงานที่ยากกว่าที่เคย
สื่อสังคมออนไลน์เป็นหนึ่งใน platform ที่มีข้อมูลเกิดขึ้นเยอะมากในแต่ละวัน ไม่ว่าจะเป็น comment post blog รวมถึงยอด like & share หากมองไปที่เบอร์หนึ่งของโลกอย่าง facebook จะพบว่าในเดือนหนึ่งๆ …
- facebook มี active users > 2.07 พันล้านคน (newsroom)
- สมาชิกกด share content > 3 หมื่นล้านครั้ง (kissmetrics)
- สมาชิกกด like content > 1.7 แสนล้านครั้ง (hootsuite)
โดยเฉพาะประเทศไทยมีการใช้งาน facebook ติดท๊อป 10 ของโลกเลยทีเดียว สถิติปี 2017 มีคนไทยใช้งาน facebook ประมาณ 47 ล้านคน (Bangkok Post) ทุกวันเราเข้าไปบริโภคข้อมูลบนสื่อออนไลน์โดยที่เราไม่เคยหยุดคิดเลยว่าข้อมูลเหล่านั้นเป็นความจริง หรือมันเป็นแค่ความเห็น (หรือความเชื่อ)?
แล้วเราจะรู้ได้ยังไงว่าข้อมูลไม่ได้หลอกเราอยู่? data never lie เป็นประโยคที่ overrated มากๆ และบทความวันนี้จะอธิบายให้คุณเข้าใจเอง
Data never lie, HYPE!

The truth will set you free, but first it will piss you off.
Joe Klaas
ความจริงจะปลดปล่อยคุณ แต่มันจะทำให้คุณหัวเสียในตอนแรก … ปี 2016 Donald Trump ดูไม่มีโอกาสจะชนะการเลือกตั้งเลย บล๊อกพยากรณ์ชื่อดังอย่าง FiveThirtyEight ของ Nate Silver ทำนายโอกาสชนะของ Trump แค่ 28.6% แต่เราทุกคนรู้ผลการเลือกตั้งอยู่แล้วว่าสุดท้ายมันออกมาเป็นยังไง
ชัยชนะของ Trump ฉีกทุกโพลการเลือกตั้งทั่วโลก ด้วยเหตุผลง่ายๆคือ ข้อมูลกำลังโกหก และ facebook เป็นหนึ่งในตัวแปรสำคัญที่ทำให้ผลการเลือกตั้งออกมาค้านสายตาชาวโลกขนาดนี้
Mark Zuckerberg ที่ครั้งหนึ่งเคยปฏิเสธว่า facebook ไม่มีอิทธิพลในการเปลี่ยนผลการเลือกตั้ง ถึงกับเขียนบนหน้าวอลล์ตัวเองว่า “Calling [the idea misinformation on Facebook] crazy was dismissive and I regret it.” (ดู original post ของพี่มาร์คได้ที่ลิ้งนี่)
ในยุคที่ data science กำลังรุ่งเรือง ไม่แปลกที่ “data never lie” จะกลายเป็น media hype ที่ใครๆก็พูดกัน อารมณ์ประมาณว่า data ไม่เคยโกหก แต่คนที่แปลผลมันต่างหากที่ไม่เข้าใจจึงแปรผลผิด มีแต่ data scientist | statistician เท่านั้นที่จะเข้าใจ data จริงๆ … WTF?
Data never lie มีเงื่อนไขหลายข้อที่ต้องเป็นจริงก่อน → ประโยคนี้ถึงจะ VALID
- แหล่งที่มาต้องน่าเชื่อถือ (reliable source)
- ข้อมูลถูกเก็บมาอย่างเหมาะสม (proper data collection)
- ข้อมูลที่เก็บมา represent ปัญหาที่ต้องการจะแก้จริงๆ (representative)
- ข้อมูลมาแบบเต็มๆ ไม่ใช่จากการสุ่ม (wholeness)
- ข้อมูลถูกวิเคราะห์โดยคนที่เข้าใจสถิติ (statistics & domain expertise)
- ถ้าเราเปลี่ยนกลุ่มตัวอย่างใหม่ ต้องได้ข้อสรุปไม่ต่างจากเดิม มีความต่อเนื่อง (replicability & consistency)
ถ้าเงื่อนไขด้านบนไม่ meet ก็จบ … ข้อมูลที่คุณได้ยินหรืออ่านเจอมามีแนวโน้มสูงมากที่กำลังหลอกคุณอยู่ และเงื่อนไขที่สำคัญที่สุดในการพิสูจน์ว่า data never lie คือข้อสุดท้ายที่เกี่ยวกับ replicability & consistency เพราะมันคือ “หัวใจของงานวิจัยทางวิทยาศาสตร์ทั้งหมดในโลกนี้เลย”
ข้อมูลหรืองานวิจัยใดที่ไม่สามารถทำซ้ำได้ ไม่สามารถให้บทสรุปที่ต่อเนื่องได้ ข้อมูลนั้นกำลังเจอกับปัญหาที่ร้ายแรงที่สุดของ science ทุกวันนี้ นั่นคือ “Overfitting” (ชื่อเล่นของ hallucinating pattern)
อย่ามั่นใจเกินไป

Hallucination (n.) ประสบการณ์ที่คุณรู้สึกเหมือนจริง แต่มันไม่ใช่ความจริง และไม่มีอยู่จริงเลย
Overfitting อธิบายแบบ layman’s terms คือการที่เราเชื่อในข้อมูลที่เรามีมากเกินไป เราคิดว่าสิ่งที่เห็นใน data เป็นเรื่องจริง แต่ความจริงกลับตรงข้ามกันอย่างสิ้นเชิง
อธิบายในเชิงเทคนิค overfitting คือการที่เรามี data → เราเจอ pattern ใน data → แต่ pattern นั้นมีอยู่จริงเฉพาะกับ data ก้อนนั้นเท่านั้น → ถ้าได้ data ใหม่มา pattern นั้นจะหายไป
ถ้าเราทำ A/B testing แล้วพบว่าการปรับเว็บไซต์ให้มี background สีฟ้าช่วยเพิ่ม conversion ให้กับเว็บของเรา (สรุปผลแบบ causality) แต่เพื่อนเราอีกบริษัทหนึ่ง (assume ว่าขายสินค้าเหมือนเรา target เดียวกัน) เปลี่ยน BG เป็นสีฟ้าเหมือนกันแต่ conversion ไม่มีการเปลี่ยนแปลงเลย
สีฟ้าอาจจะจริงสำหรับคุณแต่มันไม่จริงสำหรับคนอื่น ถ้ายังยืนยันว่าสีฟ้าช่วยเพิ่ม conversion จริง → คุณกำลังดำดิ่งสู่ปัญหา overfitting เต็มๆ เพราะความสัมพันธ์ที่คุณเจอ (สีฟ้าและ conversion) เป็นแค่ fake causality ถึงแม้จะผ่านการทำ A/B testing มาแล้วก็ตาม
[su_spoiler title=”Causality ต้องทนต่อเวลา”]Causality เป็นคำที่มีความหมายหนักแน่นมาก ถ้าจะบอก x เป็น cause และ y เป็น effect (x → y) ต้องอาศัยการพิสูจน์ที่หนักแน่นมากเช่นกัน นอกจากการ design experiment อย่างเป็นระบบ ผลลัพธ์ยังต้องทนต่อการทดสอบในอนาคตอีกด้วย เพราะนักวิทยาศาสตร์คนอื่นๆจะพยายามล้ม causality ที่คุณเจอมา ถ้าสิ่งที่คุณเจอมัน stands the test of time → มันจะกลายเป็น theory ไปในปริยาย อ่านเพิ่มเติมเรื่อง falsification ได้ที่ https://explorable.com/falsifiability%5B/su_spoiler%5D
อย่ามั่นใจเกินไปกับข้อมูลที่คุณเก็บมา เพราะ Data Often Lie … สิ่งที่คุณเห็นอาจเป็นแค่ภาพลวงตา ตั้งแต่เกิดมาคุณ overfit ข้อมูลกับความเชื่อของคุณมาแล้วกี่ครั้ง? … น่าจะนับครั้งไม่ถ้วน … แล้วเราจะสร้างภูมิต้านทานต่อปัญหา overfitting ได้ยังไง?
Scott Adams นักวาดการ์ตูน|นักเขียนชื่อดังมีทางออก … เริ่มหัดใช้ truth filters สิ
ฟิลเตอร์ความจริง

อ้างอิงจากหนังสือ How to fail at almost everything and still win big (2014) โดย Scott Adams ได้เสนอวิธีการแยกความจริง (truth) ออกจากความเชื่อ (belief) มา 6 วิธีดังนี้
- ประสบการณ์ตรงของเรา (personal experience)
- ประสบการณ์ของคนอื่นที่เรารู้จัก (experience of people you know)
- ผู้เชี่ยวชาญ (experts)
- งานวิจัยทางวิทยาศาสตร์ (scientific studies)
- ใช้ common sense
- การเชื่อมโยง pattern ต่างๆที่เราเห็น (pattern recognition)
สิ่งที่ใกล้เคียงกับ truth มากที่สุดคือ “consistency” โดย Scott แนะนำว่าเวลาที่เราพยายามจะหาข้อสรุปว่าสิ่งที่เราได้ยินได้อ่านมาเป็นเรื่องจริงหรือเปล่า? ให้เรามองหา confirmation (หรือ consistency) อย่างน้อยสองด้านใน 6 ฟิลเตอร์ด้านบน ยิ่งมาก ยิ่งดี
[su_spoiler title=”Scott Adams คือใคร?”][1] Scott Adams เป็น public figure คนแรกๆในอเมริกาที่บอกว่า Trump จะชนะการเลือกตั้งในปี 2016 แปลว่า Truth filters ของเค้าทำงานได้ค่อนข้างดีทีเดียว หนังสือเล่มใหม่ของ Scott ชื่อ Win Bigly อธิบายวิธีคิดของเค้าไว้หมดแล้ว
[2] ในโลกของ machine learning เราเรียกการทดสอบโมเดลด้วย sample ใหม่ว่า train/test split หรือที่ใช้กันอย่างแพร่หลายคือการทำ cross-validation (CV) วิธีการที่ Scott เสนอเหมือนการทำ CV ในชีวิตจริงไม่พึ่งคอมพิวเตอร์[/su_spoiler]
ตัวอย่างเช่น เราอ่านงานวิจัยทางวิทยาศาสตร์ที่สรุปผลว่าการกิน dark chocolate เป็นประจำช่วยลดน้ำหนัก (scientific studies) แต่เราเห็นเพื่อนเรากินเป็นประจำแล้วน้ำหนักมันขึ้นเอาๆ (experience of people you know) → แบบนี้เกิดความ inconsistency เพราะผลลัพธ์ของสองฟิลเตอร์มันขัดกันเอง
แปลว่าข้อมูลที่เราอ่านเจอมาอาจไม่เป็นความจริง การบริโภค dark chocolate → reduce weight มีแนวโน้มสูงขึ้นที่จะเป็นแค่ความเชื่อ (ลองเสิช Google จะพบว่ามีบทความที่อยากให้คนเชื่อเรื่องนี้เยอะมาก ถึงแม้จะไม่มีการพิสูจน์แบบจริงจังก็ตาม)
ผลวิจัยที่แปรปรวน

ผลลัพธ์ของงานวิจัยทางวิทยาศาสตร์ส่วนใหญ่มันทำซ้ำไม่ได้ (fake causality)
อ้าว แต่หลายคนบอกว่า scientific studies เค้าทำการทดลองมาแล้วจะ A/B testing หรือ Randomized Controlled Trial (RCT) ทดสอบนัยสำคัญทางสถิติแบบจริงจังเลย ผลมันจะผิดได้ยังไง? … ถามแบบนี้แปลว่าคุณกำลัง overfit ความเชื่อของคุณอีกแล้ว!
งานวิจัยทางวิทยาศาสตร์ส่วนใหญ่มีโอกาสผิดสูงมาก โดยเฉพาะด้าน healthcare | medical | psychology มีปัญหาสำคัญคือ sample size น้อย (power ต่ำ) ทำให้งานวิจัยเหล่านั้นไม่สามารถทำซ้ำแล้วได้ผลเหมือนเดิม i.e. not replicable | cannot stand the test of time
ถ้าผลวิจัยมีความไม่แน่นอนยังน่าเชื่อถืออยู่อีกไหม? ในเมื่อเป้าหมายหลักของงานวิจัยทางวิทยาศาสตร์คือการสร้างกฎที่ทนต่อการถูก falsify (i.e. ทำซ้ำก็ได้ผลเหมือนเดิม: replicable) แรงโน้มถ่วงเป็นแรงโน้มถ่วงไม่ว่าใครจะทำการทดลองที่ไหนก็ได้ในโลกนี้ แต่กินดาร์คช๊อคโกแลตแล้วลดน้ำหนักได้เกิดขึ้นกับทุกคนหรือเปล่า? ก็คงไม่
อีกหนึ่งเหตุผลที่อธิบายปัญหา inconsistent results คือในเชิงสถิติ ค่า p-value เป็นตัวแปรสุ่มรูปแบบหนึ่ง (random statistics) ถ้าเราสุ่มตัวอย่างใหม่ ผลลัพธ์ที่ได้ก็จะเปลี่ยนไปเรื่อยๆเหมือนกัน เรียกสั้นๆว่า “variance”
ที่เราพบว่า dark chocolate ช่วยลดน้ำหนักอย่างมีนัยสำคัญอาจจะเป็นแค่เรื่องบังเอิญ แต่เราก็บอกไม่ได้อยู่ดีเพราะว่า data กำลังโกหก ถึงแม้เราจะออกแบบงานวิจัยถูกต้องตามทฤษฏีทุกอย่างแล้วก็ตาม p-value ต่ำไม่ได้แปลว่าผลซิกที่ได้จะถูกเสมอ false positive เหมือนเงาที่ตามเราอยู่ตลอดเวลา
บทสรุป

- ความจริงกับความเชื่อมีเส้นบางๆกั้นไว้นิดเดียว และคนส่วนใหญ่แยกไม่ออกด้วยซ้ำว่าอันไหนเรื่องจริง อันไหนเป็นเพียงความเชื่อ
- Big Data เจอความท้าทายในการแยก true signal ออกจาก noise พูดง่ายแต่ทำโคตรยากในชีวิตจริง จนทุกวันนี้แค่ correlation ก็เพียงพอแล้ว + common sense (หรือจะใช้วิธีของ Scott Adams ก็ได้)
- มนุษย์ส่วนใหญ่มี confirmation bias ง่ายที่จะถูกสมองหลอก เช่นการมองเห็น pattern ทั้งๆที่ pattern เหล่านั้นไม่มีจริง หรือมองเห็น noise เป็น true signal
- A/B testing พิสูจน์ causal relationship ไม่ได้ ถ้างานวิจัยเหล่านั้นไม่สามารถทำซ้ำแล้วได้ผลสรุปเหมือนเดิม (i.e. not replicable | cannot stand the test of time)
- ในชีวิตจริง causation ไม่ได้พิสูจน์กันได้ง่ายๆ (direct, reversal, bidirectional causality) ถ้าทำแค่ A/B testing แล้วตอบได้ทุกความสัมพันธ์จริงๆ ปัญหาต่างๆในชีวิตคงแก้ได้หมดแล้ว i.e. reality is fucking complex
- Data never lie ไม่จริงเสมอไป มีอีกหลายอย่างที่เราต้องรู้ก่อนเช่น แหล่งที่มา | วิธีการเก็บข้อมูล | all data หรือ sampling | วิเคราะห์ยังไง | ทำซ้ำได้ไหม ฯลฯ
- ข้อมูลบางประเภทมี variance สูงกว่าแบบอื่นๆมาก เช่น survey data หรือผลโพลรูปแบบต่างๆ (มีครบทั้ง variance และ bias) ผลโพลที่เราเห็นตามสื่อต่างๆส่วนใหญ่เป็นแค่ one side of the coin
- Overfitting เป็นปัญหาระดับชาติ เริ่มใช้ truth filters เพื่อ cross-validate ความเชื่อของคุณได้แล้ว
What’s the catch?

หรือว่าบทความนี้ก็กำลังหลอกคุณอยู่เช่นกัน? เราจะรู้ได้ยังไงว่าข้อมูลที่เราอ่านเชื่อถือได้ และเป็นจริงในโลกทุกวันนี้ที่มันเต็มไปด้วย fake news | false knowledge | dirty data
งั้นเราขอสรุปให้ฟังแบบสั้นๆ ในขณะที่นักข่าวหรือบล๊อกเกอร์หลายๆคนนำเสนอข้อมูลที่เค้าได้รับเงินมาให้เขียนหรือนำเสนอ เช่น advertorial article รูปแบบต่างๆ … บล๊อกเราไม่ได้เงินซักบาทจากการเขียนเลย i.e. คือกูไม่ได้เหี้xไรเลยครับ ยังจนเหมือนเดิม 55555+
แรงจูงใจในการเขียนบล๊อกอย่างเดียวของเราคือ “I want my readers to have new eyes” มีภูมิต้านทานเรื่อง false information ตอนนี้หลายคนน่าจะกำลังอ่านบทความนี้บนมือถือผ่านแอพ Facebook เหมือนกัน ถ้าอ่านมาถึงตรงนี้ทุกคนคงเห็นแล้วว่า Facebook นี่แหละคือแหล่งกระจายข้อมูลผิดๆที่ใหญ่ที่สุดในโลกตอนนี้เลย
ขอบคุณทุกคนที่อ่านบทความนี้จนจบ ต่อไปอย่าเชื่อข้อมูลอะไรทั้งนั้นถ้าคุณยังไม่ได้ justify มันดีพอ เพราะประโยคที่ว่า Data never lie … is just another BIG LIE.
Leave a Reply