DataRockie

ทำนายผลการเลือกตั้ง US อย่างแม่นยำด้วย Google Trends

บทความนี้เขียนต่อจาก Intro to Google Trends – Part I (14 พ.ค. 2018) เพื่ออธิบายการใช้งาน Google Trends เพิ่มเติม พร้อมกรณีศึกษาการใช้ Search Data ทำนายผลการเลือกตั้ง US Presidential Election ในปี 2016, 2012 และ 2008

ปล. ตัวอย่างวันนี้ได้มาจากการอ่านหนังสือ Everybody Lies (2017) by Seth Stephens-Davidowitz ถ้าใครสนใจอยากอ่านแบบเต็มๆ ลองดูหน้าปกและราคาได้ที่ Amazon เป็นหนังสือที่อ่านสนุกมาก เผา Big Data รัวๆด้วย Google Trends


US Presidential Election

Trump-vs-Clinton-1
Source: Google การแข่งขันระหว่าง Donald Trump และ Hillary Clinton ในปี 2016

สำหรับ Case Study วันนี้ เราจะใช้ Google Trends เพื่อหาสัญญาณ (Signal) ที่บอกว่าใครน่าจะชนะการเลือกตั้งประธานาธิบดีของประเทศอเมริกาสามรอบล่าสุด ระหว่าง …

  • 2016 – Donald Trump vs. Hillary Clinton
  • 2012 – Barack Obama vs. Mitt Romney
  • 2008 – Barack Obama vs. John McCain

ไฮไลท์จะอยู่ที่คู่ของ Trump และ Clinton ในปี 2016 ที่โพลหลายสำนักบอกว่า Trump มีโอกาสชนะน้อยมาก หลังจากการ Debate โต้วาทีเรื่องนโยบายและตอบคำถามประชาชนชาวอเมริกันครั้งแรกเมื่อวันที่ 26 ก.ย. 2016 สุดท้าย Trump หักปากกาเซียนชนะการเลือกตั้งแบบใสๆ !!

เราจะมาลองดูกันว่า Search Data ในช่วงเวลานั้นออกมาหน้าตายังไง? แล้วมันสามารถใช้ทำนายผลการเลือกตั้ง US Election ได้แม่นยำขนาดไหน?


Who’s Gonna Win?

เริ่มกันที่คู่ล่าสุดในปี 2016 เป็นการแข่งขันกันระหว่าง Trump และ Clinton โดย Keywords ที่เราใช้ในการดึง Search Volume รอบนี้จะเป็นแบบ Phrase สั้นๆอยู่ในเครื่องหมาย "" ส่วนช่วงเวลาที่เราต้องการข้อมูลคือช่วง Q3 – Q4 ของปีนั้นๆ (ช่วงหาเสียง และเลือกตั้งในเดือน พ.ย.)

  • "Trump Clinton Debate" (เส้นสีฟ้า)
  • "Clinton Trump Debate" (เส้นสีแดง)

สำหรับ Candidates ทั้งสองคนในช่วงเวลาดังกล่าวต้องมีการเตรียมตัวโต้วาทีนโยบายของตัวเอง รวมถึงตอบคำถามของประชาชนแบบถ่ายทอดสดทั่วประเทศอเมริกา ในปี 2016 การโต้วาที (First Debate) ครั้งแรกเกิดขึ้นในวันที่ 26 ก.ย. 2016

เราจะเห็นว่าปริมาณการค้นหาคำว่า “Trump Clinton Debate” และ “Clinton Trump Debate” พุ่งสูงขึ้นในช่วงเวลาเดียวกัน (highly correlated) จริงๆในกราฟด้านบนคือหนึ่งวันหลังจากการถ่ายทอดสดเพราะประชาชนหลายคนน่าจะหาดูวีดีโอ Debate ย้อนหลัง หรือค้นหาข่าวสรุปเนื้อการโต้วาทีของทั้งสองคนบน Google / Youtube

ส่วนการโต้วาทีครั้งที่สองและสามเกิดขึ้นในวันที่ 9 และ 19 ต.ค. ตามลำดับ ซึ่งเราก็เห็นการดีดตัวขึ้นของ Search Volume หลังจากนั้นหนึ่งวันเช่นเดียวกัน

หลังจากการโต้วาทีครั้งที่หนึ่ง เราเห็นว่าเส้นสีแดงของ Clinton จะสูงกว่า Trump อยู่นิดหน่อย ซึ่งสอดคล้องกับข่าวช่วงนั้นที่บอกว่า Trump โต้วาทีได้แย่มาก และเป็นฝ่ายพ่ายแพ้ไปในรอบแรก แต่พอเริ่มเข้าเดือน ต.ค. ไปจนถึงการโต้วาทีรอบสองและสาม เราจะเห็นว่าเส้นสีฟ้าของ Trump นั้นวิ่งสูงกว่าของ Clinton อย่างต่อเนื่องไปจนจบการเลือกตั้ง

และ Pattern นี่เองที่เป็นตัวกำหนดว่าใครจะชนะการเลือกตั้งในสมัยนั้นๆ

รู้ได้ยังไง? ก็ดูจากลำดับของชื่อเวลาที่ User คนนั้นค้นหาข้อมูลในอินเตอร์เน็ตสิ !!


Wise Keyword Phrase – Debate!

การเลือก Keyword ของ Mr.Seth ต้องบอกว่าโหดมาก โคตร Genius !!

โดยสมมติฐานของเค้าคือถ้า User คนนั้นชอบ Trump เวลาเค้าเข้าไป Search Google เค้าจะพิมพ์ว่า "Trump Clinton Debate" ↔ ในทางตรงกันข้าม ถ้าเค้าสนับสนุน Clinton ก็มีโอกาสสูงที่เค้าจะพิมพ์ว่า "Clinton Trump Debate" เวลาที่เค้าหาข่าวเกี่ยวกับการเลือกตั้ง

โดย Search Volume ของ Keywords ทั้งสองประโยคนี้เอง ที่เป็นตัวกำหนดว่าใครมีโอกาสสูงที่จะชนะการเลือกตั้งในปีนั้นๆ เพราะมันคือตัวแปรสำคัญที่แสดงถึงความสนใจในตัว Candidate คนนั้น จากข้อมูลเราจะเห็นว่า Trump ได้รับความสนใจสูงกว่า Clinton ตั้งแต่ผ่าน First Debate ไปจนจบแคมเปญเลย (นี่มันม้าตีนปลายชัดๆ !!)


Looking Back to 2012 and 2008

การเลือกตั้งในปี 2012 ระหว่าง Barack Obama และ Mitt Romney ก็ได้ผลเหมือนกับปี 2016 โดย Obama เป็นฝ่ายชนะไปสบายๆ ลอยลำขึ้นเป็นประธานาธิบดีสมัยที่สองติดต่อกัน Search Pattern แสดงชัดเจนว่า Obama ได้รับความนิยมสูงกว่า Romney ดูจากปริมาณการค้นหาข้อมูลใน Google ก็รู้เลย !!

  • "Obama Romney Debate" (เส้นสีฟ้า)
  • "Romney Obama Debate" (เส้นสีแดง)

ย้อนกลับไปอีกหนึ่งสมัยในปี 2008 เป็นการสู้กันระหว่าง Obama และ John McCain โดย Obama ก็เป็นฝ่ายที่ได้ชัยชนะและได้ขึ้นเป็นประธานาธิบดีผิวสีคนแรกของประเทศอเมริกา

  • "Obama McCain Debate" (เส้นสีฟ้า)
  • "McCain Obama Debate" (เส้นสีแดง)

ถ้าดูจากผลการเลือกตั้งสามครั้งหลังสุด ต้องบอกว่า Search Pattern ทำนายถูก 100% เต็มเลยว่าใครจะชนะการเลือกตั้งในปีนั้นๆ Trump (2016) | Obama (2012) | Obama (2008) โดยปริมาณ Search Data จะพุ่งสูงขึ้นหลังจากการ Debate ทั้งสามรอบ และอีกครั้งวันที่รู้ผลการเลือกตั้งในช่วงต้นเดือน พ.ย. เส้นใครอยู่สูงกว่า ก็มีโอกาสชนะสูงมาก


Asking The Right Questions

แน่นอนว่าการเอาข้อมูลในอดีตมาวิเคราะห์เพื่อ Confirm Pattern ที่เราเห็น อาจไม่ได้การันตี 100% ว่าข้อมูล Search จะใช้ทำนายผลการเลือกตั้งได้จริง คงต้องรอดูอีกสองสามสมัยหน้าว่า Google Trends จะแม่นเหมือนกับสามรอบหลังสุดที่ผ่านมาหรือเปล่า? (Don’t Overfit !!)

และสรุปสุดท้ายตรงนี้ สำคัญมาก …

If you do not know how to ask the right question, you discover nothing.

— W. Edward Deming

ถ้าอยากใช้ Google Trends ให้ได้ประโยชน์สูงสุด “การตั้งคำถามที่ดี” เป็นทักษะที่จำเป็นอย่างมากสำหรับ Data Analyst อย่างการเลือกใช้ Keyword Trump Clinton Debate ใน Case Study นี้

อ้างอิง – Everybody Lies by Seth Stephens-Davidowitz (Amazon)


Want to Learn More?

อัพเดทความรู้ใหม่ๆเรื่องสถิติ data science และ programming ฟรีตลอดชีวิตที่ Facebook | Blog | Free Online Courses เก่งขึ้นทุกวัน แค่อ่านบล๊อกเรา อย่าลืมกด see first เพจด้วยน๊า

DataRockie — Get One Percent Better Everyday

Leave a Reply