วิธีจัดการ Missing Value ง่ายๆด้วยโปรแกรม Excel

บทความที่แล้ว แอดอธิบายปัญหา outliers และการทำ outlier detection ไปแล้ว วันนี้เราจะมาลองดูการทำความสะอาด missing values ใน Excel กันบ้าง ดาวน์โหลดไฟล์ตัวอย่างได้ที่นี่ ฟังชั่นหลักที่ data analyst ใช้นับจำนวน/ ตรวจหา missing values ใน Excel คือ COUNTBLANK() และ ISBLANK() ตามลำดับ สังเกตในสูตรคำว่า “blank” หมายถึง cell ว่างใน worksheet นั้นๆ ตรวจสอบ Missing Value เปิดไฟล์ตัวอย่างขึ้นมา ข้อมูลที่มี missing values จะอยู่ที่ cell A3:E12 เราสามารถใช้ฟังชั่น COUNTBLANK() เพื่อนับจำนวน missing values ในแต่ละคอลัมน์ ลองดูสูตรที่แอดเขียนไว้ใน cell A15:E15 รู้จักกับค่า…

Read More

วิธีตรวจจับ Outliers ในข้อมูลง่ายๆด้วย Boxplot และ IQR

หน้าที่สำคัญของ data analyst คือการทำความสะอาดข้อมูลให้พร้อมสำหรับทำงาน โดยปัญหาหลักๆของ data ที่เราเจอบ่อยๆคือเรื่อง missing values และ outliers บทความนี้เราจะอธิบายว่า outliers คืออะไร และแนะนำเทคนิคในการ flag และ remove ค่า outliers ด้วยโปรแกรม Excel ง่ายๆใน 4 ขั้นตอน ดาวน์โหลดไฟล์ตัวอย่าง Excel สำหรับบทความนี้ได้ที่นี่ Outlier คืออะไร Outlier (มีหลายชื่อ เช่น anomaly, extreme value) คือ data points ที่มีค่าสูงหรือต่ำกว่า data points ส่วนใหญ่ในชุดข้อมูลหนึ่งๆอย่างมาก เช่น ส่วนสูง 210 cm คือค่า outlier สำหรับคนไทย เพราะเราแทบไม่เคยเห็นคนไทยสูงเกิน 2 เมตรเลย เป็นต้น อ้างอิงสถิติจากเว็บไซต์…

Read More

รีวิวสูตรคำนวณจำนวนตัวอย่างของ อ.Taro Yamane

วันก่อนแอดไปอ่านเจอบทความของอาจารย์ที่สอน Business Analytics NIDA ที่เล่าเรื่องการใช้สูตรยามาเน่ของนักศึกษาที่ใช้ตามๆกันมาแบบไม่เข้าใจสูตรนี้จริงๆ บทความนี้แอดจะเขียนอธิบายการใช้งานสูตรยามาเน่ และ master formula ที่บริษัท survey platform ระดับโลกเค้าใช้กันให้อ่านเอง สูตรคำนวณจำนวนตัวอย่าง (sample size) ยอดนิยมสำหรับการเก็บแบบสอบถามของงานวิจัยนักศึกษาปริญญาตรี/ โทในประเทศไทยคือสูตรของอาจารย์ Taro Yamane ใช้กันเกือบทุกเล่ม เคยไปนั่งเปิดๆดูในห้องสมุดมหิดล น่าจะมากกว่า 80% ของ IS/Thesis ทั้งหมดเลย โดยเฉพาะภาควิชาการตลาด 555+ The Formula สูตรยามาเน่มีตัวแปรที่เราต้องรู้ค่าสองตัวคือ N และ e โดยที่ N คือจำนวนประชากร และ e คือค่าความคลาดเคลื่อน (i.e. error) เวลาแทนค่า e ในสมการต้องเขียนเป็นทศนิยม เช่น e = .05 (error = 5% เป็นค่ามาตรฐานที่เราใช้ในสูตรยามาเน่ สามารถเปลี่ยนได้ตามความเหมาะสม)…

Read More

ถ้าเราทรมานข้อมูลนานพอ มันจะสารภาพความจริง?

Ronald H. Coase นักเศรษฐศาสตร์ชาวอังกฤษ เจ้าของรางวัลโนเบลปี 1991 เคยพูดประโยคคลาสสิค “If you torture the data long enough, it will confess (to anything).” Well said !! ความหมายที่แท้จริงของ quote นี้เกี่ยวข้องโดยตรงกับการทำงานด้านสถิติและ data analysis น่าเศร้าที่หลายคนตีความข้อความนี้แบบผิดๆ วันนี้แอดจะมาชี้แจงให้เข้าใจเอง อย่างแรกทุกคนต้องเข้าใจความแตกต่างระหว่าง Exploratory และ Confirmatory Analysis ก่อน Exploratory คือการวิเคราะห์ข้อมูลเพื่อสร้าง hypothesis ใหม่ๆ Confirmatory คือการวิเคราะห์ข้อมูลเพื่อยืนยัน hypothesis ที่เราตั้งไว้แล้ว [su_label type=”important”]Important[/su_label]สถิติสามารถนำมาใช้ในทางที่ผิด i.e. manipulate เพื่อสนับสนุนทุก hypothesis ของเรา และความแตกต่างที่สำคัญมากของ exploratory และ confirmatory อีกอย่างหนึ่งคือเราสามารถใช้ข้อมูลเพื่อ…

Read More

ทำไม p-value ถึงลดลงเรื่อยๆถ้าเราเพิ่ม Sample Size?

Andrejs Dunkels (1939 – 1998) นักคณิตศาสตร์ชาวสวีเดนเคยพูดไว้ว่า “มันง่ายมากที่จะหลอกคนอื่นด้วยสถิติ แต่มันยากมากถ้าจะบอกเล่าความจริงโดยไม่ใช้สถิติมาช่วย” – This is so deep. สถิติคือเครื่องมือค้นหาความจริง และคนที่เข้าใจมันจริงๆเท่านั้นถึงมีสิทธิ์เข้าถึงความจริงเหล่านั้น บทความนี้จะเล่าความจริงเกี่ยวกับค่า p-value และการทดสอบสมมติฐานด้วยระบบ null hypothesis significance testing ก่อนจะอ่านบทความนี้ต่อ เรา assume ว่าทุกคนรู้จัก central limit theorem และการใช้ confidence interval เพื่อทดสอบสมมติฐานทางสถิติแล้ว ถ้าใครยังไม่ชัวร์ ลองอ่านบทความเก่าของเราได้เลย 😛 If you want to know the truth, let’s find the truth. Closer to The Truth สมมติว่าเราอยากทำ inference ศึกษาเกี่ยวกับคนไทยทั้งประเทศ (population)…

Read More

ทดสอบสมมติฐานทางสถิติด้วย Confidence Interval ไม่ง้อ p-value

เบื่อไหมกับการใช้ p-value ทดสอบสมมติฐาน? ถ้าเบื่อแล้ว บทความนี้มีคำตอบให้กับทุกคน ก่อนจะอ่านต่อ เรา assume ว่าทุกคนรู้แล้วว่า Central Limit Theorem คืออะไร ถ้ายังไม่ชัวร์ ลองอ่านบทความของเราได้ที่นี่ – Mind Blown! Table Of Contents Meet Confidence Interval Build One CI Explained Significance Test The Moment of Truth Implication Meet Confidence Interval Confidence interval (CI) หรือที่เรียกกันในภาษาไทยว่า “ช่วงความเชื่อมั่น” เป็นอีกหนึ่ง concept สำคัญของนักสถิติสาย frequentist โดย CI ถูกสร้างขึ้นจากทฤษฎี central limit theorem i.e. การทำ…

Read More