Category: Statistics


  • รู้จักกับ Analysis Toolpak เครื่องมือลับสำหรับงานสถิติใน Excel

    วิเคราะห์ข้อมูลสถิติในโปรแกรม Excel ด้วย Analysis Toolpak แบบไม่ต้องเขียนสูตรเอง ใช้แทน SPSS ได้สบายๆ


  • วิธีจัดการ Missing Value ง่ายๆด้วยโปรแกรม Excel

    บทความที่แล้ว แอดอธิบายปัญหา outliers และการทำ outlier detection ไปแล้ว วันนี้เราจะมาลองดูการทำความสะอาด missing values ใน Excel กันบ้าง ดาวน์โหลดไฟล์ตัวอย่างได้ที่นี่ ฟังชั่นหลักที่ data analyst ใช้นับจำนวน/ ตรวจหา missing values ใน Excel คือ COUNTBLANK() และ ISBLANK() ตามลำดับ สังเกตในสูตรคำว่า “blank” หมายถึง cell ว่างใน worksheet นั้นๆ ตรวจสอบ Missing Value เปิดไฟล์ตัวอย่างขึ้นมา ข้อมูลที่มี missing values จะอยู่ที่ cell A3:E12 เราสามารถใช้ฟังชั่น COUNTBLANK() เพื่อนับจำนวน missing values ในแต่ละคอลัมน์ ลองดูสูตรที่แอดเขียนไว้ใน cell A15:E15 รู้จักกับค่า […]


  • วิธีตรวจจับ Outliers ในข้อมูลง่ายๆด้วย Boxplot และ IQR

    หน้าที่สำคัญของ data analyst คือการทำความสะอาดข้อมูลให้พร้อมสำหรับทำงาน โดยปัญหาหลักๆของ data ที่เราเจอบ่อยๆคือเรื่อง missing values และ outliers บทความนี้เราจะอธิบายว่า outliers คืออะไร และแนะนำเทคนิคในการ flag และ remove ค่า outliers ด้วยโปรแกรม Excel ง่ายๆใน 4 ขั้นตอน ดาวน์โหลดไฟล์ตัวอย่าง Excel สำหรับบทความนี้ได้ที่นี่ Outlier คืออะไร Outlier (มีหลายชื่อ เช่น anomaly, extreme value) คือ data points ที่มีค่าสูงหรือต่ำกว่า data points ส่วนใหญ่ในชุดข้อมูลหนึ่งๆอย่างมาก เช่น ส่วนสูง 210 cm คือค่า outlier สำหรับคนไทย เพราะเราแทบไม่เคยเห็นคนไทยสูงเกิน 2 เมตรเลย เป็นต้น อ้างอิงสถิติจากเว็บไซต์ […]


  • รีวิวสูตรคำนวณจำนวนตัวอย่างของ อ.Taro Yamane

    วันก่อนแอดไปอ่านเจอบทความของอาจารย์ที่สอน Business Analytics NIDA ที่เล่าเรื่องการใช้สูตรยามาเน่ของนักศึกษาที่ใช้ตามๆกันมาแบบไม่เข้าใจสูตรนี้จริงๆ บทความนี้แอดจะเขียนอธิบายการใช้งานสูตรยามาเน่ และ master formula ที่บริษัท survey platform ระดับโลกเค้าใช้กันให้อ่านเอง สูตรคำนวณจำนวนตัวอย่าง (sample size) ยอดนิยมสำหรับการเก็บแบบสอบถามของงานวิจัยนักศึกษาปริญญาตรี/ โทในประเทศไทยคือสูตรของอาจารย์ Taro Yamane ใช้กันเกือบทุกเล่ม เคยไปนั่งเปิดๆดูในห้องสมุดมหิดล น่าจะมากกว่า 80% ของ IS/Thesis ทั้งหมดเลย โดยเฉพาะภาควิชาการตลาด 555+ The Formula สูตรยามาเน่มีตัวแปรที่เราต้องรู้ค่าสองตัวคือ N และ e โดยที่ N คือจำนวนประชากร และ e คือค่าความคลาดเคลื่อน (i.e. error) เวลาแทนค่า e ในสมการต้องเขียนเป็นทศนิยม เช่น e = .05 (error = 5% เป็นค่ามาตรฐานที่เราใช้ในสูตรยามาเน่ สามารถเปลี่ยนได้ตามความเหมาะสม) […]


  • ทำไม p-value ถึงลดลงเรื่อยๆถ้าเราเพิ่ม Sample Size?

    Andrejs Dunkels (1939 – 1998) นักคณิตศาสตร์ชาวสวีเดนเคยพูดไว้ว่า “มันง่ายมากที่จะหลอกคนอื่นด้วยสถิติ แต่มันยากมากถ้าจะบอกเล่าความจริงโดยไม่ใช้สถิติมาช่วย” – This is so deep. สถิติคือเครื่องมือค้นหาความจริง และคนที่เข้าใจมันจริงๆเท่านั้นถึงมีสิทธิ์เข้าถึงความจริงเหล่านั้น บทความนี้จะเล่าความจริงเกี่ยวกับค่า p-value และการทดสอบสมมติฐานด้วยระบบ null hypothesis significance testing ก่อนจะอ่านบทความนี้ต่อ เรา assume ว่าทุกคนรู้จัก central limit theorem และการใช้ confidence interval เพื่อทดสอบสมมติฐานทางสถิติแล้ว ถ้าใครยังไม่ชัวร์ ลองอ่านบทความเก่าของเราได้เลย 😛 If you want to know the truth, let’s find the truth. Closer to The Truth สมมติว่าเราอยากทำ inference ศึกษาเกี่ยวกับคนไทยทั้งประเทศ (population) […]


  • ทดสอบสมมติฐานทางสถิติด้วย Confidence Interval ไม่ง้อ p-value

    เบื่อไหมกับการใช้ p-value ทดสอบสมมติฐาน? ถ้าเบื่อแล้ว บทความนี้มีคำตอบให้กับทุกคน ก่อนจะอ่านต่อ เรา assume ว่าทุกคนรู้แล้วว่า Central Limit Theorem คืออะไร ถ้ายังไม่ชัวร์ ลองอ่านบทความของเราได้ที่นี่ – Mind Blown! Table Of Contents Meet Confidence Interval Build One CI Explained Significance Test The Moment of Truth Implication Meet Confidence Interval Confidence interval (CI) หรือที่เรียกกันในภาษาไทยว่า “ช่วงความเชื่อมั่น” เป็นอีกหนึ่ง concept สำคัญของนักสถิติสาย frequentist โดย CI ถูกสร้างขึ้นจากทฤษฎี central limit theorem i.e. การทำ […]