Category: R


  • ทำไม p-value ถึงลดลงเรื่อยๆถ้าเราเพิ่ม Sample Size?

    Andrejs Dunkels (1939 – 1998) นักคณิตศาสตร์ชาวสวีเดนเคยพูดไว้ว่า “มันง่ายมากที่จะหลอกคนอื่นด้วยสถิติ แต่มันยากมากถ้าจะบอกเล่าความจริงโดยไม่ใช้สถิติมาช่วย” – This is so deep. สถิติคือเครื่องมือค้นหาความจริง และคนที่เข้าใจมันจริงๆเท่านั้นถึงมีสิทธิ์เข้าถึงความจริงเหล่านั้น บทความนี้จะเล่าความจริงเกี่ยวกับค่า p-value และการทดสอบสมมติฐานด้วยระบบ null hypothesis significance testing ก่อนจะอ่านบทความนี้ต่อ เรา assume ว่าทุกคนรู้จัก central limit theorem และการใช้ confidence interval เพื่อทดสอบสมมติฐานทางสถิติแล้ว ถ้าใครยังไม่ชัวร์ ลองอ่านบทความเก่าของเราได้เลย 😛 If you want to know the truth, let’s find the truth. Closer to The Truth สมมติว่าเราอยากทำ inference ศึกษาเกี่ยวกับคนไทยทั้งประเทศ (population) […]


  • ทดสอบสมมติฐานทางสถิติด้วย Confidence Interval ไม่ง้อ p-value

    เบื่อไหมกับการใช้ p-value ทดสอบสมมติฐาน? ถ้าเบื่อแล้ว บทความนี้มีคำตอบให้กับทุกคน ก่อนจะอ่านต่อ เรา assume ว่าทุกคนรู้แล้วว่า Central Limit Theorem คืออะไร ถ้ายังไม่ชัวร์ ลองอ่านบทความของเราได้ที่นี่ – Mind Blown! Table Of Contents Meet Confidence Interval Build One CI Explained Significance Test The Moment of Truth Implication Meet Confidence Interval Confidence interval (CI) หรือที่เรียกกันในภาษาไทยว่า “ช่วงความเชื่อมั่น” เป็นอีกหนึ่ง concept สำคัญของนักสถิติสาย frequentist โดย CI ถูกสร้างขึ้นจากทฤษฎี central limit theorem i.e. การทำ […]


  • รู้จัก Central Limit Theorem ขุมพลังแห่งโลกสถิติ

    บทความนี้มาทำความรู้จักกับทฤษฏีที่ยิ่งใหญ่ (อันดับต้นๆ) ในโลกสถิติ – Central Limit Theorem การสร้าง sampling distribution และความหมายของ standard error Table Of Contents The Heart of Statistics The Most Powerful Theorem [1] Sampling Distribution [2] Standard Error What’s The Point? Example R Code The Heart of Statistics หัวใจของวิชาสถิติคือการสุ่มตัวอย่าง ถ้าเราสุ่มตัวอย่าง (sample) ขนาดใหญ่พอ หน้าตาของกลุ่มตัวอย่างจะเหมือนกับประชากร (population) ที่เราสนใจ โดยการสุ่มต้องเป็นไปอย่างแรนดอม หรือที่นักสถิติเรียกกันว่า random sampling i.e. สุ่มโดยใช้หลักความน่าจะเป็น ประชากรที่เราสนใจทั้งหมดมีโอกาสในการถูกสุ่มเท่ากัน การสรุปผลจาก […]


  • รู้จักกับ caret – ML Lib ที่ทรงพลังที่สุดของภาษา R

    บทความนี้แอดเขียนอธิบาย interface การสร้าง machine learning โมเดลใน R ด้วย package caret (ย่อมาจาก Classification And REgression Training) ส่วนตัวแอดใช้ caret เป็นประจำใน workflow สร้างโมเดลได้มากกว่า 200+ โมเดลแบบ supervised learning ทรงพลัง มีฟังชั่นในการเตรียมข้อมูล, resampling, metrics ครบครัน และเหตุผลสำคัญที่สุดคือ caret มันเขียนง่ายมากจริงๆ (เทียบกับ framework อื่นๆ) เปิด RStudio ขึ้นมาแล้วติดตั้ง package ด้วยโค้ดด้านล่าง เราใช้ library mlbench ด้วยเพื่อโหลด example dataset สำหรับบทความนี้ dataset ที่เราจะใช้ในบทความนี้ชื่อว่า PimaIndiansDiabetes โดย target ที่เราต้องการทำนายคือคอลัมน์ diabetes (pos/ […]


  • เรียนภาษา R พื้นฐานแบบ Interactive ด้วย Swirl Package

    swirl ย่อมาจาก “Statistics with Interactive Learning” เป็นโปรแกรมสอนเขียน R ภายใน R พัฒนาโดยทีมอาจารย์จาก Johns Hopkins University (Jeff Leek, Brian Caffo และ Roger Peng) ตั้งแต่ปี 2013 #Short_Review ส่วนตัวแอดคิดว่า swirl เป็นอะไรที่ดีมาก เรียนภาษา R ใน R แบบ interactive ทำตามคำแนะนำบนหน้าจอไปเรื่อยๆ ไม่ต้องมีพื้นฐานการเขียนโปรแกรมมาก่อนก็เรียนได้สบายๆ Get Swirl ก่อนเริ่มเรียน นักเรียนต้องติดตั้งโปรแกรม R และ RStudio Desktop เสร็จแล้วเปิด RStudio และพิมพ์โค้ดด้านล่างใน console เพื่อดาวน์โหลดคอร์สเรียน R Programming Statistics Courses เพื่อนๆที่สนใจเรียนสถิติ swirl มีให้เลือกเรียน […]


  • อธิบาย Logistic Regression พร้อมโค้ดตัวอย่างใน R

    Tutorial วันนี้เรามาอธิบาย concept ของ Logistic Regression เบื้องต้น พร้อมโค้ดตัวอย่างใน R สำหรับสร้างและทดสอบโมเดล – Case Study ทำนายการเกิดมะเร็งเต้านม (Breast Cancer Dataset) When to use? เรานิยมใช้ Logistic Regression กับปัญหา Binary Classification i.e. ทำนาย target variable ที่มีสอง classes และใช้ค่า % accuracy สำหรับวัดผลโมเดลเบื้องต้น ด้านล่างเป็นตัวอย่าง use cases ในชีวิตจริง Churn prediction – ทำนายว่าลูกค้าจะเลิกใช้บริการหรือเปล่า (yes/ no) Repeated purchase prediction – ทำนายว่าลูกค้าจะกลับมาซื้อสินค้าหรือเปล่า (yes/ no) Disease detection […]