รู้จัก Central Limit Theorem ขุมพลังแห่งโลกสถิติ

บทความนี้มาทำความรู้จักกับทฤษฏีที่ยิ่งใหญ่ (อันดับต้นๆ) ในโลกสถิติ – Central Limit Theorem การสร้าง sampling distribution และความหมายของ standard error Table Of Contents The Heart of Statistics The Most Powerful Theorem [1] Sampling Distribution [2] Standard Error What’s The Point? Example R Code The Heart of Statistics หัวใจของวิชาสถิติคือการสุ่มตัวอย่าง ถ้าเราสุ่มตัวอย่าง (sample) ขนาดใหญ่พอ หน้าตาของกลุ่มตัวอย่างจะเหมือนกับประชากร (population) ที่เราสนใจ โดยการสุ่มต้องเป็นไปอย่างแรนดอม หรือที่นักสถิติเรียกกันว่า random sampling i.e. สุ่มโดยใช้หลักความน่าจะเป็น ประชากรที่เราสนใจทั้งหมดมีโอกาสในการถูกสุ่มเท่ากัน การสรุปผลจาก…

Read More

รู้จักกับ caret – ML Lib ที่ทรงพลังที่สุดของภาษา R

บทความนี้แอดเขียนอธิบาย interface การสร้าง machine learning โมเดลใน R ด้วย package caret (ย่อมาจาก Classification And REgression Training) ส่วนตัวแอดใช้ caret เป็นประจำใน workflow สร้างโมเดลได้มากกว่า 200+ โมเดลแบบ supervised learning ทรงพลัง มีฟังชั่นในการเตรียมข้อมูล, resampling, metrics ครบครัน และเหตุผลสำคัญที่สุดคือ caret มันเขียนง่ายมากจริงๆ (เทียบกับ framework อื่นๆ) เปิด RStudio ขึ้นมาแล้วติดตั้ง package ด้วยโค้ดด้านล่าง เราใช้ library mlbench ด้วยเพื่อโหลด example dataset สำหรับบทความนี้ dataset ที่เราจะใช้ในบทความนี้ชื่อว่า PimaIndiansDiabetes โดย target ที่เราต้องการทำนายคือคอลัมน์ diabetes (pos/…

Read More

เรียนภาษา R พื้นฐานแบบ Interactive ด้วย Swirl Package

swirl ย่อมาจาก “Statistics with Interactive Learning” เป็นโปรแกรมสอนเขียน R ภายใน R พัฒนาโดยทีมอาจารย์จาก Johns Hopkins University (Jeff Leek, Brian Caffo และ Roger Peng) ตั้งแต่ปี 2013 #Short_Review ส่วนตัวแอดคิดว่า swirl เป็นอะไรที่ดีมาก เรียนภาษา R ใน R แบบ interactive ทำตามคำแนะนำบนหน้าจอไปเรื่อยๆ ไม่ต้องมีพื้นฐานการเขียนโปรแกรมมาก่อนก็เรียนได้สบายๆ Get Swirl ก่อนเริ่มเรียน นักเรียนต้องติดตั้งโปรแกรม R และ RStudio Desktop เสร็จแล้วเปิด RStudio และพิมพ์โค้ดด้านล่างใน console เพื่อดาวน์โหลดคอร์สเรียน R Programming Statistics Courses เพื่อนๆที่สนใจเรียนสถิติ swirl มีให้เลือกเรียน…

Read More

อธิบาย Logistic Regression พร้อมโค้ดตัวอย่างใน R

Tutorial วันนี้เรามาอธิบาย concept ของ Logistic Regression เบื้องต้น พร้อมโค้ดตัวอย่างใน R สำหรับสร้างและทดสอบโมเดล – Case Study ทำนายการเกิดมะเร็งเต้านม (Breast Cancer Dataset) When to use? เรานิยมใช้ Logistic Regression กับปัญหา Binary Classification i.e. ทำนาย target variable ที่มีสอง classes และใช้ค่า % accuracy สำหรับวัดผลโมเดลเบื้องต้น ด้านล่างเป็นตัวอย่าง use cases ในชีวิตจริง Churn prediction – ทำนายว่าลูกค้าจะเลิกใช้บริการหรือเปล่า (yes/ no) Repeated purchase prediction – ทำนายว่าลูกค้าจะกลับมาซื้อสินค้าหรือเปล่า (yes/ no) Disease detection…

Read More

ทำนายราคาบ้าน Boston ด้วย Linear Regression

บทความที่แล้วเราเขียนอธิบายขั้นตอนการสร้าง ML model ใน 4 ขั้นตอน และสอนเขียนโค้ด R สำหรับแก้ปัญหา Binary Classification (Titanic) วันนี้เราจะมาลองเขียน ML แก้ปัญหา Regression กันบ้าง Regression Problem แอดดาวน์โหลด dataset มาจาก Kaggle ชื่อว่า Boston (Housing Values in Suburbs of Boston) มีตัวแปรทั้งหมด 14 ตัว โดย target ที่เราต้องการทำนายคือ medv หรือราคาบ้านเฉลี่ยหน่วยเป็น $1000 ML เรียกปัญหานี้ว่า Regression เพราะ target ที่เราต้องการทำนายเป็นตัวเลขแบบ numeric/ continuous และ algorithm ที่เราจะสอนวันนี้คือ Linear Regression (อ่านบทความอธิบายเรื่อง LR…

Read More

สร้าง Decision Tree ทำนายผู้รอดชีวิตบนเรือ Titanic ด้วย R

Machine Learning คืออะไร? แล้วเราจะสร้างโมเดลทำนายผู้รอดชีวิตบนเรื่อง titanic ได้ยังไง? หาคำตอบทั้งหมดได้ในบทความนี้ Hi ML Machine Learning คือการที่คอมพิวเตอร์สามารถเรียนรู้ pattern ต่างๆด้วยตัวเองโดยที่มนุษย์ไม่ต้องเขียนโปรแกรมสั่งมันเลยว่าต้องทำอะไรยังไงบ้าง? (learn without being explicitly programmed) วิธีการสอนคอมพิวเตอร์ก็แค่ให้มันเห็นตัวอย่างเยอะๆ (giving it a lot of examples/ data) แล้วคอมพิวเตอร์จะเริ่มเรียนรู้จาก data ที่เราป้อนให้กับมัน ถ้าเทียบกับการเรียนรู้ของมนุษย์ data = human experience ถ้าอยากสอนให้มันรู้จักสตรอเบอร์รี่ → ให้มันเห็นสตรอเบอร์รี่เยอะๆ ถ้าอยากสอนให้มันรู้จักส้ม → ให้มันเห็นส้มเยอะๆ คอมพิวเตอร์จะเริ่มเรียนรู้ pattern (หรือที่เราเรียกว่า feature) ของวัตถุต่างๆ แล้วจะเริ่มทำนายได้ถูกต้องมากขึ้นตามประสบการณ์หรือปริมาณ data ที่มันได้รับ การสอนคอมพิวเตอร์แบบให้มันเห็นตัวอย่างเยอะๆ (a lot of examples) เรียกว่า…

Read More