Blog

อธิบาย Confusion Matrix ฉบับเข้าใจง่าย (มาก)

พ.ค. เข้าสู่หน้าฝนแล้ว แอดนั่งกินข้าวเที่ยงอยู่กับเพื่อน เลยลองให้เค้าทายเล่นๆว่าเย็นนี้ฝนจะตกหรือไม่ตก? เพื่อนมองออกไปดูฟ้าครึ้มๆก็เลยตอบว่า “กูว่าเย็นนี้ฝนตกแน่ๆ” และนี่คือตัวอย่างง่ายๆของการทำ prediction ใช้ชีวิตประจำวัน เวลาที่เราพยายามจะทำนาย outcome ที่มีได้สองค่า (ฝนตก|ไม่ตก) นักสถิติเรียกปัญหานี้ว่า Binary Classification Problem พอเราสร้างโมเดลสถิติขึ้นมาทำนาย binary outcome แล้ว ขั้นตอนต่อไปคือการวัดความถูกต้อง (accuracy) ของผลการทำนาย ด้วยตาราง Confusion Matrix ซึ่งใช้กันอย่างแพร่หลายในงาน machine learning ทุกวันนี้ Confusion Matrix Explained ไอเดียของ confusion matrix นั้นเรียบง่าย จริงๆมันคือตาราง crosstabs ขนาด 2×2 ทั่วไป โดยแกนนอนคือ actual result ส่วนแกนตั้งคือ prediction result หน้าตาเหมือนรูปด้านล่าง สมมติเราพยากรณ์อากาศล่วงหน้าไป 10 วัน (ทายว่าฝนตก 6 วัน และฝนไม่ตกอีก 4 วัน) แล้วก็เทียบความจริงกับสิ่งที่เราพยากรณ์ไว้ว่าถูกทั้งหมดกี่ครั้งในสิบวันข้างหน้า?…

Read More

แนะนำ 12 แอปมือถือสำหรับฝึก Data Science Skills เวลาว่าง

อยู่นอกบ้าน ไม่ได้เอา laptop ติดตัวมาด้วย แต่อยากฝึกเขียนโปรแกรมและนั่งเรียน data science? แค่โหลด 12 mobile applications ที่เราแนะนำในบล๊อกวันนี้ ก็เรียน data science และฝึกเขียนโปรแกรมที่ไหน เมื่อไหร่ก็ได้ผ่านโทรศัพท์มือถือสบายๆ mini review วันนี้ เราเลือกแอปทั้งหมดจาก Google Play Store (Android) ทุกแอปสามารถโหลดใช้งานได้ฟรี บางแอปมี premium features บางแอปสามารถจ่ายเงินเพื่อรับใบ certificate ได้ด้วย สำหรับ iOS จะมีไม่ครบทุกแอป ลองเสิร์ชดูอีกทีฮะ Knowledge At Your Fingertips สำหรับคนชอบดูแบบวีดีโอ เรียนแบบ MOOCs Coursera edX Udemy Udacity Khan Academy TED สำหรับคนชอบทำ quiz สั้นๆ ฝึกเขียนโปรแกรม Programming…

Read More

วิเคราะห์ข้อมูล Facebook Page ด้วย R (2018)

Facebook เป็นแหล่งข้อมูลสาธารณะที่น่าจะใหญ่ที่สุดอันดับต้นๆของโลกยุคนี้ เรากำลังพูดถึง posts, comments, likes, shares ที่ users ไปเขียนและ interact กับ public pages ต่างๆ ถ้าเราดึงข้อมูลเหล่านั้นมาใช้ได้น่าจะมีประโยชน์มากทีเดียว โดยเฉพาะด้านการตลาดดิจิตอล ถ้าแบรนด์เข้าใจว่าคนกำลังพูดอะไรเกี่ยวกับสินค้าและบริการของเราบ้างน่าจะดีไม่ใช่น้อย! สำหรับเพื่อนๆที่อยากดึงข้อมูล facebook page มาวิเคราะห์เล่นๆ? (posts, likes, shares) วันนี้เราจะสอนทำเองง่ายๆ ด้วย Graph API และ package Rfacebook ของ Pablo Barbera Intro to Facebook Graph API ก่อนที่เราจะดึงข้อมูลจาก facebook platform ได้ เราต้องขออนุญาตจากพี่มาร์คก่อนด้วยการขอ access token ซึ่งตัว token จะมีสองแบบคือแบบชั่วคราวใช้ได้ประมาณสองชั่วโมง (short-term token) และแบบใช้ได้ระยะยาวประมาณ 60 วัน (long-term token)…

Read More

ข้อมูลไม่เคยโกหก – อีกหนึ่งคำโกหกแห่งศตวรรษที่ 21

The truth is rarely pure and never simple. Oscar Wilde โลกเรามีข้อมูลใหม่เกิดขึ้นทุกวัน วันละประมาณ 2.5 quintillion bytes (source: IBM) ถ้าใครนึกไม่ออกว่ามันเยอะขนาดไหน มันคือ 2,500,000,000,000,000,000 bytes (10 ยกกำลัง 18) Big Data มหาศาลนี้เองที่เป็นแรงขับเคลื่อนโลกของเราในศตวรรษที่ 21 คงไม่ผิดที่จะบอกว่ามนุษย์ใช้ data เป็นเครื่องมือในการหาความจริง (truth seeking) เพื่อแปรเปลี่ยนเป็นความรู้ (knowledge) ในการพัฒนาศักยภาพด้านอื่นๆของพวกเราต่อไปในอนาคต แต่ Big Data ก็มาพร้อมกับปัญหาใหม่ เพราะมันทำให้การแยก signal ออกจาก noise | แยกข้อเท็จจริง (fact) ออกจากความคิดเห็น (opinion) | แยกความจริง (truth) ออกจากความเชื่อ (belief) ทุกวันนี้กลายเป็นงานที่ยากกว่าที่เคย…

Read More

คณิตศาสตร์กับการออมเงิน

วันนี้เราจะมานำเสนอแผนการออมเงินง่ายๆที่จะทำให้ทุกคนมีเงินเก็บหลักล้านตอนเกษียณ เป้าหมายคือ 10 ล้านบาท ตอนอายุ 60 ปี แผนการออมนี้ออกแบบมาสำหรับพนักงานออฟฟิซทั่วไป (แต่จริงๆใครจะนำไปใช้ก็ได้) ใช้หลักคณิตศาสตร์ง่ายๆ เราจะแบ่งการออมเงินออกเป็น 4 ช่วงตามอายุ สมมติว่าเราเริ่มออมเงินตั้งแต่อายุ 20 จนถึง 60 ปี และได้รับผลตอบแทนต่อปีเฉลี่ยประมาณ 10.4% เทียบเท่ากับผลตอบแทนของ SET index เฉลี่ยย้อนหลัง 10 ปีที่ผ่านมา (อ้างอิงจาก SCBAM ข้อมูล ณ วันที่ 14 ธ.ค. 2560) สมมติว่าเรา start เงินเดือนที่ 15000 บาทต่อเดือน หลักจากหักภาษีอะไรเรียบร้อยแล้ว นักเศรษฐศาสตร์เรียกเงินได้ที่นำไปใช้ได้จริงว่า “disposable income” ใช้ตัวย่อว่า Yd เพื่อใช้ในการบริโภคและเก็บออม Yd = Consumption + Saving … [1]และตามหลักเศรษฐศาสตร์มหภาค Saving =…

Read More