7 เหตุผลทำไมต้องเรียนภาษา R สำหรับงาน Data Science

ทำไมต้องเรียน R? เพราะ R คือหนึ่งในภาษาที่ทรงพลังที่สุดสำหรับงาน data science ในยุคนี้ เขียนง่าย ใช้งานฟรี ไม่ตกงาน (อย่างน้อยไปอีก 5-10 ปี จนกว่า AI จะมา disrupt)

Read More

ทำความสะอาดข้อมูลง่ายๆเพียงสองขั้นตอนใน R

80% of your data analysis is cleaning data จากงานวิจัยหลายๆงานที่เกี่ยวข้องกับการทำ data analysis พบว่าเวลาส่วนใหญ่ของ data analyst หมดไปกับการทำความสะอาดข้อมูล โดยปัญหาที่เจอเยอะสุดคือปัญหา missing values (NAs) นั่นเอง บทความนี้เรามาสอนวิธีการทำความสะอาดข้อมูล i.e. clean missing values ด้วย R ทำเสร็จง่ายๆภายในสองขั้นตอน โดย package หลักที่เราใช้ทำงานกับข้อมูลสำหรับ R Programmer คือ tidyverse (ของทีม RStudio นั่นเองครัช) Tidy Data สำหรับเพื่อนๆที่ลง R และ RStudio ไว้ในเครื่องแล้ว ให้ลง package tidyverse เพื่อทำตามโค้ดทั้งหมดในบทความวันนี้ เราสามารถ clean ข้อมูลง่ายๆในสองขั้นตอน ตรวจสอบว่าข้อมูลเรามี missing values (NAs) หรือเปล่า?…

Read More

อธิบาย Confusion Matrix ฉบับเข้าใจง่าย (มาก)

พ.ค. เข้าสู่หน้าฝนแล้ว แอดนั่งกินข้าวเที่ยงอยู่กับเพื่อน เลยลองให้เค้าทายเล่นๆว่าเย็นนี้ฝนจะตกหรือไม่ตก? เพื่อนมองออกไปดูฟ้าครึ้มๆก็เลยตอบว่า “กูว่าเย็นนี้ฝนตกแน่ๆ” และนี่คือตัวอย่างง่ายๆของการทำ prediction ใช้ชีวิตประจำวัน เวลาที่เราพยายามจะทำนาย outcome ที่มีได้สองค่า (ฝนตก|ไม่ตก) นักสถิติเรียกปัญหานี้ว่า Binary Classification Problem พอเราสร้างโมเดลสถิติขึ้นมาทำนาย binary outcome แล้ว ขั้นตอนต่อไปคือการวัดความถูกต้อง (accuracy) ของผลการทำนาย ด้วยตาราง Confusion Matrix ซึ่งใช้กันอย่างแพร่หลายในงาน machine learning ทุกวันนี้ Confusion Matrix Explained ไอเดียของ confusion matrix นั้นเรียบง่าย จริงๆมันคือตาราง crosstabs ขนาด 2×2 ทั่วไป โดยแกนนอนคือ actual result ส่วนแกนตั้งคือ prediction result หน้าตาเหมือนรูปด้านล่าง สมมติเราพยากรณ์อากาศล่วงหน้าไป 10 วัน (ทายว่าฝนตก 6 วัน และฝนไม่ตกอีก 4 วัน) แล้วก็เทียบความจริงกับสิ่งที่เราพยากรณ์ไว้ว่าถูกทั้งหมดกี่ครั้งในสิบวันข้างหน้า?…

Read More

วิเคราะห์ข้อมูล Facebook Page ด้วย R (2018)

Facebook เป็นแหล่งข้อมูลสาธารณะที่น่าจะใหญ่ที่สุดอันดับต้นๆของโลกยุคนี้ เรากำลังพูดถึง posts, comments, likes, shares ที่ users ไปเขียนและ interact กับ public pages ต่างๆ ถ้าเราดึงข้อมูลเหล่านั้นมาใช้ได้น่าจะมีประโยชน์มากทีเดียว โดยเฉพาะด้านการตลาดดิจิตอล ถ้าแบรนด์เข้าใจว่าคนกำลังพูดอะไรเกี่ยวกับสินค้าและบริการของเราบ้างน่าจะดีไม่ใช่น้อย! สำหรับเพื่อนๆที่อยากดึงข้อมูล facebook page มาวิเคราะห์เล่นๆ? (posts, likes, shares) วันนี้เราจะสอนทำเองง่ายๆ ด้วย Graph API และ package Rfacebook ของ Pablo Barbera Intro to Facebook Graph API ก่อนที่เราจะดึงข้อมูลจาก facebook platform ได้ เราต้องขออนุญาตจากพี่มาร์คก่อนด้วยการขอ access token ซึ่งตัว token จะมีสองแบบคือแบบชั่วคราวใช้ได้ประมาณสองชั่วโมง (short-term token) และแบบใช้ได้ระยะยาวประมาณ 60 วัน (long-term token)…

Read More