สร้าง Spam Classifier ดักจับสแปมอีเมล์ด้วย R

บทความนี้แอดอธิบายการสร้างโมเดล machine learning ง่ายๆสำหรับปัญหา binary classification ทำนาย spam e-mail โดยใช้ข้อมูลจริงจาก HP Labs และ algorithm ยอดนิยมที่เราจะสอนวันนี้คือ Naive Bayes Install Packages tutorial วันนี้ใช้ 3 packages ในตารางด้านล่าง สามารถติดตั้ง package ง่ายๆใน RStudio ด้วยฟังชั่น install.packages() packages ใช้ทำอะไร? kernlab โหลดข้อมูล spam e-mail database naivebayes ฟังชั่น naivebayes() เพื่อสร้าง Naive Bayes Classifier dplyr ทำ data wrangling ง่ายๆกับข้อมูล Spam or Ham ฝรั่งมีศัพท์ slang ไว้ใช้เรียก…

Read More

EP1 – ทฤษฎี Bayes กับการหาค่า Inverse Probability

เฮลโหลลลลลลลลล สวัสดีผู้อ่าน แฟนเพจของเราทุกคน ยินดีต้อนรับสู่ซีรี่ล่าสุดของเรา Statistics Mondee (อ่านว่า มันส์ดี!) เป็นซีรี่บทความเกี่ยวกับเรื่องสถิติและความน่าจะเป็นเวอร์ชั่นเข้าใจง่าย บทความใหม่ออกทุกวันจันทร์ อ่านได้ทุกเพศทุกวัยโดยเฉพาะผู้อ่านที่สนใจด้าน data science โดย EP แรกของซีรี่จะอธิบายเรื่อง inverse probability หรืออีกชื่อที่หลายคนน่าจะผ่านหูผ่านตามาบ้างคือ Bayesian probability ซึ่งความรู้เรื่องนี้มีประโยชน์ต่อชีวิตอย่างมาก ประมาณว่าถ้าเรารู้ความน่าจะเป็นของ A|B เราสามารถหาความน่าจะเป็นของ B|A ได้เช่นกัน (ที่มาของคำว่า inverse) Probability 101 ถ้าคณิตศาสตร์คือศาสตร์แห่งความแน่นอน ในทางตรงกันข้าม ความน่าจะเป็นคือศาสตร์แห่งความไม่แน่นอน (uncertainty) เช่น ฝนจะตกหรือเปล่า? โอกาสที่จะได้เลื่อนตำแหน่ง? ความน่าจะเป็นที่เราจะได้เลือกตั้งในปี 2019? Trump จะได้เป็น ปธน. ต่อหรือเปล่า? คำถามพวกนี้ตอบได้ด้วยทฤษฏีความน่าจะเป็นทั้งหมดเลย โดยนิยามของความน่าจะเป็นที่ง่ายที่สุดคือ จำนวนเหตุการณ์ที่เราสนใจ / จำนวนเหตุการณ์ทั้งหมดที่เป็นไปได้ ลองดูตัวอย่างการโยนลูกเต๋า และการจั่วไพ่ด้านล่าง สมมติเราโยนลูกเต๋าแบบหกหน้าปกติ (a fair die)…

Read More