วิเคราะห์ข้อมูลเด็กทารกแรกเกิดใน US ด้วย Python

tutorial นี้ เราสอนเขียนพื้นฐาน Python เพื่อวิเคราะห์ข้อมูลจำนวนเด็กทารกที่เกิดในประเทศอเมริการะหว่างปี 1994-2003 เพื่อนๆสามารถดาวน์โหลดไฟล์ US_births.csv ได้ที่นี่ ใน csv file จะมีทั้งหมด 5 columns year month date_of_month day_of_week births สำหรับโจทย์วันนี้คือการเขียนฟังชั่นเพื่อหาผลรวมคอลั่ม births → แยกตามคอลั่ม year, month, date_of_month และ day_of_week ตัวอย่าง output ที่เราต้องการจะออกมาเป็น dictionary หน้าตาแบบนี้ {“1994”: 500, “1995”: 1000, “1996”: 1500} โดยมี key เป็นปี (หรือคอลั่มอื่นๆ) ส่วน value คือผลรวมของคอลั่ม births Refresher สำหรับ tutorial นี้ assume ว่าเพื่อนๆเขียน Python ได้นิดหน่อย เข้าใจว่า dictionary…

Read More

ฝึกเขียนฟังชั่นนับจำนวนไอเทมใน List ง่ายๆด้วย Python

tutorial นี้เราจะมาสอนเขียน Python function ง่ายๆเพื่อใช้วิเคราะห์ข้อมูล โดย input คือ list of items ส่วน output จะออกมาเป็น dictionary (key คือชื่อ item และ value คือจำนวน item นั้นๆ) สำหรับเพื่อนๆที่อยากทำตาม tutorial นี้ ต้องเข้าใจสองเรื่องนี้ก่อน list vs. dictionary control flow (if-else และ for loop) ถ้าใครยังใหม่กับ Python ลองดูคอร์สฟรีของเราก่อนที่ https://datarockie.com/p/python-for-non-programmer Count Animals โจทย์คือเราต้องการนับจำนวน dog, cat, hippo ที่อยู่ใน list animals วิธีการที่เราจะแก้ปัญหาใน Python จะเริ่มจากการสร้าง empty dictionary ขึ้นมาก่อน…

Read More

7 เหตุผลทำไมต้องเรียนภาษา R สำหรับงาน Data Science

ทำไมต้องเรียน R? เพราะ R คือหนึ่งในภาษาที่ทรงพลังที่สุดสำหรับงาน data science ในยุคนี้ เขียนง่าย ใช้งานฟรี ไม่ตกงาน (อย่างน้อยไปอีก 5-10 ปี จนกว่า AI จะมา disrupt)

Read More

ทำความสะอาดข้อมูลง่ายๆเพียงสองขั้นตอนใน R

80% of your data analysis is cleaning data จากงานวิจัยหลายๆงานที่เกี่ยวข้องกับการทำ data analysis พบว่าเวลาส่วนใหญ่ของ data analyst หมดไปกับการทำความสะอาดข้อมูล โดยปัญหาที่เจอเยอะสุดคือปัญหา missing values (NAs) นั่นเอง บทความนี้เรามาสอนวิธีการทำความสะอาดข้อมูล i.e. clean missing values ด้วย R ทำเสร็จง่ายๆภายในสองขั้นตอน โดย package หลักที่เราใช้ทำงานกับข้อมูลสำหรับ R Programmer คือ tidyverse (ของทีม RStudio นั่นเองครัช) Tidy Data สำหรับเพื่อนๆที่ลง R และ RStudio ไว้ในเครื่องแล้ว ให้ลง package tidyverse เพื่อทำตามโค้ดทั้งหมดในบทความวันนี้ เราสามารถ clean ข้อมูลง่ายๆในสองขั้นตอน ตรวจสอบว่าข้อมูลเรามี missing values (NAs) หรือเปล่า?…

Read More