รีวิวเทคนิค Data Wrangling ง่ายๆใน R

What is it? Data wrangling คือทักษะการปรับเปลี่ยนหน้าตาข้อมูลให้อยู่ในรูปแบบที่เหมาะสมกับการทำ data analysis หรือ data visualization อื่นๆต่อไป บทความวันนี้เราจะแนะนำการใช้ฟังชั่นใน package dplyr ซึ่งเป็นฟังชั่นแรกๆที่เราแนะนำให้คนที่เพิ่งเริ่มเขียน R ทำให้เป็นก่อนเลย ติดตั้งและเรียกใช้งานฟังชั่นใน package dplyr ด้วยโค้ดนี้ Foundation dplyr มี functions หลักที่ใช้ในการทำ data wranling อยู่ 6 functions เริ่มจากพื้นฐานก่อน select ใช้เลือกคอลั่มที่เราต้องการ filter ใช้ฟิลเตอร์แถวที่เราต้องการด้วยเงื่อนไขต่างๆ arrange ใช้เรียงข้อมูล i.e. sort rows เราใช้ pipe operator (%>%) เพื่อเขียนเชื่อมโค้ดเข้าด้วยกันแบบนี้ ลอง copy โค้ดไปลองเล่นใน RStudio ทิป – ฟังชั่น filter()…

Read More

ทำความสะอาดข้อมูลง่ายๆเพียงสองขั้นตอนใน R

80% of your data analysis is cleaning data จากงานวิจัยหลายๆงานที่เกี่ยวข้องกับการทำ data analysis พบว่าเวลาส่วนใหญ่ของ data analyst หมดไปกับการทำความสะอาดข้อมูล โดยปัญหาที่เจอเยอะสุดคือปัญหา missing values (NAs) นั่นเอง บทความนี้เรามาสอนวิธีการทำความสะอาดข้อมูล i.e. clean missing values ด้วย R ทำเสร็จง่ายๆภายในสองขั้นตอน โดย package หลักที่เราใช้ทำงานกับข้อมูลสำหรับ R Programmer คือ tidyverse (ของทีม RStudio นั่นเองครัช) Tidy Data สำหรับเพื่อนๆที่ลง R และ RStudio ไว้ในเครื่องแล้ว ให้ลง package tidyverse เพื่อทำตามโค้ดทั้งหมดในบทความวันนี้ เราสามารถ clean ข้อมูลง่ายๆในสองขั้นตอน ตรวจสอบว่าข้อมูลเรามี missing values (NAs) หรือเปล่า?…

Read More