รู้จัก 5 ขั้นตอนการทำงาน Data Science – OSEMN

ถ้าตอนไปสัมภาษณ์งานโดน HR ถามว่า data science คืออะไร? ก็ขอให้ตอบอย่างมั่นใจว่า – Data Science is OSEMN – โดยวัตถุประสงค์หลักของ OSEMN คือการหา pattern ที่ซ่อนอยู่ในข้อมูลที่สามารถนำไปใช้ประโยชน์ได้ในอนาคต (i.e. สั้นๆคือหา insights ที่เอาไปใช้ได้จริง)

OSEMN เป็น short-abbreviation ของ 5 ขั้นตอนการทำงานด้าน data science ประกอบด้วย

  • Obtain
  • Scrub
  • Explore
  • Model
  • iNterpret

Core Principles

OSEMN core principles for data scientist
Picture by rawpixel at Unsplash.com

ทุกๆ data science project เริ่มจากการเก็บรวบรวมข้อมูล <Obtain> ต่อด้วยการทำความสะอาดข้อมูล ปรับหน้าตาให้อยู่ใน format ที่เหมาะสม <Scrub> จากงานวิจัยของ DJ Patil (2012) พบว่าขั้นตอนการ scrub ใช้เวลานานที่สุดประมาณ 50-80% ของ OSEMN process

ขั้นตอนที่สามคือการศึกษาข้อมูลเบื้องต้นด้วย EDA – Exploratory Data Analysis พอเราเข้าใจข้อมูลเราดีแล้ว ก็เริ่มทำโมเดลต่างๆด้วย ML DL และปิดท้ายด้วยการนำเสนอ insights ต่างๆจาก OSEMN ทั้งหมดที่เราได้ทำมา <Explore → Model → iNterpret>

โดยแต่ละขั้นตอนของ OSEMN จะใช้ทักษะที่แตกต่างกัน สำหรับ O|S ต้องใช้ hacking skill เขียนโปรแกรมเยอะหน่อย E|M ใช้ความรู้คณิตศาสตร์และสถิติ และขั้นตอนสุดท้าย N ใช้ทักษะ storytelling with data อธิบายเรื่องยากให้เข้าใจง่ายและน่าสนใจ


The Sixth Principle – Iteration

อ่านมาถึงตรงนี้ต้องบอกว่า OSEMN ไม่ใช่ linear process ที่วิ่งจาก O ไป N ได้ตรงๆ เวลาทำงานจริงเราจะทำงานแบบ non-linear คือวิ่งไปกลับระหว่าง O↔M จนกว่าเราจะได้ผลลัพธ์ที่น่าพอใจ และตอบปัญหาที่เราอยากจะแก้ในตอนแรก และไอเดียนี้เอง ทำให้ OSEMN ต้องเพิ่มกระบวนการสำคัญอีกหนึ่งอย่าง นั่นคือ Iteration

Hadley Wickham อีกหนึ่งบุคคลสำคัญที่ช่วยพัฒนาวงการ data science ด้วยการพัฒนา R packages ในตำนานอย่าง tidyverse และ RStudio เข้าไปคอมเม้นเรื่อง OSEMN ในบทความต้นฉบับของ Mason & Wiggins (2010) ว่าไม่ได้กล่าวถึง “Iteration” ซึ่งเป็น principle สำคัญของงาน Data Science

Hadley Comment

ถ้ารวม OSEMN ต้นฉบับเข้ากับคำแนะนำของ Wickham ต่อไปเวลาใครถามว่า data science คืออะไร? ก็ตอบเค้าไปเลยว่า …

Data Science is OSEMNi !!

โอเซมนิ !! จบแล้ว หวังว่าบทความนี้จะเป็นประโยชน์กับทุกคนที่สนใจงานด้าน Data Science ถ้าชอบบทความอย่าลืมแชร์ให้เพื่อนอ่านด้วยนะคร้าบ

DataRockie — Get One Percent Better Everyday


References

Leave a Reply