ถ้าตอนไปสัมภาษณ์งานโดน HR ถามว่า data science คืออะไร? ก็ขอให้ตอบอย่างมั่นใจว่า – Data Science is OSEMN – โดยวัตถุประสงค์หลักของ OSEMN คือการหา pattern ที่ซ่อนอยู่ในข้อมูลที่สามารถนำไปใช้ประโยชน์ได้ในอนาคต (i.e. สั้นๆคือหา insights ที่เอาไปใช้ได้จริง)
OSEMN เป็น short-abbreviation ของ 5 ขั้นตอนการทำงานด้าน data science ประกอบด้วย
Obtain
Scrub
Explore
Model
iNterpret
Core Principles

ทุกๆ data science project เริ่มจากการเก็บรวบรวมข้อมูล <Obtain> ต่อด้วยการทำความสะอาดข้อมูล ปรับหน้าตาให้อยู่ใน format ที่เหมาะสม <Scrub> จากงานวิจัยของ DJ Patil (2012) พบว่าขั้นตอนการ scrub ใช้เวลานานที่สุดประมาณ 50-80% ของ OSEMN process
ขั้นตอนที่สามคือการศึกษาข้อมูลเบื้องต้นด้วย EDA – Exploratory Data Analysis พอเราเข้าใจข้อมูลเราดีแล้ว ก็เริ่มทำโมเดลต่างๆด้วย ML DL และปิดท้ายด้วยการนำเสนอ insights ต่างๆจาก OSEMN ทั้งหมดที่เราได้ทำมา <Explore → Model → iNterpret>
โดยแต่ละขั้นตอนของ OSEMN จะใช้ทักษะที่แตกต่างกัน สำหรับ O|S
ต้องใช้ hacking skill เขียนโปรแกรมเยอะหน่อย E|M
ใช้ความรู้คณิตศาสตร์และสถิติ และขั้นตอนสุดท้าย N
ใช้ทักษะ storytelling with data อธิบายเรื่องยากให้เข้าใจง่ายและน่าสนใจ
The Sixth Principle – Iteration
อ่านมาถึงตรงนี้ต้องบอกว่า OSEMN ไม่ใช่ linear process ที่วิ่งจาก O ไป N ได้ตรงๆ เวลาทำงานจริงเราจะทำงานแบบ non-linear คือวิ่งไปกลับระหว่าง O↔M จนกว่าเราจะได้ผลลัพธ์ที่น่าพอใจ และตอบปัญหาที่เราอยากจะแก้ในตอนแรก และไอเดียนี้เอง ทำให้ OSEMN ต้องเพิ่มกระบวนการสำคัญอีกหนึ่งอย่าง นั่นคือ Iteration
Hadley Wickham อีกหนึ่งบุคคลสำคัญที่ช่วยพัฒนาวงการ data science ด้วยการพัฒนา R packages ในตำนานอย่าง tidyverse
และ RStudio เข้าไปคอมเม้นเรื่อง OSEMN ในบทความต้นฉบับของ Mason & Wiggins (2010) ว่าไม่ได้กล่าวถึง “Iteration” ซึ่งเป็น principle สำคัญของงาน Data Science

ถ้ารวม OSEMN ต้นฉบับเข้ากับคำแนะนำของ Wickham ต่อไปเวลาใครถามว่า data science คืออะไร? ก็ตอบเค้าไปเลยว่า …
Data Science is OSEMNi !!
โอเซมนิ !! จบแล้ว หวังว่าบทความนี้จะเป็นประโยชน์กับทุกคนที่สนใจงานด้าน Data Science ถ้าชอบบทความอย่าลืมแชร์ให้เพื่อนอ่านด้วยนะคร้าบ
DataRockie — Get One Percent Better Everyday
References
- A Taxonomy of Data Science by Mason & Wiggins (2010)
- Data Science at the Command Line by Jeroen Janssens
- Life of Data: Data Science is OSEMN by Randy Lao
- 5 ขั้นตอนในการทำ Data Science ต้นจนจบ โดย แอดมินเพิร์ธ Data Science ชิลๆ
Leave a Reply