What is Data

ถ้าเราเปิด dictionary หาความหมายของ data
เราจะได้นิยามว่า
Facts and statistics collected together for reference or analysis
Google (Link)
ส่วนตัวแอดใช้นิยามง่ายๆเลย “Data คือทุกสิ่งที่เกิดขึ้นมาและมีการบันทึกเก็บไว้ เราสามารถนำมาใช้ซ้ำได้” ในนิยามที่แอดใช้จะมีอยู่สองปัจจัยคือ [1] Event สิ่งที่เกิดขึ้นมา [2] Storage ที่เราใช้ในการเก็บข้อมูลนั้นๆ
📝 ตัวอย่างเครื่องมือที่ใช้เก็บ data บนเว็บไซต์ที่ทุกคนสามารถใช้งานได้ฟรีคือ Google Analytics ทุกอย่างที่เกิดขึ้นบนเว็บไซต์เราเรียกว่า Event ที่ GA บันทึกไว้ใน data storage/ database
Structured Data for ML Project
Data คือหัวใจสำคัญของการสร้าง ML models
ในคอร์สนี้เราโฟกัสที่ supervised learning แอดจะเรียกปัญหานี้ว่า classical ML นะครับ ข้อมูลที่เราใช้เทรน classical ML จะเป็นแบบ structured data คือข้อมูลแบบตารางที่มีคอลัมน์ (features) และแถว (observations)

📝 ก่อนเราจะเทรนโมเดลได้ เราต้องเตรียมข้อมูลให้อยู่ในรูปแบบตามรูปนี้ก่อนเสมอ ศัพท์เทคนิคใน R/ Python เรียกข้อมูลแบบนี้ว่า DataFrame และรูปแบบ file format ที่เรานิยมรับส่งกันคือ CSV (comma separated values)

Supervised Learning = Prediction Model
ในข้อมูลที่เราเตรียมไว้ จะต้องมีหนึ่งคอลัมน์ที่เราต้องการทำนายเป็น target variable หรือที่เรียกสั้นๆว่า label (y) ส่วนตัวแปรอื่นๆที่ใช้เป็นตัวแปรต้นในโมเดลจะเรียกว่า features (X)
y = f(X)
label = f(features)
📝 ขั้นตอนที่ยากสุดของการสร้างโมเดลคือการเตรียมข้อมูลให้พร้อม จากผล survey หลายๆที่พบว่า data preparation/ cleaning ใช้เวลาประมาณ 50-80% ของโปรเจ็ค ส่วนเวลาในการทำ model training แค่ 10-20%
Data Centric Approach
เดือนก่อนแอดได้ฟัง อ. Andrew Ng เล่าเรื่อง ML ใน TED Talk จริงๆแกพูดเรื่องนี้ไปรอบหนึ่งแล้วในงาน Data and AI Summit 2022
สมัยก่อนการเทรนโมเดล machine learning ใช้หลักการ Model-Centric Approach คือเราเตรียม data ให้เสร็จแล้วค่อย iterate ด้วยโมเดลเวอร์ชันต่างๆ ทำยังไงก็ได้ให้โมเดลเรา fit กับข้อมูลได้ดีที่สุด
Andrew เชื่อว่าทุกวันนี้ ML/AI algorithms ที่มนุษย์เราสร้างขึ้นมา มันเก่งมากๆแล้ว (ค่อนข้าง mature) หน้าที่ของเราคือการหาข้อมูลที่มีคุณภาพ (high quality data) ส่งไปให้โมเดลมันเรียนรู้ดีกว่า Andrew เรียกวิธีการนี้ว่า Data-Centric Approach
📝 แอดเขียนสรุปเนื้อหาของทอล์คนี้ไว้ที่นี่แล้วครับ เผื่อใครสนใจอยากอ่านมุมมองของ อ. Andrew – Andrew Ng กับก้าวต่อไปของ AI ที่ทุกคนเข้าถึงได้ – DataRockie
High Quality Data
คุณภาพของโมเดล ขึ้นอยู่กับคุณภาพของข้อมูลที่เรา feed ให้กับ ML algorithm ปัจจัยที่มีผลสูงสุดกับ performance ของโมเดลคือ data
Garbage In, Garbage Out
Data Science Quote
ในคอร์สเรียน ML problem framing – Google อธิบายเรื่อง high quality ต้องมีคุณลักษณะอะไรบ้าง แอดหยิบมาอธิบายให้อ่านกัน 3 ข้อ (จากทั้งหมด 6 ข้อ แต่แอดคิดว่าสามข้อนี้สำคัญสุด)
- Abundant – ข้อมูลมีเยอะพอที่จะเทรนโมเดลให้มีคุณภาพทั้งตอน train, test, validate, inference
- Correct – ข้อมูลถูกต้อง เชื่อถือได้ รู้แหล่งที่มาชัดเจน
- Represent the problem/ issue – ข้อมูลต้องตอบปัญหาที่เราต้องการจะแก้จริงๆ
📝 Lesson 6-10 ในคอร์สนี้ แอดจะมีสอนเทรนโมเดลด้วย structured data ง่ายๆ เช่น house prices, telco customer churn, penguins เป็นต้น รอเรียนได้เลยครับ
Strategic Data Acquisition

ไม่ว่าข้อมูลของบริษัทเราจะเยอะแค่ไหน แต่ใหญ่แค่ไหนก็ไม่พอ ปัญหาของ Big Data ของหลายๆบริษัทคือเก็บมาเยอะแต่ใช้งานจริงได้น้อย noise เยอะ 555+
หน้าที่ของทีม data คือการเสนอแนวทางเพื่อเก็บข้อมูลใหม่ๆที่มี value เข้ามาในบริษัท ตัวอย่างเช่น All Member ของ 7-11 (ที่ได้แรงบันดาลใจมาจาก Clubcard ของ Tesco) เป็นตัวอย่างของ Strategic Data Acquisition
แล้ว 7-11 ได้ข้อมูลอะไรบ้างจากการออก All Member
- ข้อมูลส่วนตัวลูกค้า ชื่อ นามสกุล ที่อยู่ เพศ อายุ (อ่านจากบัตรประชาชน)
- ข้อมูลการซื้อสินค้า transaction data ในร้าน
- นำข้อมูลที่มีอยู่มาวิเคราะห์ทำการตลาดได้ดีขึ้น เพิ่มยอดขาย กระตุ้นการใช้จ่าย
📝 First party data เป็นอีกหนึ่งเรื่องที่นักการตลาดพูดกันทุกวันเลยในปีที่ผ่านมา การวางระบบ data infrastructure/ acquisition คือขั้นตอนแรกที่จะช่วยให้เราได้ data มาปั้นโมเดลต่อไป