0 of 16 lessons complete (0%)
Exit Course

Lesson 4 – Data is key to ML

What is Data

ข้อมูลคือ event ที่เกิดขึ้นและถูกบันทึกไว้ในรูปแบบ digital/ analog

ถ้าเราเปิด dictionary หาความหมายของ data เราจะได้นิยามว่า

Facts and statistics collected together for reference or analysis

Google (Link)

ส่วนตัวแอดใช้นิยามง่ายๆเลย “Data คือทุกสิ่งที่เกิดขึ้นมาและมีการบันทึกเก็บไว้ เราสามารถนำมาใช้ซ้ำได้” ในนิยามที่แอดใช้จะมีอยู่สองปัจจัยคือ [1] Event สิ่งที่เกิดขึ้นมา [2] Storage ที่เราใช้ในการเก็บข้อมูลนั้นๆ

📝 ตัวอย่างเครื่องมือที่ใช้เก็บ data บนเว็บไซต์ที่ทุกคนสามารถใช้งานได้ฟรีคือ Google Analytics ทุกอย่างที่เกิดขึ้นบนเว็บไซต์เราเรียกว่า Event ที่ GA บันทึกไว้ใน data storage/ database

Structured Data for ML Project

Data คือหัวใจสำคัญของการสร้าง ML models

ในคอร์สนี้เราโฟกัสที่ supervised learning แอดจะเรียกปัญหานี้ว่า classical ML นะครับ ข้อมูลที่เราใช้เทรน classical ML จะเป็นแบบ structured data คือข้อมูลแบบตารางที่มีคอลัมน์ (features) และแถว (observations)

Structured Data สำหรับโปรเจ็ค ML

📝 ก่อนเราจะเทรนโมเดลได้ เราต้องเตรียมข้อมูลให้อยู่ในรูปแบบตามรูปนี้ก่อนเสมอ ศัพท์เทคนิคใน R/ Python เรียกข้อมูลแบบนี้ว่า DataFrame และรูปแบบ file format ที่เรานิยมรับส่งกันคือ CSV (comma separated values)

ตัวอย่าง CSV เปิดด้วยโปรแกรม Microsoft Excel

Supervised Learning = Prediction Model

ในข้อมูลที่เราเตรียมไว้ จะต้องมีหนึ่งคอลัมน์ที่เราต้องการทำนายเป็น target variable หรือที่เรียกสั้นๆว่า label (y) ส่วนตัวแปรอื่นๆที่ใช้เป็นตัวแปรต้นในโมเดลจะเรียกว่า features (X)

y = f(X)
label = f(features)

📝 ขั้นตอนที่ยากสุดของการสร้างโมเดลคือการเตรียมข้อมูลให้พร้อม จากผล survey หลายๆที่พบว่า data preparation/ cleaning ใช้เวลาประมาณ 50-80% ของโปรเจ็ค ส่วนเวลาในการทำ model training แค่ 10-20%

Data Centric Approach

เดือนก่อนแอดได้ฟัง อ. Andrew Ng เล่าเรื่อง ML ใน TED Talk จริงๆแกพูดเรื่องนี้ไปรอบหนึ่งแล้วในงาน Data and AI Summit 2022

สมัยก่อนการเทรนโมเดล machine learning ใช้หลักการ Model-Centric Approach คือเราเตรียม data ให้เสร็จแล้วค่อย iterate ด้วยโมเดลเวอร์ชันต่างๆ ทำยังไงก็ได้ให้โมเดลเรา fit กับข้อมูลได้ดีที่สุด

Andrew เชื่อว่าทุกวันนี้ ML/AI algorithms ที่มนุษย์เราสร้างขึ้นมา มันเก่งมากๆแล้ว (ค่อนข้าง mature) หน้าที่ของเราคือการหาข้อมูลที่มีคุณภาพ (high quality data) ส่งไปให้โมเดลมันเรียนรู้ดีกว่า Andrew เรียกวิธีการนี้ว่า Data-Centric Approach

TED Talk ของ Andrew Ng ปี 2022

📝 แอดเขียนสรุปเนื้อหาของทอล์คนี้ไว้ที่นี่แล้วครับ เผื่อใครสนใจอยากอ่านมุมมองของ อ. Andrew – Andrew Ng กับก้าวต่อไปของ AI ที่ทุกคนเข้าถึงได้ – DataRockie

High Quality Data

คุณภาพของโมเดล ขึ้นอยู่กับคุณภาพของข้อมูลที่เรา feed ให้กับ ML algorithm ปัจจัยที่มีผลสูงสุดกับ performance ของโมเดลคือ data

Garbage In, Garbage Out

Data Science Quote

ในคอร์สเรียน ML problem framing – Google อธิบายเรื่อง high quality ต้องมีคุณลักษณะอะไรบ้าง แอดหยิบมาอธิบายให้อ่านกัน 3 ข้อ (จากทั้งหมด 6 ข้อ แต่แอดคิดว่าสามข้อนี้สำคัญสุด)

  • Abundant – ข้อมูลมีเยอะพอที่จะเทรนโมเดลให้มีคุณภาพทั้งตอน train, test, validate, inference
  • Correct – ข้อมูลถูกต้อง เชื่อถือได้ รู้แหล่งที่มาชัดเจน
  • Represent the problem/ issue – ข้อมูลต้องตอบปัญหาที่เราต้องการจะแก้จริงๆ

📝 Lesson 6-10 ในคอร์สนี้ แอดจะมีสอนเทรนโมเดลด้วย structured data ง่ายๆ เช่น house prices, telco customer churn, penguins เป็นต้น รอเรียนได้เลยครับ

Strategic Data Acquisition

All Member ของ 7-11

ไม่ว่าข้อมูลของบริษัทเราจะเยอะแค่ไหน แต่ใหญ่แค่ไหนก็ไม่พอ ปัญหาของ Big Data ของหลายๆบริษัทคือเก็บมาเยอะแต่ใช้งานจริงได้น้อย noise เยอะ 555+

หน้าที่ของทีม data คือการเสนอแนวทางเพื่อเก็บข้อมูลใหม่ๆที่มี value เข้ามาในบริษัท ตัวอย่างเช่น All Member ของ 7-11 (ที่ได้แรงบันดาลใจมาจาก Clubcard ของ Tesco) เป็นตัวอย่างของ Strategic Data Acquisition

แล้ว 7-11 ได้ข้อมูลอะไรบ้างจากการออก All Member

  • ข้อมูลส่วนตัวลูกค้า ชื่อ นามสกุล ที่อยู่ เพศ อายุ (อ่านจากบัตรประชาชน)
  • ข้อมูลการซื้อสินค้า transaction data ในร้าน
  • นำข้อมูลที่มีอยู่มาวิเคราะห์ทำการตลาดได้ดีขึ้น เพิ่มยอดขาย กระตุ้นการใช้จ่าย

📝 First party data เป็นอีกหนึ่งเรื่องที่นักการตลาดพูดกันทุกวันเลยในปีที่ผ่านมา การวางระบบ data infrastructure/ acquisition คือขั้นตอนแรกที่จะช่วยให้เราได้ data มาปั้นโมเดลต่อไป

Formative Quiz