ถ้าคุณเคยนั่งแท๊กซี่ในประเทศไทย แปลว่าคุณเข้าใจคอนเซปต์ของ Linear Regression แล้ว (แค่ยังไม่รู้ตัว หื๊มมมม) บทความวันนี้เดี๋ยวเราจะมาอธิบายให้อ่าน ฉบับเข้าใจง่ายมากกก! ว่า linear regression คืออะไร และมันทำงานอย่างไร?
การคำนวณค่าโดยสาร
taxi meter ปกติจะเริ่มที่ 35 บาท แค่เราขึ้นไปนั่งก็ต้องจ่าย 35 บาทแล้ว และเดินทางได้แค่ 1 กม. แรกเท่านั้น ราคาค่าโดยสารจะเพิ่มขึ้นเรื่อยๆตามระยะทาง สมมติว่าค่ามิเตอร์เพิ่มขึ้น กม. ละ 5 บาท เราจะเขียนสมการค่าโดยสารของ taxi ได้แบบนี้
ค่าโดยสารแท๊กซี่ = 35 + (5 * ระยะทาง)
ถ้าเราเรียกแท๊กซี่กลับบ้าน ระยะทาง 10 กิโลเมตร สมมติว่ารถไม่ติดเลย เราจะเสียเงินประมาณ 35 + 5*9 = 80 บาท และสมการด้านบนนี้เองที่เราเรียก simple linear regression !!
ทำไมต้องคูณ 9? เพราะว่ากิโลเมตรแรกเราคิด 35 บาทไปแล้ว เลยเหลือแค่ 9 กม. คูณ 5 บาทต่อกิโล
สมการเส้นตรง
รูปแบบ linear regression ที่ง่ายที่สุดคือสมการเส้นตรงธรรมดานี้เอง (ที่เราเรียนมาตั้งแต่ประถม) ถ้ามีตัวแปรต้น (x) แค่หนึ่งตัวเราจะเรียกว่า “simple” แต่ถ้ามีตัวแปรต้นมากกว่าหนึ่งตัว เราจะเรียกว่า “multiple” แต่การทำงานมันก็ยังเหมือนเดิม เขียนเป็น general form ได้แบบนี้
y = b0 + b1*x1 y = b0 + b1*x1 + b2*x2 + b3*x3 + ... + (bk*xk)
โดยที่ b0 คือ intercept หรือจุดตัดแกนตั้ง ส่วน b1 คือค่า regression coefficient หรืออธิบายง่ายๆคือ slope ของสมการเส้นตรงนั้นเอง กลับไปที่ตัวอย่าง taxi meter ของเรา หน้าตาของสมการค่าโดยสารจะสร้างเป็นกราฟได้แบบนี้

ความหมายของ slope ในสมการ linear regression คือ ถ้า x เปลี่ยนแปลงไปหนึ่งหน่วย y จะเปลี่ยนแปลงเท่าไร ในกรณีของ taxi meter คือ ระยะทาง (x) ที่เพิ่มขึ้นหนึ่ง กม. ค่าโดยสาร (y) จะเพิ่มขึ้น 5 บาท
โมเดลที่ซับซ้อนยิ่งขึ้น
จริงๆแล้วปัจจัยหลักๆที่ส่งผลต่อ taxi meter ในประเทศไทยมีอยู่สองตัว คือ
- ระยะทาง
- เวลาที่อยู่บนถนน (รถติดไม่ติด)
เขียนเป็นสมการได้แบบนี้ taxi fare = 35 + b1*distance + b2*time
อ้างอิงจากหลายๆแหล่งข้อมูลที่แอดไปหาอ่านมาออนไลน์ เค้าบอกว่าถ้ารถติดบนถนน เคลื่อนที่ได้ช้ากว่า 6 กม. ต่อชั่วโมง ค่ามิเตอร์จะเพิ่มขึ้นอีกนาทีละ 2 บาท !! ส่วนราคาค่าโดยสารต่อระยะทาง ยิ่งวิ่งระยะทางไกลขึ้น ราคาต่อ กม. จะสูงขึ้นเช่นกัน
สรุปบทความนี้
- linear regression คือสมการเส้นตรงที่เราใช้อธิบายปรากฏการณ์ต่างๆในชีวิตประจำวันได้ง่ายๆ อย่างเรื่องการคิดค่าโดยสาร taxi meter
- linear regression ใช้ทำนายค่าโดยสาร หรือตัวแปรตาม (y) ที่เป็นแบบ numeric
- ในชีวิตจริง ความสัมพันธ์ของตัวแปร x y อาจจะไม่ได้ชัดเจนเหมือนกับตัวอย่างมิเตอร์วันนี้ แปลว่าค่า intercept และ b1 b2 b3 coefficients ในโมเดลที่เราสร้างขึ้นมาเป็นเพียงแค่ค่าประมาณการเท่านั้น i.e. approximation
- อ่านเพิ่มเติมวิธีการสร้าง linear regression ใน Excel ง่ายๆได้ที่บทความเก่าของเรา simple linear regression และ multiple linear regression
Leave a Reply