Statistics

Taxi Meter and Linear Regression

อธิบายการคำนวณค่าโดยสารแท๊กซี่ในประเทศไทย ด้วย linear regression

ถ้าคุณเคยนั่งแท๊กซี่ในประเทศไทย แปลว่าคุณเข้าใจคอนเซปต์ของ linear regression แล้ว (แค่ยังไม่รู้ตัว หื๊มมมม) บทความวันนี้เดี๋ยวเราจะมาอธิบายให้อ่าน ฉบับเข้าใจง่ายมากกก! ว่า linear regression คืออะไร และมันทำงานอย่างไร?

การคำนวณค่าโดยสาร

taxi meter ปกติจะเริ่มที่ 35 บาท แค่เราขึ้นไปนั่งก็ต้องจ่าย 35 บาทแล้ว และเดินทางได้แค่ 1 กม. แรกเท่านั้น ราคาค่าโดยสารจะเพิ่มขึ้นเรื่อยๆตาม ระยะทาง สมมติว่าค่ามิเตอร์เพิ่มขึ้น กม. ละ 5 บาท เราจะเขียนสมการค่าโดยสารของ taxi ได้แบบนี้

ค่าโดยสารแท๊กซี่ = 35 + (5 * ระยะทาง)

ถ้าเราเรียกแท๊กซี่กลับบ้าน ระยะทาง 10 กิโลเมตร สมมติว่ารถไม่ติดเลย เราจะเสียเงินประมาณ 35 + 5*9 = 80 บาท และสมการด้านบนนี้เองที่เราเรียก simple linear regression !!

ทำไมต้องคูณ 9? เพราะว่ากิโลเมตรแรกเราคิด 35 บาทไปแล้ว เลยเหลือแค่ 9 กม. คูณ 5 บาทต่อกิโล

สมการเส้นตรง

รูปแบบ linear regression ที่ง่ายที่สุดคือสมการเส้นตรงธรรมดานี้เอง (ที่เราเรียนมาตั้งแต่ประถม) ถ้ามีตัวแปรต้น (x) แค่หนึ่งตัวเราจะเรียกว่า “simple” แต่ถ้ามีตัวแปรต้นมากกว่าหนึ่งตัว เราจะเรียกว่า “multiple” แต่การทำงานมันก็ยังเหมือนเดิม เขียนเป็น general form ได้แบบนี้

y = b_0 + b_1 x_1

y = b_0 + b_1 x_1 + b_2 x_2 + b_3 x_3 + ... + (b_k x_k)

โดยที่ b_0 คือ intercept หรือจุดตัดแกนตั้ง ส่วน b_1 คือค่า regression coefficient หรืออธิบายง่ายๆคือ slope ของสมการเส้นตรงนั้นเอง กลับไปที่ตัวอย่าง taxi meter ของเรา หน้าตาของสมการค่าโดยสารจะสร้างเป็นกราฟได้แบบนี้

Picture1
0-1 กม. แรกจ่ายแค่ 35 บาท และเพิ่มขึ้น กม. ละ 5 บาท (ตัวเลขสมมติ)

ความหมายของ slope ในสมการ linear regression คือ ถ้า x เปลี่ยนแปลงไปหนึ่งหน่วย y จะเปลี่ยนแปลงเท่าไร ในกรณีของ taxi meter คือ ระยะทาง (x) ที่เพิ่มขึ้นหนึ่ง กม. ค่าโดยสาร (y) จะเพิ่มขึ้น 5 บาท

โมเดลที่ซับซ้อนยิ่งขึ้น

จริงๆแล้วปัจจัยหลักๆที่ส่งผลต่อ taxi meter ในประเทศไทยมีอยู่สองตัว คือ

  • ระยะทาง
  • เวลาที่อยู่บนถนน (รถติดไม่ติด)

เขียนเป็นสมการได้แบบนี้  taxi fare = 35 + b_1 * distance + b_2 * time

อ้างอิงจากหลายๆแหล่งข้อมูลที่แอดไปหาอ่านมาออนไลน์ เค้าบอกว่าถ้ารถติดบนถนน เคลื่อนที่ได้ช้ากว่า 6 กม. ต่อชั่วโมง ค่ามิเตอร์จะเพิ่มขึ้นอีกนาทีละ 2 บาท !! ส่วนราคาค่าโดยสารต่อระยะทาง ยิ่งวิ่งระยะทางไกลขึ้น ราคาต่อ กม. จะสูงขึ้นเช่นกัน

สรุปบทความนี้

  • linear regression คือสมการเส้นตรงที่เราใช้อธิบายปรากฏการณ์ต่างๆในชีวิตประจำวันได้ง่ายๆ อย่างเรื่องการคิดค่าโดยสาร taxi meter
  • linear regression ใช้ทำนายค่าโดยสาร หรือตัวแปรตาม (y) ที่เป็นแบบ numeric
  • ในชีวิตจริง ความสัมพันธ์ของตัวแปร x y อาจจะไม่ได้ชัดเจนเหมือนกับตัวอย่างมิเตอร์วันนี้ แปลว่าค่า intercept และ b1 b2 b3 coefficients ในโมเดลที่เราสร้างขึ้นมาเป็นเพียงแค่ค่าประมาณการเท่านั้น i.e. approximation
  • อ่านเพิ่มเติมวิธีการสร้าง linear regression ใน Excel ง่ายๆได้ที่บทความเก่าของเรา simple linear regression และ multiple linear regression

เรียนฟรีออนไลน์กับเรา

สมัครเรียนฟรีคอร์สออนไลน์ R Python SQL SPSS ได้ที่ https://datarockie.com

ชอบกด Like ใช่กด Share ติดตามบทความใหม่ๆกับเราได้ตลอดทั้งปี

#DataRockie — Never Stop Learning

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.