Excel Statistics

สร้างโมเดล Simple Linear Regression ง่ายๆด้วย Excel

Regression Analysis คือเทคนิคทางสถิติที่ใช้ quantify ความสัมพันธ์ระหว่างตัวแปรต้น (x) และตัวแปรตาม (y) และเป็น algorithms สำคัญในการทำ prediction และ forecasting

โดยคำว่า “Regression” ถูกนำมาใช้ครั้งแรกโดย Sir Francis Galton ในปี 1875 จากการค้นพบปรากฎการณ์ที่เรียกว่า Regression towards the mean

ส่วน Regression ที่พวกเราต้องเรียนเป็นตัวแรกคือ Linear Regression นั่นเอง ทำไมต้องเรียนก่อน? เพราะว่ามันง่ายที่สุดแล้วฮะ 555+ (หลายคนคิดในใจ นี่ง่ายแล้วเหรอออออออ?) ง่ายจริงๆ!! ถ้าอ่านบทความวันนี้จบทำเป็นแน่นอน วันนี้เราจะสอนสร้าง Simple Linear Regression ง่ายๆด้วยโปรแกรม Excel ใช้แค่ 4 functions


Simple Linear Regression (SLR)

Untitled design
Photo by Headway on Unsplash

สำหรับสมการ SLR เบื้องต้น เขียนได้แบบนี้ y = b0 + b1*x1

โดยที่ค่า b0 เรียกว่า y-intercept (จุดตัดแกนตั้ง) ส่วน b1 คือ slope (ความชันของสมการเส้นตรง)

ที่เราเรียกว่า simple เพราะว่าสมการนี้มีตัวแปรต้น x1 แค่ตัวเดียว เราสามารถคำนวณค่า correlation, R-squared, intercept และ slope ด้วย 4 Excel Functions ด้านล่าง ตามลำดับ

  • CORREL
  • RSQ
  • INTERCEPT
  • SLOPE

ดาวน์โหลด Excel File ตัวอย่างได้ในลิ้งนี้ แอดเขียนสูตรไว้หมดแล้วใน sheet SLR โจทย์คือหาความสัมพันธ์ระหว่างตัวแปร MPG (miles per gallon) และ HP (horsepower) ของรถยนต์ n=15 คัน

  • CORREL(B2:B16, C2:C16) = -0.8720
  • RSQ(B2:B16, C2:C16) = 0.7604
  • INTERCEPT(B2:B16, C2:C16) = 27.6333
  • SLOPE(B2:B16, C2:C16) = -0.0638

โดยที่ cell B2:B16 คือข้อมูลตัวแปรตาม MPG (y) และ cell C2:C16 คือข้อมูลตัวแปรต้น HP (x)


Interpretation

สำหรับสมการ Simple Linear Regression ที่เราได้จากตาราง output ด้านบน เขียนได้แบบนี้

mpg = b0 + b1 * hp

mpg = 27.6333 – 0.0638 * hp

โดย SLR model ของเรามีค่า R-squared เท่ากับ 0.7604 แปลว่าตัวแปรต้น (HP) อธิบายความแปรปรวนของตัวแปรตาม (MPG) ได้ประมาณ 76.04% (อีกชื่อหนึ่งของ R-squared คือ Explained Variance)

ซึ่ง R-squared ของโมเดล SLR จริงๆก็คือการเอาค่า Correlation (r) มายกกำลังสองตรงๆเลย ถ้าเราเอา -0.8720**2 จะมีค่าเท่ากับ 0.7604 พอดี ที่เราควรรู้คือ R-squared จะวิ่งอยู่ระหว่าง 0 ถึง 1 ยิ่งค่าเข้าใกล้หนึ่งแปลว่าตัวแปรต้น (x) อธิบายตัวแปรตาม (y) ได้ดียิ่งขึ้น

  • Intercept (b0) = 27.6333 ปกติเราจะไม่ค่อยอ่านค่า intercept เท่าไร เหมือนการมีอยู่ของ b0 นั้นช่วยเรื่อง prediction ให้แม่นยำขึ้นเฉยๆ (งานวิจัย machine learning นิยมเรียก intercept ว่า bias)
  • Slope (b1) = -0.0638 มีค่าติดลบ แปลว่าความสัมพันธ์ระหว่าง HP และ MPG สวนทางกัน ถ้า HP ลดลงหนึ่งหน่วย MPG จะเพิ่มขึ้น 0.0638 ไมล์ | หรือถ้า HP เพิ่มขึ้นหนึ่งหน่วย MPG จะลดลง 0.0638 ไมล์

สรุป – โดยทั่วไปรถยนต์ที่มีแรงม้าสูง (HP) มีแนวโน้มที่จะบริโภคน้ำมันสูงขึ้นเช่นกัน (i.e. MPG ลดลง)


Correlation Does Not Imply Causation

ข้อควรระวังเวลาอ่านผล Regression คือมันไม่สามารถใช้พิสูจน์เรื่อง Causation ได้ นอกจากงานวิจัยของเราจะเป็น experiment แบบจริงจัง

ในชีวิตจริงยังมีอีกหลายปัจจัยที่ส่งผลต่อ MPG ของรถยนต์คันหนึ่งๆ เช่น เทคโนโลยีการผลิต น้ำหนักรถยนต์ เป็นต้น ซึ่ง SLR ที่เราอธิบายในบทความนี้ยังไม่ได้ศึกษาความสัมพันธ์ระหว่าง MPG กับตัวแปรต้นตัวอื่นๆเลย


Prediction

mpg = 27.6333 – 0.0638 * hp

สมมติว่ามีรถยนต์คันใหม่ HP เท่ากับ 200 (new data) แทนค่า 200 เข้าไปในสมการด้านบน เราจะ predict ว่ารถยนต์คันใหม่นี้มี MPG = 27.6333 – (0.0638 * 200) เท่ากับ 14.8733


Key Learnings

SLR
สร้าง Scatter Plot ด้วยโปรแกรม Excel และแสดงสมการ linear regression พร้อมค่า R-squared
  • Regression คือโมเดลทางสถิติที่ใช้ quantify ความสัมพันธ์ของตัวแปรต้น (independent x) และตัวแปรตาม (dependent y)
  • Linear regression ตัวแปรตามต้องเป็นแบบ continuous เชิงปริมาณเท่านั้น
  • เวลาสร้างชาร์ท scatter plot สำหรับ SLR ตัวแปรต้นจะอยู่แกนนอน ตัวแปรตามอยู่แกนตั้ง
  • SLR มีตัวแปรต้นหนึ่งตัว เป็นโมเดลที่ง่ายที่สุดในตระกูล Regression

เราสามารถ extend model ของเราด้วยการเพิ่มตัวแปรต้น xi อื่นๆเข้าไปในสมการมากกว่าหนึ่งตัว SLR จะเปลี่ยนเป็น Multiple Linear Regression (MLR) เดี๋ยวเราจะอธิบายการทำงานของ MLR ในบทความต่อไป พร้อมสอนทำใน Excel ด้วยฟังชั่น LINEST

3 comments

  1. เป็นประโยชน์มากเลยครับ ขอให้อัพบทความดีๆ แบบนี้บ่อยๆ นะครับ

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.