Regression Analysis คือเทคนิคทางสถิติที่ใช้ quantify ความสัมพันธ์ระหว่างตัวแปรต้น (x) และตัวแปรตาม (y) และเป็น algorithms สำคัญในการทำ prediction และ forecasting
โดยคำว่า “Regression” ถูกนำมาใช้ครั้งแรกโดย Sir Francis Galton ในปี 1875 จากการค้นพบปรากฎการณ์ที่เรียกว่า Regression towards the mean
ส่วน Regression ที่พวกเราต้องเรียนเป็นตัวแรกคือ Linear Regression นั่นเอง ทำไมต้องเรียนก่อน? เพราะว่ามันง่ายที่สุดแล้วฮะ 555+ (หลายคนคิดในใจ นี่ง่ายแล้วเหรอออออออ?) ง่ายจริงๆ!! ถ้าอ่านบทความวันนี้จบทำเป็นแน่นอน วันนี้เราจะสอนสร้าง Simple Linear Regression ง่ายๆด้วยโปรแกรม Excel ใช้แค่ 4 functions
Simple Linear Regression (SLR)
สำหรับสมการ SLR เบื้องต้น เขียนได้แบบนี้ y = b0 + b1*x1
โดยที่ค่า b0 เรียกว่า y-intercept (จุดตัดแกนตั้ง) ส่วน b1 คือ slope (ความชันของสมการเส้นตรง)
ที่เราเรียกว่า simple เพราะว่าสมการนี้มีตัวแปรต้น x1 แค่ตัวเดียว เราสามารถคำนวณค่า correlation, R-squared, intercept และ slope ด้วย 4 Excel Functions ด้านล่าง ตามลำดับ
- CORREL
- RSQ
- INTERCEPT
- SLOPE
ดาวน์โหลด Excel File ตัวอย่างได้ในลิ้งนี้ แอดเขียนสูตรไว้หมดแล้วใน sheet SLR โจทย์คือหาความสัมพันธ์ระหว่างตัวแปร MPG (miles per gallon) และ HP (horsepower) ของรถยนต์ n=15 คัน
CORREL(B2:B16, C2:C16)
= -0.8720RSQ(B2:B16, C2:C16)
= 0.7604INTERCEPT(B2:B16, C2:C16)
= 27.6333SLOPE(B2:B16, C2:C16)
= -0.0638
โดยที่ cell B2:B16 คือข้อมูลตัวแปรตาม MPG (y) และ cell C2:C16 คือข้อมูลตัวแปรต้น HP (x)
Interpretation
สำหรับสมการ Simple Linear Regression ที่เราได้จากตาราง output ด้านบน เขียนได้แบบนี้
mpg = b0 + b1 * hp
mpg = 27.6333 – 0.0638 * hp
โดย SLR model ของเรามีค่า R-squared เท่ากับ 0.7604 แปลว่าตัวแปรต้น (HP) อธิบายความแปรปรวนของตัวแปรตาม (MPG) ได้ประมาณ 76.04% (อีกชื่อหนึ่งของ R-squared คือ Explained Variance)
ซึ่ง R-squared ของโมเดล SLR จริงๆก็คือการเอาค่า Correlation (r) มายกกำลังสองตรงๆเลย ถ้าเราเอา -0.8720**2 จะมีค่าเท่ากับ 0.7604 พอดี ที่เราควรรู้คือ R-squared จะวิ่งอยู่ระหว่าง 0 ถึง 1 ยิ่งค่าเข้าใกล้หนึ่งแปลว่าตัวแปรต้น (x) อธิบายตัวแปรตาม (y) ได้ดียิ่งขึ้น
- Intercept (b0) = 27.6333 ปกติเราจะไม่ค่อยอ่านค่า intercept เท่าไร เหมือนการมีอยู่ของ b0 นั้นช่วยเรื่อง prediction ให้แม่นยำขึ้นเฉยๆ (งานวิจัย machine learning นิยมเรียก intercept ว่า bias)
- Slope (b1) = -0.0638 มีค่าติดลบ แปลว่าความสัมพันธ์ระหว่าง HP และ MPG สวนทางกัน ถ้า HP ลดลงหนึ่งหน่วย MPG จะเพิ่มขึ้น 0.0638 ไมล์ | หรือถ้า HP เพิ่มขึ้นหนึ่งหน่วย MPG จะลดลง 0.0638 ไมล์
สรุป – โดยทั่วไปรถยนต์ที่มีแรงม้าสูง (HP) มีแนวโน้มที่จะบริโภคน้ำมันสูงขึ้นเช่นกัน (i.e. MPG ลดลง)
Correlation Does Not Imply Causation
ข้อควรระวังเวลาอ่านผล Regression คือมันไม่สามารถใช้พิสูจน์เรื่อง Causation ได้ นอกจากงานวิจัยของเราจะเป็น experiment แบบจริงจัง
ในชีวิตจริงยังมีอีกหลายปัจจัยที่ส่งผลต่อ MPG ของรถยนต์คันหนึ่งๆ เช่น เทคโนโลยีการผลิต น้ำหนักรถยนต์ เป็นต้น ซึ่ง SLR ที่เราอธิบายในบทความนี้ยังไม่ได้ศึกษาความสัมพันธ์ระหว่าง MPG กับตัวแปรต้นตัวอื่นๆเลย
Prediction
mpg = 27.6333 – 0.0638 * hp
สมมติว่ามีรถยนต์คันใหม่ HP เท่ากับ 200 (new data) แทนค่า 200 เข้าไปในสมการด้านบน เราจะ predict ว่ารถยนต์คันใหม่นี้มี MPG = 27.6333 – (0.0638 * 200) เท่ากับ 14.8733
Key Learnings

- Regression คือโมเดลทางสถิติที่ใช้ quantify ความสัมพันธ์ของตัวแปรต้น (independent x) และตัวแปรตาม (dependent y)
- Linear regression ตัวแปรตามต้องเป็นแบบ continuous เชิงปริมาณเท่านั้น
- เวลาสร้างชาร์ท scatter plot สำหรับ SLR ตัวแปรต้นจะอยู่แกนนอน ตัวแปรตามอยู่แกนตั้ง
- SLR มีตัวแปรต้นหนึ่งตัว เป็นโมเดลที่ง่ายที่สุดในตระกูล Regression
เราสามารถ extend model ของเราด้วยการเพิ่มตัวแปรต้น xi อื่นๆเข้าไปในสมการมากกว่าหนึ่งตัว SLR จะเปลี่ยนเป็น Multiple Linear Regression (MLR) เดี๋ยวเราจะอธิบายการทำงานของ MLR ในบทความต่อไป พร้อมสอนทำใน Excel ด้วยฟังชั่น LINEST
เป็นประโยชน์มากเลยครับ ขอให้อัพบทความดีๆ แบบนี้บ่อยๆ นะครับ
ขอบคุณครับ