เราถูกสอนกันว่า Excel ไม่เหมาะจะใช้ทำงานด้าน Big Data เพราะข้อจำกัดเรื่องขนาดข้อมูลที่ไม่สามารถวิเคราะห์ข้อมูลเกิน 1.04 ล้าน rows ได้ วันนี้เราจะแนะนำเทคนิค (ไม่ลับ) ให้ทุกคนวิเคราะห์ข้อมูล 10 ล้าน records ด้วย Excel ง่ายๆ ปล. จริงๆตามทฤษฏีสามารถรันได้ถึง 100 ล้าน records เลยด้วย
จำนวน rows | 1,048,576 |
จำนวน columns | 16,384 |
โดยทั่วไปไฟล์ Excel นามสุกล .xlsx จะสามารถแสดงผลข้อมูลได้ที่ 1.04 ล้านแถวและ 16,384 คอลั่มตามลำดับ แต่ถ้าเราแค่สร้าง connection ต่อไปที่ data source ของเรา Excel สามารถวิเคราะห์ข้อมูลได้มากกว่า 1 ล้านแถวสบายๆด้วย Pivot Table ตัวอย่างไฟล์ .csv ที่เราจะใช้ใน tutorial วันนี้มีขนาด 281MB

เราลอง simulate dataset ขึ้นมามี 4 คอลั่ม ID, gender, math, science และมีทั้งหมด 10 ล้าน records !! ด้านล่างคือพรีวิวข้อมูล 10 แถวบนสุด ตัวอย่างวันนี้เราใช้ Excel เวอร์ชั่น Office 365

การวิเคราะห์ข้อมูลขนาดใหญ่ด้วย Excel จริงๆมีแค่สองขั้นตอนง่ายๆ ดังนี้
- สร้าง connection ไปที่ data file
- เสร็จแล้ววิเคราะห์ข้อมูลด้วย Pivot Table
Step 1 – Get Data
เปิดโปรแกรม Excel ขึ้นมาไปที่แท๊บ Data -> Get Data -> From File -> From Text/CSV เสร็จแล้ว browse หาไฟล์ข้อมูล .csv ที่เราต้องการแล้วคลิก Import

พอมาถึงหน้า preview data ให้เราคลิก Load -> Load To

ตั้งค่าในหน้าต่าง Import Data ตามรูปด้านล่าง
- เลือก Only Create Connection
- เลือก Add this data to the Data Model

รอประมาณ 2-3 นาทีจนกว่า Excel จะสร้าง connection/ data model กับไฟล์ข้อมูลสำเร็จ Excel จะแสดงข้อความว่า “10,000,000 rows loaded.” ทางด้านขวามือของหน้าจอ

Step 2 – Analyze Data
ตอนนี้เราสามารถเรียกใช้งาน Pivot Table เพื่อวิเคราะห์ข้อมูลได้แล้ว ให้ไปที่แท๊บ Insert -> Pivot Table แล้วเลือก option ตามรูปด้านล่าง
- Use an external data source -> คลิกที่ Choose Connection แล้วเลือก Connection ที่เราสร้างขึ้นมาในขั้นตอนที่แล้ว

Excel จะแสดงหน้าต่าง Pivot Table ให้เราใช้หมุนข้อมูลทางด้านขวามือของหน้าจอ

- ให้เราเลือกตัวแปร gender ใส่ไปที่ช่อง Rows
- เลือกตัวแปร gender, math, science ใส่ไปที่ช่อง Columns
- ปรับ format การแสดงผล Pivot Table และค่าสถิติได้ตามที่เราต้องการ

การสร้าง connection ไปที่ external data source และ Pivot Table ช่วยให้ data analyst วิเคราะห์ข้อมูลขนาดใหญ่ใน Excel ได้ไม่ยาก ใน Excel ยังมีเครื่องมือดีๆอีกหลายตัวที่เราควรศึกษาไว้ เช่น Power Query, Power Pivot, Solver, Analysis Toolpak เป็นต้น
เยี่ยมเลย ขอบคุณที่แชร์ครับทอย
ขอบคุณครับพี่นน 😀
ขอบคุณครับ ได้ความรู้ดีๆ ไปประยุกต์ใช้ในงาน
ขอบคุณที่ติดตามครับ 😉
ขอติดตามด้วยคนครับ
ช
ถามหน่อยคร้บ เวลาทำ data เยอะๆแบบนี้
ใช้ excel บน office365 เทียบกับ office suite ปกติที่ลงบนเครื่อง มีความต่างดืานความเร็ว ความเสถียร ความสามารถไหมครับผม