เราถูกสอนกันว่า Excel ไม่เหมาะจะใช้ทำงานด้าน Big Data เพราะข้อจำกัดเรื่องขนาดข้อมูลที่ไม่สามารถวิเคราะห์ข้อมูลเกิน 1.04 ล้าน rows ได้ [su_highlight background=”#DDFF99″ color=”#000000″]วันนี้เราจะแนะนำเทคนิค (ไม่ลับ) ให้ทุกคนวิเคราะห์ข้อมูล 10 ล้าน records ด้วย Excel ง่ายๆ[/su_highlight] ปล. จริงๆตามทฤษฏีสามารถรันได้ถึง 100 ล้าน records เลยด้วย
จำนวน rows | 1,048,576 |
จำนวน columns | 16,384 |
โดยทั่วไปไฟล์ Excel นามสุกล .xlsx จะสามารถแสดงผลข้อมูลได้ที่ 1.04 ล้านแถวและ 16,384 คอลั่มตามลำดับ แต่ถ้าเราแค่สร้าง connection ต่อไปที่ data source ของเรา Excel สามารถวิเคราะห์ข้อมูลได้มากกว่า 1 ล้านแถวสบายๆด้วย Pivot Table ตัวอย่างไฟล์ .csv ที่เราจะใช้ใน tutorial วันนี้มีขนาด 281MB

เราลอง simulate dataset ขึ้นมามี 4 คอลั่ม ID, gender, math, science และมีทั้งหมด 10 ล้าน records !! ด้านล่างคือพรีวิวข้อมูล 10 แถวบนสุด ตัวอย่างวันนี้เราใช้ Excel เวอร์ชั่น Office 365

การวิเคราะห์ข้อมูลขนาดใหญ่ด้วย Excel จริงๆมีแค่สองขั้นตอนง่ายๆ ดังนี้
- สร้าง connection ไปที่ data file
- เสร็จแล้ววิเคราะห์ข้อมูลด้วย Pivot Table
Step 1 – Get Data
เปิดโปรแกรม Excel ขึ้นมาไปที่แท๊บ Data -> Get Data -> From File -> From Text/CSV เสร็จแล้ว browse หาไฟล์ข้อมูล .csv ที่เราต้องการแล้วคลิก Import

พอมาถึงหน้า preview data ให้เราคลิก Load -> Load To

ตั้งค่าในหน้าต่าง Import Data ตามรูปด้านล่าง
- เลือก Only Create Connection
- เลือก Add this data to the Data Model

รอประมาณ 2-3 นาทีจนกว่า Excel จะสร้าง connection/ data model กับไฟล์ข้อมูลสำเร็จ Excel จะแสดงข้อความว่า “10,000,000 rows loaded.” ทางด้านขวามือของหน้าจอ

Step 2 – Analyze Data
ตอนนี้เราสามารถเรียกใช้งาน Pivot Table เพื่อวิเคราะห์ข้อมูลได้แล้ว ให้ไปที่แท๊บ Insert -> Pivot Table แล้วเลือก option ตามรูปด้านล่าง
- Use an external data source -> คลิกที่ Choose Connection แล้วเลือก Connection ที่เราสร้างขึ้นมาในขั้นตอนที่แล้ว

Excel จะแสดงหน้าต่าง Pivot Table ให้เราใช้หมุนข้อมูลทางด้านขวามือของหน้าจอ

- ให้เราเลือกตัวแปร gender ใส่ไปที่ช่อง Rows
- เลือกตัวแปร gender, math, science ใส่ไปที่ช่อง Columns
- ปรับ format การแสดงผล Pivot Table และค่าสถิติได้ตามที่เราต้องการ

การสร้าง connection ไปที่ external data source และ Pivot Table ช่วยให้ data analyst วิเคราะห์ข้อมูลขนาดใหญ่ใน Excel ได้ไม่ยาก [su_highlight background=”#DDFF99″ color=”#000000″]ใน Excel ยังมีเครื่องมือดีๆอีกหลายตัวที่เราควรศึกษาไว้ เช่น Power Query, Power Pivot, Solver, Analysis Toolpak เป็นต้น[/su_highlight]
เยี่ยมเลย ขอบคุณที่แชร์ครับทอย
ขอบคุณครับพี่นน 😀
ขอบคุณครับ ได้ความรู้ดีๆ ไปประยุกต์ใช้ในงาน
ขอบคุณที่ติดตามครับ 😉
ขอติดตามด้วยคนครับ
ช
ถามหน่อยคร้บ เวลาทำ data เยอะๆแบบนี้
ใช้ excel บน office365 เทียบกับ office suite ปกติที่ลงบนเครื่อง มีความต่างดืานความเร็ว ความเสถียร ความสามารถไหมครับผม