บทความนี้แอดสรุปเนื้อหาอย่างละเอียดจากคอร์ส Data Engineering for Everyone ของ DataCamp ถ้าอยากรู้ว่า data engineer ทำงานอะไรบ้าง และแตกต่างจาก data scientist และ data analyst ยังไง อ่านต่อได้เลยคร้าบ
สำหรับเพื่อนๆที่สนใจ คอร์สเรียนนี้ใช้เวลาเรียนประมาณ 2 ชั่วโมง ประกอบด้วย 11 วีดีโอ 32 แบบฝึกหัด สอนโดย Hadrien Lacroix เนื้อหาแบ่งออกเป็นสามบท อธิบายคอนเซ็ปต์และคำศัพท์พื้นฐานของงาน data engineer
- Data Engineer คืออะไร
- Storing Data การเก็บข้อมูล
- Moving and Processing Data การย้ายและจัดการข้อมูล
ส่วนตัวแอดคิดว่าคอร์สนี้สอน concept โอเคเลย ได้เห็นภาพรวมของงาน data engineer และเข้าใจศัพท์เทคนิคที่เราใช้กันเยอะมากในสายงาน data เช่น data warehouse, databases, data lake, ETL pipeline เป็นต้น
Data Workflow
มาเริ่มกันที่ Data (Analytics) Workflow หรือกระบวนการไหลของข้อมูลจากต้นจบจบ ออกมาเป็น data products หรือง่ายสุดคือ models โดย data engineer (หรือ DE) จะทำงานที่ phase 1 เป็นหลักคือเรื่อง data collection & storage แปลไทยว่าการรวบรวมและจัดเก็บข้อมูลนั่นเอง

ถ้า DE เตรียมข้อมูลมาดี คนอื่นๆในบริษัท (Data Scientist/ Data Analyst) ก็จะสามารถทำงานได้สะดวกขึ้นมาก จริงๆต้องบอกว่าถ้าไม่มี DE คนอื่นๆจะทำงานต่อไม่ได้เลย (หรือถ้าต้องทำ data workflow เอง ก็จะเสียเวลามาก)
Data Scientist (DS) และ Data Analyst (DA) จะอยู่ที่ท้ายๆของ data workflow งานส่วนใหญ่สามารถเขียน SQL เพื่อดึงข้อมูลออกมาใช้งานได้เลย เช่น การทำ exploration/ visualization ไปจนถึงการทดลองและสร้างโมเดล
What is Data Engineer?
Data Engineer (DE) คือคนที่เก็บรวบรวม จัดเก็บ และดูแลข้อมูลทั้งหมดของบริษัทให้มันสามารถใช้งานได้จริง DataCamp สรุปนิยามของตำแหน่งไว้ดีมาก ดังนี้
✔️ Data engineer delivers the correct data
in the right form
to the right people
as efficiently
as possible. (keywords คือคำที่แอดไฮไลท์ไว้)
หน้าที่หลักของ DE คือการย่อย (ingest v.) ข้อมูลจากหลายแหล่งที่บริษัทเราเก็บมา เช่น ข้อมูลการใช้งานของลูกค้า ข้อมูลจาก Facebook, Twitter, YouTube หรือ social media อื่นๆ ข้อมูลจากร้านค้าทั้งแบบออนไลน์และออฟไลน์ และเซนเซอร์รูปแบบต่างๆ (Internet of Things)
พอย่อยข้อมูลเสร็จแล้ว DE จะทำความสะอาดข้อมูล จัดการ missing values ปรับหน้าตาข้อมูลเบื้องต้น หรือทำ data aggregation ตามความต้องการของธุรกิจนั้นๆ (business requirements) และโหลดข้อมูลใส่ data warehouse/ databases ให้กับ users คนอื่นๆใช้งานต่อไป ขั้นตอนที่แอดสรุปมาเรียกว่าการทำ ETL Pipeline หรือ Extract
> Transform
> Load
เป็นขั้นตอนการทำงานมาตรฐานของ data engineer

Note – ภาษาอังกฤษเราใช้คำว่า data ingestion คือกระบวนการรวบรวมข้อมูล (obtain/ extract) เพื่อทำ processing อื่นๆต่อไป ในบทความนี้แอดแปล ingest ว่า “ย่อย” ใครมีคำดีกว่านี้ ช่วยแนะนำด้วยนะคร้าบ 555+
Big Data
ปัจจัยสำคัญที่ทำให้ data engineer เป็นที่ต้องการมากในตลาดคือปริมาณข้อมูลที่เพิ่มขึ้นอย่างต่อเนื่อง และข้อมูลที่มีความหลากหลายมาจากหลาย sources ทุกวันนี้เราเรียกข้อมูลขนาดใหญ่ว่า “Big Data”
คอร์สเรียนของ DataCamp สรุปคุณลักษณะของ Big Data ไว้ 5 ข้อ ดังนี้
Volume
ขนาดVariety
ความหลากหลายVelocity
ความเร็วที่ข้อมูลถูกสร้างขึ้นมาVeracity
ความน่าเชื่อถือของแหล่งที่มา ตรวจสอบได้ไหมValue
ประโยชน์ที่ได้จากข้อมูลนั้นๆ
อันนี้นอกเรื่อง Hadley Wickham เคยเขียนไว้ว่าโปรเจ็ค Big Data ส่วนใหญ่หลังจากที่เรา process & transform ข้อมูลเสร็จแล้ว มันก็ไม่ได้ใหญ่อย่างที่คิด 555+ ตัวอย่างเช่น ลูกค้าดีแทคแบบรายเดือน 5 ล้านคน เตรียมข้อมูลไว้ 50 คอลัมน์ ถ้าเราจะเทรนโมเดลในคอมพิวเตอร์ตัวเอง จริงๆก็สามารถทำได้ อาจจะใช้เวลานานหน่อยแต่ได้ผลลัพธ์เหมือนกัน
สำหรับเพื่อนๆที่อยากมาสาย data engineer จะต้องมีความรู้ความเข้าใจเกี่ยวกับเทคโนโลยี Big Data หลายตัวด้วยกัน เช่น Spark, Airflow, Snowflake (เรื่องเทคโนโลยีจะขึ้นอยู่กับบริษัทที่เราไปทำงานด้วย รู้ภาพรวมคร่าวๆก็ดีครับ) รวมถึงผู้ให้บริการ cloud platform ต่างๆ เช่น Amazon AWS, Google Cloud Platform และ Microsoft Azure
Data Engineers Enables Data Scientists
ส่วนตัวแอดชอบประโยคนี้มาก “Data engineers enable data scientists” โฟกัสที่คำว่า “enable” (V.) งาน data science จะเกิดขึ้นไม่ได้เลยถ้าไม่มีทีมวิศวกรข้อมูลดีๆ แอดสรุปความแตกต่างของ DE vs. DS ในตารางด้านล่าง
Data Engineer | Data Scientist |
รวบรวม ย่อย จัดเก็บข้อมูล | นำข้อมูลมาใช้งานทางธุรกิจ |
สร้างฐานข้อมูล databases | เข้าใช้งาน databases |
สร้าง data pipelines | ใช้ข้อมูลที่ได้จาก pipelines ของ DE |
ความรู้ด้าน software engineering | ความรู้สถิติและการวิเคราะห์ข้อมูล |
สรุปง่ายๆจากตารางนี้ DE คือคนวางระบบข้อมูล ส่วน DS/ DA เป็นคนนำข้อมูลมาใช้ต่อ (หรือจะเรียกว่า users ก็ได้)
DE ยังมีหน้าที่ทำพวก optimization อีกด้วย เช่น การปรับจูนฐานข้อมูลให้ทำงานได้เร็วขึ้น นำเทคโนโลยีใหม่ๆมาช่วยทีม DS/ DA ให้ทำงานได้มีประสิทธิภาพมากขึ้น ตามนิยามที่เราอธิบายมาก่อนหน้านี้คือ as efficiently as possible โดยคำว่า efficient
มีสามด้านคือ performance, time และ cost
Automated Data Pipeline
ตะกี้แอดมีเกริ่นเรื่อง Data Pipeline มาคร่าวๆ ต้องบอกว่าคำนี้เป็นศัพท์ที่สำคัญที่สุดของงาน data engineer เลย อธิบายง่ายๆเป็นภาษาไทยคือการย้ายข้อมูลจากที่หนึ่งไปอีกที่หนึ่ง (pipe n. แปลว่า ท่อ เหมือนท่อการไหลของข้อมูล) โดยข้อมูลจะถูกไหลไปใส่ databases/ data warehouse

ลองนึกภาพทุกเดือนเวลามีลูกค้าใหม่เข้ามาใช้บริการของบริษัทเรา ตั้งแต่การลงทะเบียน ซื้อสินค้า และการใช้งานต่างๆ data engineer จะเตรียม script เพื่อทำขั้นตอนต่างๆใน data pipeline แบบอัตโนมัติ และตั้งเวลาให้รันทุกๆวันที่ 30 ของเดือน (batch) หรือรันแบบ stream แปลง่ายๆว่าการรัน pipeline สำหรับลูกค้าแต่ละคนเลย (individual data)
งาน Automated Pipeline ที่ DE ทำกันตลอด เช่น Extract
, Transform
, Combine
, Validate
และ Load
ข้อมูลใส่ฐานข้อมูล ข้อดีหลักๆของ automation คือลดความผิดพลาดจากการแทรกแซงของมนุษย์ (manual jobs)
Data Structures
DE จะมีความรู้เกี่ยวกับ data structures ดีมาก โดยเราสามารถจับกลุ่มข้อมูลตามโครงสร้าง (structures) ได้สามแบบ
- Structured Data (20%) ถูกเก็บใน databases/ data warehouse
- Semi-Structured Data ถูกเก็บใน No SQL databases เช่น MongoDB
- Unstructured Data (80%) ถูกเก็บใน Data Lake
โลกของเรามีข้อมูลประเภท unstructured เยอะมาก เช่น รูปภาพ ไฟล์เสียง วีดีโอ และข้อความต่างๆ คอร์สเรียนของ DataCamp ประเมินว่าข้อมูลประเภทนี้มีอยู่ประมาณ 80% (เปรียบเทียบกับ structured แค่ 20%)
Structured Data เป็นข้อมูลที่ทำงานด้วยง่ายที่สุด มีความเป็นระเบียบเรียบร้อยสูง เช่น ตารางที่อยู่ในฐานข้อมูล (Relational Databases) หรือไฟล์ csv/ excel ที่เราใช้งานอยู่ทุกวัน

ถัดมาคือข้อมูลแบบ semi-structured ต่อยอดมาจาก structured เพิ่มความยืดหยุ่นในการเก็บข้อมูล ตัวอย่างเช่น JSON, XML และ YAML (อ่านว่า แยม-เมล) ข้อมูลด้านล่างคือข้อมูล JSON ง่ายๆที่แอดเอามาจากเว็บไซต์ MongoDB เราเรียกการเก็บข้อมูลแบบนี้ว่า schemaless ลูกค้าแต่ละคนไม่จำเป็นต้องมีจำนวนคอลัมน์หรือ attribute เท่ากันก็ได้
{
"_id": 1,
"name" : { "first" : "John", "last" : "Backus" },
"contribs" : [ "Fortran", "ALGOL", "Backus-Naur Form", "FP" ],
"awards" : [
{
"award" : "W.W. McDowell Award",
"year" : 1967,
"by" : "IEEE Computer Society"
}, {
"award" : "Draper Prize",
"year" : 1993,
"by" : "National Academy of Engineering"
}
]
}
สุดท้ายคือข้อมูลแบบ unstructured ตัวอย่างเช่น วีดีโอบน YouTube หรือ facebook posts/ comments ในแต่ละวันมากกว่าพันล้านครั้ง ข้อมูลประเภทนี้จะจัดการได้ยากที่สุดเลย ทั้งการค้นหาหรือจัดระเบียบต่างๆ ส่วนใหญ่จะถูกเก็บอยู่ใน data lake เก็บเป็นไฟล์แบบ raw format ยังไม่ได้ผ่านการ process ใดๆ
Unstructured data จัดการได้ยากที่สุดแต่ก็มีประโยชน์มากที่สุดเช่นกัน ทุกวันนี้เราสามารถใช้ AI/ ML โดยเฉพาะ Deep Learning ในการ extract ข้อมูลสำคัญออกมาจาก unstructured sources ตัวอย่างเช่นการวิเคราะห์ภาษาธรรมชาติหรือ natural language processing หรือการทำ object detection ด้วย computer vision
SQL Databases
ภาษาที่ Data Engineer ชำนาญมากที่สุดคือ SQL
SQL ย่อมาจาก Structured Query Language เป็นภาษาทางการที่เราใช้ทำงานกับฐานข้อมูลตั้งแต่ปี 1970s ส่วนตัวแอดคิดว่านี่คือภาษาแรกที่ทุกคนควรเรียนเลย เรียนรู้ง่าย นำไปใช้ประโยชน์ได้ทันที
SELECT
call.*,
DATEDIFF("SECOND", call.start_time, call.end_time) AS call_duration
FROM call
ORDER BY
call.employee_id ASC,
call.start_time ASC;
ตำแหน่ง DE vs. DS จะมีวัตถุประสงค์ในการเขียน SQL ต่างกันดังนี้
- Data Engineer – create, read, update, maintain หรือ CRUD
- Data Scientist – query, filter, group, aggregate นำข้อมูลไปใช้งานต่อ
- ดาวน์โหลดหนังสือฟรี Practical SQL สำหรับผู้เริ่มต้นของเพจเราได้ที่นี่
อธิบายสั้นๆ DE ใช้ SQL เพื่อสร้างและอัพเดทข้อมูลใน databases ส่วน DS/ DA คือ users ที่ดึงข้อมูลไปวิเคราะห์
SQL ในตลาดจะมีอยู่หลายเวอร์ชันด้วยกัน เช่น SQLite, MySQL, PostgreSQL, Oracle Server, SQL Server รวมถึง SQL on Cloud อย่างเช่น Amazon Aurora และ Google Cloud SQL
Data Warehouse vs. Data Lake
Database หรือฐานข้อมูลมีนิยามง่ายๆว่า “Organized data stored
and accessed
on a computer” ในคอร์สนี้เรา define database กับ data warehouse ด้วยนิยามเดียวกัน (data warehouse คือ database ประเภทหนึ่ง)
ทบทวนเรื่องการเก็บข้อมูล data warehouse จะเก็บข้อมูลแบบ structured ส่วน data lake เก็บข้อมูลแบบ raw/ unstructured แอดทำตารางสรุปฟีเจอร์ของสองเทคโนโลยีนี้ด้านล่าง
Data Warehouse | Data Lake |
ขนาดไม่ใหญ่มาก | ขนาดใหญ่ สูงถึง 1 ล้าน GBs |
เก็บข้อมูลแบบ structured | เก็บข้อมูลได้ทุกแบบ (raw data) |
ออกแบบมาสำหรับทำ data analysis | มีความยากในการวิเคราะห์ (เพราะข้อมูลไม่เป็นระเบียบ) |
เหมาะสำหรับงาน ad-hoc, read-only queries | เหมาะสำหรับ big data/ real time analytics |
ราคาค่อนข้างสูงในการอัพเดท | ราคาถูกกว่า เน้นการเก็บข้อมูล (cost-effective) |
Data Lake จะมี data catalog เหมือนเป็น document เพื่อบันทึกรายละเอียดข้อมูลที่ถูกเก็บใน lake เช่น ที่มาของข้อมูล ใครเป็นเจ้าของข้อมูล ความถี่ในการอัพเดท ข้อมูลถูกนำไปใช้ทำอะไรต่อ เป็นต้น
เวลาเลือกเทคโนโลยีในการเก็บข้อมูล นอกจากเรื่อง data structures เราต้องคำนึงถึงปัจจัยอื่นๆ เช่น reliability
, autonomy
, scalability
และ speed
หน้าที่ของ DE คือการทำให้ทุกคนในบริษัทมั่นใจว่าเรามีระบบข้อมูลที่น่าเชื่อถือ ทำงานได้รวดเร็ว รองรับกับการขยายตัวของ [Big] Data ได้ ในราคาที่เหมาะสม (as efficiently as possible)
Processing Data
Data Processing คือการเปลี่ยนข้อมูลจาก raw format เป็น meaningful information
หลายคนน่าจะเคยได้ยินคนพูดกันว่า “Data is the new oil” หน้าที่ของ data engineer คือทำการกลั่นน้ำมันดิบ refine/ process จนมันสามารถนำมาใช้ประโยชน์ได้ กระบวนการกลั่นเกิดขึ้นใน pipeline ที่เรากำหนด (ตรงนี้คือ programming ล้วนๆ) โดยเครื่องมือของ DE จะมีให้เลือกใช้เยอะมากมีทั้งแบบฟรีและเสียเงิน

แล้ว data processing ต้องทำอะไรบ้าง? แอดสรุปมา 5 ข้อ
- ลบข้อมูลที่เราไม่ต้องการ (unwanted data/ noise)
- เปลี่ยน format ข้อมูล เช่น เปลี่ยนรูป .png เป็น .jpg เพื่อลดขนาดไฟล์
- จัดระเบียบข้อมูล จัดการ metadata และกำหนด schema/ structure
- บริหาร (optimize) memory, process และ network costs เพราะการทำงานกับข้อมูลใหญ่มีต้นทุน ทั้งค่า storage, moving และ processing
- ช่วยเพิ่ม productivity ให้กับทีมอื่นๆ – Data engineers enable data scientists
ภาษาที่ data engineer ใช้หลักๆคือ SQL, Python, Java, Scala และ Shell สำหรับเพื่อนๆที่สนใจงานตำแหน่งนี้ เริ่มศึกษา SQL + Python ก่อนได้เลย สองภาษานี้คือพื้นฐานสำคัญ ใช้เวลาเรียนไม่นาน นำไปต่อยอดได้ง่าย
Scheduling
Scheduling คือการกำหนดตารางการรันงานต่างๆของ data pipeline โดยเราสามารถตั้ง schedule ได้สามแบบ
- Manual คือการรันงานต่างๆด้วยตัวเอง
- Time คือการรัน pipeline แบบอัตโนมัติตามเวลาที่เรากำหนด
- Sensor Scheduling ชื่ออาจจะดูงงๆ แต่มันคือการเขียน if-else เพื่อรัน pipeline แบบอัตโนมัติถ้าเงื่อนไขนั้นเป็นจริง เช่น อัพเดทข้อมูล playlist ของลูกค้าอัตโนมัติ ถ้าลูกค้ากดปุ่ม add to playlist
สำหรับ data engineer อะไรที่มัน automate ได้ ก็ควรทำเป็น automate ให้หมด ตรงส่วนนี้จะใช้ความรู้ด้าน software engineering เยอะหน่อย อีกเรื่องหนึ่งที่ DE ต้องคำนึงถึงคือวิธีการ ingest data ใน pipeline
- Batch Processing คือการย่อยข้อมูลที่ถูกเก็บมาแล้วช่วงเวลาหนึ่ง (group records at intervals) เช่น รันอัพเดทตารางการใช้งานของลูกค้าทุกๆชั่วโมง ข้อมูลแบบ batch จะมีขนาดใหญ่ และใช้เวลาย่อยใน pipeline นาน
- Stream Processing คือการย่อยข้อมูลแบบ individual records ทันทีเลย งานบางอย่างเรารันแบบ batch ไม่ได้ เช่น การตรวจจับ frauds ของบัตรเครดิต ต้องดู transactions เป็นรายตัวเลย ใช้เวลาย่อยข้อมูลไม่กี่วินาที
Parallel Computing
Parallel Computing คือเทคโนโลยีที่ช่วยให้การ process ข้อมูลขนาดใหญ่สามารถทำได้ง่ายและเร็วขึ้นในปัจจุบัน วิธีการทำงานของ parallel คือการแตกงานใหญ่เป็นงานย่อย (subtasks) และกระจายไปตาม processing units ต่างๆ (ให้มองแต่ละ unit เป็นคอมพิวเตอร์เครื่องหนึ่งก็ได้)
ตัวอย่างเช่น ถ้าเราต้องพับเสื้อ t-shirt 1000 ตัว โดยเวลาในการพับอยู่ที่ 100 ตัว/ 15 นาที ถ้าทำงานนี้คนเดียวจะใช้เวลา 2 ชั่วโมงครึ่งถึงจะทำเสร็จทั้งหมด
แต่ถ้าเราใช้คอนเซ็ปต์ของ parallel computing กระจายงานไปที่เพื่อนสี่คน (processing units) บรีฟงานเพื่อนใช้เวลา 10 นาที แต่ละคนจะใช้เวลาแค่ 1 ชั่วโมง 15 นาที พับเสื้อ 250 ตัว รวม output ทั้งหมดได้ 1000 เท่าเดิม

ข้อดีของการใช้ parallel computing คือเราได้ extra processing power ทำงานเสร็จเร็วขึ้น แต่ข้อเสียคือการย้ายข้อมูล (moving data) ไปที่ processing units ต่างๆมีต้นทุนที่เราต้องจ่าย รวมถึงเวลาที่ processing units ต้องคุยกันด้วย (communication time) สังเกตในรูปด้านบน หลังจากทุก unit ทำงานเสร็จแล้ว ทั้งสี่ units จะใช้เวลาอีกประมาณ 5 นาที เพื่อรวมเสื้อที่พับแล้วทั้งหมดเข้าด้วยกัน
รวมเวลาในการทำงานทั้งหมด บรีฟงาน 10 นาที พับเสื้อ 75 นาที และรวมเสื้ออีก 5 นาที = 10 + 75 + 5 = 90 นาที หรือหนึ่งชั่วโมงครึ่ง ประหยัดเวลาได้หนึ่งชั่วโมง
Note – Parallel Computing ไม่ได้เหมาะสมกับทุกสถานการณ์ ถ้าประโยชน์ที่เราได้จากการทำ parallel ไม่มากพอ ก็ใช้วิธี processing แบบเก่าไปก่อนก็ได้ ตัวอย่างเช่น สถานการณ์ที่การย้ายข้อมูลไปที่ processing units ช้ามากหรือมีต้นทุนสูง เป็นต้น
Cloud Computing
Cloud คือบริการให้เช่า storage, databases, computing power ตาม demands ที่เราต้องการใช้งาน ผู้ให้บริการรายใหญ่ในตลาดคือ Amazon AWS, Microsoft Azure และ Google Cloud ตามลำดับ

ทุกวันนี้งานของ data engineer (เกือบ)ทั้งหมดสามารถทำผ่าน cloud services ได้เลย ตั้งแต่การ ingest ข้อมูล สร้าง data pipeline/ flow และโหลดข้อมูลเข้าสู่ databases/ data warehouse พร้อมให้ users ใช้งาน
เปรียบเทียบกับ on premises (ออน-เพรม คือการลงทุนซื้อและสร้าง data centers ของตัวเอง) การเช่าใช้งาน cloud มีข้อดีกว่าหลายอย่าง แอดสรุปมาแล้วในตารางด้านล่าง
Servers on Premises | Servers on Cloud |
ซื้อ | เช่า |
ต้องการพื้นที่ (สร้าง data centers ของตัวเอง) | ไม่ต้องการพื้นที่ (บริษัท cloud ลงทุนไว้หมดแล้ว) |
ออกค่าไฟและดูแลรักษาเอง | จ่ายเงินเฉพาะที่เราใช้เท่านั้น (pay as you go) |
scale ยากใช้เงินลงทุนเยอะ | scale resources ง่ายมากๆ (elastic) |
จำกัดเฉพาะพื้นที่ที่เราสร้าง server ไว้ | บริการลูกค้าได้ทั่วโลก |
ข้อดีที่สุดของ cloud คือการที่เราสามารถปรับเปลี่ยนขนาด resources (server, storage, computing power) ตามการใข้งานจริง จ่ายเงินเฉพาะที่เราใช้ ไม่จำเป็นต้องลงทุนเยอะๆ (no high investment cost) และไม่ต้องกังวลเรื่อง unused capacity เมื่อเทียบกับ on-premises แบบเก่า แต่ข้อเสียคือเข้ามาใช้บริการแล้วเลิกยาก 555+ เพราะบริษัท cloud เค้าก็พยายามจะล็อคเราไว้กับเค้าเสมอ
ส่วนตัวแอดคิดว่า cloud คืออนาคตจริงๆ เพิ่งไปสอบ AWS Certified Cloud Practitioner มาเมื่อเดือนก่อน ถ้าใครสนใจลองดูรายละเอียดการสมัครสอบได้ที่นี่ ไว้แอดเขียนสรุปให้อ่านอีกที

So What’s Data Engineer?
หวังว่าตอนนี้ทุกคนจะเข้าใจแล้วว่างาน Data Engineer เป็นยังไง ต้องเจอกับอะไรบ้าง มาสรุปกันอีกครั้งหนึ่ง
- Big Data คือปัจจัยสำคัญที่โลกเราต้องการ data engineer (ข้อมูลมีเยอะ แต่คนจัดการมันได้มีไม่เยอะเท่าไหร่)
- Data engineer คือคนที่ช่วยให้คนอื่นๆในบริษัททำงานได้ง่ายขึ้น “Data engineers enable data scientists”
- Data engineer สร้าง data pipeline เพื่อ extract > transform > load ข้อมูลเข้า databases/ warehouse
- Data engineer ต้องมีความรู้หลายด้านทั้งเรื่อง software engineering และเทคโนโลยี cloud services
- SQL + Python คือสองภาษาพื้นฐานสำหรับตำแหน่งนี้ เสร็จแล้วเรียน Java, Scala, Shell เพิ่มเติมด้วย
Thank You!
ขอบคุณที่อ่านจนจบคร้าบ บทความนี้คือบทความที่ 100 ของเว็บไซต์เราพอดีเลย ชอบกดไลค์ ใช่กดแชร์ เป็นกำลังใจให้แอดด้วยนะคร้าบ 😚