Author: Kasidis Satangmongkol

เมื่อ Statistical Significance ถูกตั้งคำถามอีกครั้งในศตวรรษที่ 21

Data Science

เมื่อวันที่ 20 มีนาคมที่ผ่านมา มีหนึ่งบทความตีพิมพ์ในนิตยสาร Nature กล่าวถึงการทำ statistical significance ด้วยค่า p-value และกฎที่เราใช้กันมาเกือบร้อยปี P < .05 ใจความสำคัญของบทความนี้คือการเรียกร้องให้นักวิทยาศาสตร์หยุดใช้ P ทดสอบสมมติฐานเพื่อสรุปผลซิก/ ไม่ซิกของงานวิจัย [su_spoiler title=”Nature คืออะไร?”]Nature คือ academic journal ที่มีค่า impact factor อันดับต้นๆในโลก เรียกได้ว่าบทความที่ได้ตีพิมพ์ใน journal นี้คุณภาพระดับโคตรพรีเมียม ทำให้บทความ “Statisticians rise up against statistical significance” ถูกแชร์มากมายบน facebook เมื่อวานนี้[/su_spoiler] ผู้เขียนบทความนี้ทั้งสามคน {Amrhein, Greenland และ McShane} ไม่ได้มาตัวคนเดียว เพราะเค้าไปล่าลายชื่อของเพื่อนนักวิจัยอีกมากกว่า 800 คนจาก 50 ประเทศ ที่เห็นด้วยกับเนื้อหาในงานฉบับนี้ We agree,…

March 22, 2019
4 คอร์ส ML คุณภาพระดับโลกที่คุณไม่ควรพลาด (2019)

Data Science

วันนี้แอดนั่งหาคอร์สเรียนออนไลน์ด้าน machine learning บนอินเตอร์เน็ต เจอคอร์สออกใหม่น่าสนใจหลายคอร์ส บริษัท AI ระดับท๊อปของโลกต่างเปิดสอนออนไลน์แบบ MOOC ของตัวเอง ค่อนข้างพูดได้เต็มปากว่าระบบการศึกษาแบบเก่า (ไปนั่งเรียนมหาวิทยาลัย 3-4 ปี) ใกล้ตายเต็มทีแล้ว ถ้าอยากเรียน ML จำเป็นต้องไปสมัครเรียน ป.โท ไหม? ตอบชัดๆเลยว่า “ไม่!!” แอดรวบรวม 4 คอร์ส ML คุณภาพระดับโลกมาให้อ่านในบทความนี้ มีครบทั้ง Microsoft, Google, Fast.ai และ Amazon เปิดคอมนั่งเรียนที่บ้านได้ ทุกคอร์สเรียนฟรี 100% Microsoft ชี้เป้า – AI School Machine Learning Path Microsoft เอาจริงมากๆกับการทำคอร์สออนไลน์ด้าน data science, AI และ cloud services สำหรับคอร์ส ML Crash…

March 13, 2019
เทคนิคการวิเคราะห์ข้อมูลขนาดใหญ่ด้วย Excel

Data Science

เราถูกสอนกันว่า Excel ไม่เหมาะจะใช้ทำงานด้าน Big Data เพราะข้อจำกัดเรื่องขนาดข้อมูลที่ไม่สามารถวิเคราะห์ข้อมูลเกิน 1.04 ล้าน rows ได้ [su_highlight background=”#DDFF99″ color=”#000000″]วันนี้เราจะแนะนำเทคนิค (ไม่ลับ) ให้ทุกคนวิเคราะห์ข้อมูล 10 ล้าน records ด้วย Excel ง่ายๆ[/su_highlight] ปล. จริงๆตามทฤษฏีสามารถรันได้ถึง 100 ล้าน records เลยด้วย จำนวน rows 1,048,576 จำนวน columns 16,384 โดยทั่วไปไฟล์ Excel นามสุกล .xlsx จะสามารถแสดงผลข้อมูลได้ที่ 1.04 ล้านแถวและ 16,384 คอลั่มตามลำดับ แต่ถ้าเราแค่สร้าง connection ต่อไปที่ data source ของเรา Excel สามารถวิเคราะห์ข้อมูลได้มากกว่า 1 ล้านแถวสบายๆด้วย Pivot Table ตัวอย่างไฟล์…

March 12, 2019
สรุปเนื้อหาคอร์สเรียน AI For Everyone – ตอนที่ 4/4

Data Science

สัปดาห์สุดท้ายของคอร์ส AI For Everyone อธิบายผลกระทบของ AI ที่มีต่อสังคม เศรษฐกิจ ความเท่าเทียมกัน และเรื่องงานในอนาคต เราเขียนสรุปเป็น 4 หัวข้อดังนี้ What is DeepFake? DeepFake เป็นการผสมคำระหว่าง deep learning + fake เป็นเทคนิคการสังเคราะห์ใบหน้ามนุษย์เสมือนจริง (human image synthesis) แล้วนำไปใช้ในทางที่ผิด เช่น ทำให้ใบหน้าเหล่านั้นพูดในสิ่งที่เค้าไม่เคยพูด ด้านล่างเป็นตัวอย่างวีดีโอ DeepFake ของ Barack Obama อดีตประธานาธิบดีสหรัฐอเมริกา ในวีดีโอ Obama ตัวปลอมพูดว่า “ปธน. Trump เป็นคนที่โง่บรรลัยเลย .. เห็นมั้ย? ในชีวิตจริงผมคงไม่พูดแบบนี้ อย่างน้อยก็ไม่พูดในสถานที่สาธารณะ เรากำลังใช้ชีวิตอยู่ในยุคสมัยที่น่ากลัว” DeepFake เป็นปัญหาใหญ่ที่ส่งผลหลายอย่างบนอินเตอร์เน็ต โดยเฉพาะเรื่องการสร้างและกระจายข่าวสารแบบผิดๆ (false information) เพื่อผลประโยชน์ของคนกลุ่มใดกลุ่มหนึ่งโดยเฉพาะเรื่องการเมือง ข่าวที่อยู่บน social media…

March 9, 2019
สรุปเนื้อหาคอร์สเรียน AI For Everyone – ตอนที่ 3/4

Data Science

AI For Everyone สัปดาห์ที่สามมีหลายหัวข้อน่าสนใจ โดยเฉพาะเรื่องตำแหน่งงานในทีม AI และการลงลึกเรื่อง AI Transformation แอดเขียนสรุปเป็น 4 หัวข้อตามนี้ Hey Device, Tell Me A Joke Andrew ยกตัวอย่างการสร้าง Google Home ว่าภายในมี AI software หลายๆตัวทำงานร่วมกันและมีขั้นตอนการทำงาน 4 ขั้นตอนดังนี้ wakeword คือคำหรือ phrase ที่เราใช้ปลุก AI device เช่น “Okay Google” บน android smartphone พอ AI ตื่นและพร้อมรับคำสั่งของเรา ให้เราพูด command ต่างๆได้เลย เช่น เล่าเรื่องตลกให้ฟังหน่อย ตั้งนาฬิกาปลุก หรือถามคำถามง่ายๆ เช่น วันนี้อากาศดีไหม เป็นต้น AI จะทำการวิเคราะห์ประโยคที่เราพูด…

March 6, 2019
สรุปเนื้อหาคอร์สเรียน AI For Everyone – ตอนที่ 2/4

Data Science

สรุปเนื้อหาสำคัญจากคอร์ส AI For Everyone สัปดาห์ที่สอง สอนโดย Andrew Ng บน coursera ML-DS Workflow Andrew เริ่มสัปดาห์ที่สองด้วยการอธิบาย ML-DS workflow แอดเขียนสรุปให้อ่านในตารางด้านล่าง ทั้งสอง workflow มีสามขั้นตอน แตกต่างกันที่ขั้นตอนที่ 2-3 Step Machine Learning Data Science #1 Collect data Collect data #2 Train model (many iterations) Analyze data (many iterations) #3 Deploy model Suggest actions/ hypotheses ขั้นตอนที่หนึ่งคือการทำเก็บรวบรวมข้อมูล แอดชอบประโยคที่ Andrew พูดว่า “you can make progress…

March 4, 2019