เปิดต้นปีมาแบบเดือดๆกับฝั่ง AI ทั้ง OpenAI และ Google บทความนี้แอดลองใช้ Gemini ทำ Web Scraping ง่ายๆแบบไม่ต้อง code เหมาะกับคนขี้เกียจแบบแอด 555+

Google Gemini

Google เปลี่ยนชื่อ Bard เป็น Gemini แล้ว ปล่อยตัว Gemini Advanced ให้ลองใช้งาน จริงๆแอดชอบชื่อ “Bard” มากกว่า สั้นๆ เรียกง่ายกว่าด้วย 555+

Gemini มาพร้อมกับ user interface ใหม่ ดูดีขึ้น ใช้ง่ายขึ้นกว่าเดิม

New Gemini Interface
New Gemini Interface

Gemini Pro (ที่ใช้ฟรีบน web UI) อัปเดทล่าสุดเดือน ธ.ค. 2023 ที่ผ่านมา ส่วน knowledge cutoff ช่วงต้นปี 2023 อ้างอิงจาก Docs Gemini API

📝 Knowledge Cutoff คือวันสุดท้ายที่ Google เอาข้อมูลมาใช้เทรนโมเดล แปลว่า Gemini จะไม่มีความรู้หลังจากวันนั้นเลย เป็นข้อจำกัดของโมเดล LLM

นอกจากจะมีวิธีให้มันเข้าถึง recent data ได้ ตัว web scraping แอดยังแอบ doubt อยู่เหมือนกันว่ามันทำได้จริงไหม หรือมันแค่จำ content เก่าที่ใช้เทรนมันไว้มาตอบ

Gemini last updated on Dec 2023
Gemini last updated on Dec 2023

มาเข้าเรื่องวันนี้คือการทำ Web Scraping หรือการดึงข้อมูลจากเว็บไซต์

การทำ scraping ไม่ยากอย่างที่หลายคนคิด ในทางทฤษฎีแค่รู้พื้นฐาน HTML + CSS และเข้าใจ box model กับ CSS selector ก็เริ่มทำ scraping ได้แล้ว

The box model พื้นฐานของการสร้าง website
The box model พื้นฐานของการสร้าง website

มันจะยากตอนที่มีพวก JavaScript เข้ามาเกี่ยวด้วยเยอะๆ 555+ เช่น login form หรือ dynamic contents ที่เปลี่ยนตามการใช้งานของ users

Scrape Web Content

แอดกำลังหาซื้อหูฟังใหม่ อยากได้แบบ true wireless มีตัดเสียงภายนอกได้ ไปเจอตัว JBL Tune Beam ดูน่าสนใจ มีระบบ ANC ไมค์ 4 ตัว ไม่ได้จะมาขายหูฟังนะ 555+

อยู่ดีๆก็คิดว่า เหยยย หรือว่า Bard เอ้ย Gemini มันจะดึงข้อมูลจากเว็บนี้ออกมาให้เราได้ ปีก่อนๆ chatbot AI พวกนี้ยังเข้าถึง internet แบบ real-time ไม่ได้

แต่นี่ผ่านมาแล้วปีหนึ่ง (จริงๆก็แป๊บเดียว 555+) มันน่าจะเก่งขึ้นแล้วนะ เลยลองเขียน prompt แบบง่ายๆ ให้มันคิดเป็น steps อันนี้แอดลองกับ Gemini Pro (Free)

Hi Gemini, please do the following step by step.

1. Go to this website "https://www.jbl.com/wireless-earbuds/TUNE-BEAM.html"

2. Explore the webpage and find key information such as product name, price, available colors, key features, rating and reviews.

3. Send me back JSON data that have these keys: product name, price, color, key features, rating and number of reviews

Expected result {"product name": "name", "price": "price"}

I know you can do. Go Gemini!

ผลลัพธ์ที่ได้กลับมาจาก Gemini ใช้เวลาแป๊ปเดียว รันเร็วมาก นี่ขนาดเวอร์ชันฟรี 555+

Gemini Response
Gemini Response

Gemini และ LLM ตัวอื่นๆจะเก่งเรื่องการทำงานตามขั้นตอนที่เราบอก แต่ต้องเขียน prompt ให้ละเอียดหน่อย แบบ step 1, 2, 3, … ให้ได้ผลลัพธ์ที่ต้องการ

เว็บไซต์ที่ Gemini เข้าไปรีวิว จะมีโน้ต Websites reviewed อยู่ด้านล่างคำตอบที่มันส่งกลับมา ถ้ามันมีการ cite เนื้อหาจำนวนมากจากเว็บนั้นๆ ตรงนี้จะขึ้นเป็น Sources

Gemini เข้าไปรีวิว website และส่งคำตอบกลับมาแบบนี้
Website reviewed

ถ้าจ่ายเงินใช้เวอร์ชัน Advanced มันจะดึงข้อมูลได้เก่งขึ้นกว่านี้อีกหน่อย Google เคลมว่านี้คือโมเดลที่เก่งที่สุดที่เค้าเคยพัฒนามาเลย แต่คุ้มจริงไหม? ต้องอ่านต่อ ✌️

Scrape YouTube Video

ถ้าเรามองคำว่า “web scraping” ให้กว้างขึ้น จริงๆมันคือการดึงข้อมูลอะไรก็ได้จากเว็บเช่น ข้อความ รูปภาพ ไฟล์เสียง หรือวีดีโอ

เคยอ่านบทความหนึ่งใน internet มีคนอธิบายว่าจริงๆ AI มันอ่านไฟล์ transcript ของวีดีโอนั้นอีกที หรือพวก metadata ต่างๆ เช่น description, hashtag และ comments

YouTube วีดีโอของ Dan Koe
Dan Koe คือ Rising Creator ด้าน One-Person Business ปี 2024

แอดเลยลองให้มันสรุปวีดีโอ “The Fastest Way To Acquire High-Value Skills” ของ Dan Koe เพิ่งโพสต์สองวันก่อน (12 Feb 2024)

ก่อนจะใช้ฟีเจอร์ @YouTube ได้ ต้องเข้าไปที่ Setting แล้วกดเปิด Extensions ก่อน ปกติแอดเปิดเฉพาะตัว Workspace + YouTube แค่สองอันก็พอ ใช้บ่อยสุด

ตอนนี้ extensions ใช้ได้กับบัญชีส่วนตัวเท่านั้น ถ้าใครใช้ Gsuite/ Workspace จะยังสมัคร Gemini Advanced ไม่ได้นะคร้าบ แง๊

Enable Extensions
Enable Extensions

ตัวอย่าง prompt สรุปเนื้อหาของวีดีโอ YouTube

@YouTube can you go to this YouTube video "https://youtu.be/KrCzMfvSDv0?si=NGxjgcXdkrEy7ClJ" and summarise key contents in bullet point format

ผลลัพธ์ออกมาสวยๆ แอดเทียบกับเนื้อหาในวีดีโอแล้วค่อนข้างแม่นเลย accuracy > 90% ต่อไปไม่ต้องเสียเวลานั่งฟัง YouTube ยาวๆแล้ว AI สรุปให้ จบๆ 555+

Gemini ดึงข้อมูล YouTube ได้แล้วจ้า เย้
ดึงข้อมูล YouTube ได้แล้วจ้า เย้

ล่าสุดแอดเพิ่งซื้อหนังสือเล่มใหม่ของ Dan Koe “The Art of Focus” เหมือนกับที่ Gemini เขียนเป๊ะ ไม่ต้องอ่านทั้งเล่มแล้ว ยั๊งงง 🤣

ทิปการใช้งาน AI พวกนี้ ไม่ว่ามันจะเก่งขึ้นแค่ไหน อย่าลืมเช็คคำตอบที่มันส่งกลับมาด้วยนะครับ Gemini เจอปัญหา Hallucination เขียนคำตอบมั่วให้เราเป็นระยะๆ 555+

💡 Update – แอดลองให้มัน scrape บทความนี้ ไม่รู้มันมั่วไหม แต่หลายอันดู make sense 555+ ตัวอย่างเช่น ชื่อคนเขียน วันที่โพสต์ จำนวนแชร์ และ topic ของบทความ

Scrape ข้อมูลในบทความนี้แบบสดๆร้อนๆเมื่อกี้ 555+
Scrape แบบสดๆร้อนๆเมื่อกี้ 555+

Should You Upgrade?

แอดเห็นหลายคนชอบเอา Gemini Advanced ไปเทียบกับ ChatGPT Plus ราคาเท่ากันที่ 19.99 – 20 USD คิดเป็นเงินไทยเดือนละ 750 บาท

อาจจะเทียบกันตรงๆไม่ได้เพราะ Google ให้มากกว่าแค่ฟีเจอร์ AI

ในราคาเท่ากัน Gemini Advanced มาพร้อมกับ Google One Benefits และจุดแข็งคือการเชื่อมต่อกับ Google Services ได้สะดวกกว่า ChatGPT

ถ้าสมัคร AI Premium เราจะได้ benefits อื่นๆของ Google One ด้วย เช่น

  • Google Drive ได้ space เพิ่มจาก 15 GB เป็น 2 TB
  • Google Meet ได้นานขึ้น 24 ชม. พร้อม AI ตัดเสียงรบกวน
  • Google Calendar มีหน้า booking page ให้จอง slot เวลาเราได้
  • Google Photos เพิ่มฟีเจอร์แต่งรูปด้วย AI เหมือนโทรศัพท์ Google Pixel

Extension @Google Drive ช่วยให้เราอ่านไฟล์ PDF หรือ docs จาก drive ได้ด้วย เขียน prompt ให้ Gemini อ่านและสรุป content ก็ทำได้สบายๆผ่าน web UI

อ่านเพิ่มเติมเรื่อง Google One AI Premium Plan ถ้าเพื่อนๆคนไหนอยากลองใช้ Gemini Ultra 1.0 ตอนนี้ Google ให้ลองใช้งานฟรี 2 เดือน ✌️

เพื่อนๆลองใช้แล้วเทียบกับ ChatGPT เป็นยังไงบ้าง ลองแชร์ comment กันได้นะครับ

PS. ส่วนตัวแอดคิดว่า Advanced มันเก่งขึ้นก็จริง แต่ตัว Pro ที่ใช้ฟรีก็ทำอะไรได้เยอะแล้ว เสียเงินตอนนี้ยังไม่ค่อยคุ้มเท่าไหร่ รอดู Google อัปเดตเวอร์ชันต่อไปก่อน

3 responses to “วิธีทำ Web Scraping ด้วย Google Gemini เวอร์ชันฟรีก็ทำได้”

  1. Kasidis Satangmongkol Avatar

    ถ้าอยากให้ Gemini เข้าไปรีวิว website ไหน ลองเขียน prompt “Review this website [url] and give me recommendations on how to improve the contents” ตัว advanced เหมือนจะตอบได้ reliable กว่า เย้

  2.  Avatar
    Anonymous

    ขอบคุณครับ

  3.  Avatar
    Anonymous

    ขอบคุณสำหรับความรู้ค่าา

Leave a Reply to AnonymousCancel reply

Discover more from DataRockie

Subscribe now to keep reading and get access to the full archive.

Continue reading