PixelRAG ปรับปรุงความแม่นยำของ RAG และลดค่าโทเคนของ AI ag…

ที่มาภาพ: VentureBeat

AI-อ่าน 8 นาทีVentureBeat

PixelRAG ปรับปรุงความแม่นยำของ RAG และลดค่าโทเคนของ AI ag…

⚡ สรุป 30 วิ

PixelRAG ใช้ภาพสกรีนช็อตของเว็บเป็นดัชนีโดย VLM ทำให้ความแม่นยำสูงกว่าระบบข้อความ 18.1% และลดค่าโทเคนของ AI agent ถึง 10 เท่าในชุดทดสอบ Wikipedia.

การวิจัยใหม่จากทีมที่ร่วมกันระหว่าง UC Berkeley, Princeton University, EPFL และ Databricks เปิดตัวระบบ PixelRAG ที่หลีกเลี่ยงขั้นตอนการแปลง HTML ไปเป็นข้อความโดยตรง ระบบนี้ใช้ภาพสกรีนช็อตของหน้าเว็บเป็นตัวดัชนีและให้โมเดลวิชัน‑ภาษา (VLM) อ่านข้อมูลโดยตรง ผลการทดสอบบน Wikipedia จำนวน 30 ล้านภาพแสดงให้เห็นว่า PixelRAG ให้ความแม่นยำสูงกว่าระบบ RAG แบบข้อความถึง 18.1 % และลดค่าโทเคนของ AI agent ได้ถึง 10 เท่า

Overview

ระบบ Retrieval‑Augmented Generation (RAG) ขององค์กรส่วนใหญ่เริ่มต้นด้วยการใช้ text parser แปลงหน้าเว็บและเอกสารเป็นข้อความธรรมดา เพื่อให้สามารถแบ่งเป็นชิ้นส่วนและทำการจัดดัชนีได้ อย่างไรก็ตามขั้นตอนนี้ทำลายสัญญาณการเรียกคืนข้อมูลที่สำคัญและเป็นสาเหตุหลักของคำตอบที่ผิดพลาดตามการวิจัยใหม่ การทดสอบบนชุดข้อมูล SimpleQA พบว่าการสูญเสียเหล่านี้มาจากสามสาเหตุหลัก:

  • Parser loss – 36.6 % ของความล้มเหลวเกิดจากการแปลง HTML‑to‑text ทำให้ข้อมูลที่ต้องการหายไปโดยสิ้นเชิง
  • Rank loss – 55.2 % ของความล้มเหลวมาจากการจัดอันดับที่ไม่ถูกต้อง เนื่องจากบล็อกข้อมูลที่มีคีย์เวิร์ดสูงเช่น infobox ถูกจัดให้อยู่ในอันดับแรกถึง 75.9 % ของคำถาม
  • Reader loss – 8.2 % ของความล้มเหลวมาจากการที่ข้อมูลที่ถูกต้องถึงมือผู้อ่านแล้ว แต่โครงสร้างที่แบนทำให้การตีความผิดพลาด

ทีมวิจัยสรุปว่า “การปรับปรุง parser อย่างต่อเนื่องเป็นกระบวนการที่ไม่มีที่สิ้นสุด เพราะแต่ละเว็บไซต์ต้องการการจัดการพิเศษ” (Yichuan Wang, UC Berkeley) และจึงมองหาวิธีใหม่ที่ใช้ความก้าวหน้าของ VLM เพื่อข้ามขั้นตอนนี้เลย

How PixelRAG Works

PixelRAG แทนที่กระบวนการแปลงข้อความด้วยระบบสี่ขั้นตอนที่ทำงานโดยตรงกับภาพสกรีนช็อตของหน้าเว็บ

  • Rendering – ใช้ Playwright เรนเดอร์หน้าเว็บที่ความกว้างคงที่ 875 พิกเซล แล้วตัดเป็นแถบภาพสูง 1024 พิกเซล หนึ่งบทความของ Wikipedia จำนวนประมาณ 7 ล้านบทความให้ได้ 30 ล้านแถบภาพ
  • Indexing – แต่ละแถบภาพถูกเข้ารหัสเป็นเวกเตอร์ 2048‑dimensional ด้วย Qwen3‑VL‑Embedding‑2B และเก็บในดัชนี FAISS ที่ใช้ประมาณ 120 GB ในรูปแบบ fp16
  • Training – โมเดลดึงข้อมูลถูกฝึกด้วยข้อมูลคู่คอนทราสต์ที่สร้างจาก datastore โดยใช้เทคนิค hard‑negative mining และ LoRA เพื่ออัปเดตน้ำหนักเพียงส่วนเล็กของโมเดล ทั้งภาษาและภาพ การฝึกใช้ประมาณ 40 000 คู่และเสร็จภายในสามชั่วโมงบน GPU H100 ตัวเดียว
  • Storage – แม้ภาพสกรีนช็อตของ Wikipedia จะต้องใช้ที่จัดเก็บ 5.6 TB ระบบทำการลบภาพหลังจากสร้างเวกเตอร์แล้ว สามารถเรนเดอร์หน้าเว็บใหม่ตามคำขอได้แบบ on‑demand

โครงสร้างนี้ทำให้ PixelRAG สามารถอ่านข้อมูลโดยอิงจาก layout และ typography ของหน้าเว็บได้เหมือนมนุษย์ ซึ่งต่างจากโมเดล LLM ที่อ่านเฉพาะข้อความแบน

Evaluation & Results

ทีมวิจัยทดสอบ PixelRAG บนหกชุดทดสอบที่ครอบคลุมการตอบคำถามจาก Wikipedia, การสืบค้นตาราง, การตอบคำถามหลายโมเดลและการดึงข่าวสารสด ผลลัพธ์สรุปได้ดังนี้

  • บน SimpleQA ความแม่นยำของ PixelRAG อยู่ที่ 78.8 % เทียบกับ 71.6 % ของระบบ text‑parser ที่ดีที่สุด
  • ในการสืบค้นข้อมูลจากตารางความแม่นยำเพิ่มเป็น 48.8 % จาก 42.5 % ของวิธีเดิม
  • การใช้โมเดลระดับ Qwen3‑VL‑4B ขึ้นไปจึงทำให้ได้ประโยชน์ที่ชัดเจน โมเดลขนาดเล็กกว่านั้นจะแย่กว่าระบบข้อความมากกว่า 12.5 เปอร์เซ็นต์

นอกจากนี้ PixelRAG ยังลดจำนวน prompt tokens ของ AI agent จาก 37.5 ล้านเป็น 3.6 ล้านโทเคน ซึ่งหมายถึงต้นทุนที่ลดลง 2‑4 เท่าเมื่อเทียบกับโซลูชันเช่น Google แม้จะยังคงมีค่าใช้จ่ายสูงกว่าโมเดลข้อความทั่วไปเพียงเล็กน้อยก็ตาม

Advantages & Limitations

การข้ามขั้นตอนการแปลงเป็นข้อความทำให้ PixelRAG รักษาข้อมูลเชิงโครงสร้างเช่น ภาพ, ตาราง, การจัดวาง, ตัวหนา เป็นต้น ซึ่งเป็นข้อได้เปรียบสำคัญต่อการทำความเข้าใจข้อมูลที่ซับซ้อน อย่างไรก็ตาม ระบบยังมีข้อจำกัดสำคัญที่ต้องแก้ไข

  • การแบ่งหน้าเว็บเป็นแถบภาพที่มีความสูงคงที่ 1024 พิกเซลอาจทำให้ table หรือ paragraph ถูกตัดครึ่งโดยไม่มีการรับรู้ขอบเขตของเนื้อหา ซึ่งแตกต่างจากการแบ่งชิ้นส่วนในระบบข้อความที่อาศัยการวิเคราะห์หัวข้อหรือเซมานติก
  • ประสิทธิภาพของ PixelRAG พึ่งพาโมเดล VLM ที่มีขนาดใหญ่ การนำไปใช้ในสภาพแวดล้อมที่มีทรัพยากรจำกัดอาจทำให้ค่าใช้จ่ายสูงขึ้น แม้ว่าจะมีการบีบอัดภาพเพื่อลดโทเคนต่อการค้นหาได้อีกหนึ่งในสาม

ทีมวิจัยจึงเรียกร้องให้ชุมชนการดึงข้อมูลมุ่งเน้นการพัฒนา visual chunking ที่ตระหนักถึงโครงสร้างของหน้าเว็บเพื่อให้ผลลัพธ์ดียิ่งขึ้น

Impact & Future Directions

PixelRAG แสดงให้เห็นว่าแนวทางการใช้ vision‑language models แทนการแปลงข้อความอาจเป็นทางออกที่มีประสิทธิภาพสำหรับปัญหาการสูญเสียข้อมูลใน RAG ขององค์กรระดับใหญ่ หากเทคโนโลยีนี้พัฒนาให้รองรับการแบ่งส่วนภาพอย่างชาญฉลาด จะทำให้ระบบสามารถจัดการกับเอกสารที่มีโครงสร้างซับซ้อนได้ดียิ่งขึ้น

ในระยะสั้น การลดจำนวนโทเคนของ AI agent ทำให้บริษัทที่ใช้ระบบ RAG สามารถประหยัดค่าใช้จ่ายได้อย่างมีนัยสำคัญ ซึ่งอาจเป็นจุดขายสำคัญสำหรับผู้ให้บริการคลาวด์และแพลตฟอร์ม AI ส่วนระยะยาว การบูรณาการ VLM กับการดึงข้อมูลอาจเปลี่ยนวิธีการออกแบบระบบค้นหาและสรุปข้อมูลในหลายอุตสาหกรรม ตั้งแต่การบริการลูกค้าไปจนถึงการวิเคราะห์ข้อมูลวิจัย

Summary

PixelRAG แสดงให้เห็นว่าการละทิ้งขั้นตอนแปลง HTML‑to‑text แล้วใช้ภาพสกรีนช็อตเป็นตัวดัชนี สามารถเพิ่มความแม่นยำของ RAG ได้ถึง 18 % และลดค่าโทเคนของ AI agent ถึง 10 เท่า แม้ว่ายังต้องแก้ไขการแบ่งภาพที่อาจตัดเนื้อหา การพัฒนาต่อไปของ VLM จะเป็นกุญแจสำคัญต่อการขยายการใช้งานนี้ในระดับองค์กร.

แชร์บทความนี้:

ชอบบทความแบบนี้?

สมัคร AI Automate Weekly Newsletter — รับเคล็ดลับ AI + how-to ใหม่
ทุกสัปดาห์ตรงถึง inbox ฟรี ไม่มีสแปม

แหล่งข่าวต้นฉบับ

ชื่อต้นฉบับ
PixelRAG beats text parsers on accuracy and cuts AI agent token costs 10x
ผู้เขียน
Unknown
แหล่ง
VentureBeat
วันที่เผยแพร่
12 มิถุนายน 2569 เวลา 22:39

Related

บทความที่เกี่ยวข้อง

ทดสอบอัปเดตใหญ่ของ NotebookLM 3 รายการและการยกเลิกฟีเจอร์…AI
15 มิถุนายน 2569 เวลา 21:30

ทดสอบอัปเดตใหญ่ของ NotebookLM 3 รายการและการยกเลิกฟีเจอร์…

NotebookLM ยังคงเป็น AI ช่วยวิจัยยอดนิยม ด้วยอัปเดต UI การสรุปแม่นยำขึ้นและความเร็วในการจัดการข้อมูล การยกเลิกฟีเจอร์เสียงแม้เงียบแต่เปลี่ยนวิธีใช้มาก

XDA Developers6 นาที
เกมอินดี้ต้องสร้าง Prototype ให้ดี มิใช่พึ่ง AI เพื่อรับเ…AI
15 มิถุนายน 2569 เวลา 17:00

เกมอินดี้ต้องสร้าง Prototype ให้ดี มิใช่พึ่ง AI เพื่อรับเ…

การสร้าง prototype เป็นขั้นตอนสำคัญเพื่อให้ผู้จัดพิมพ์พิจารณาการลงทุน แต่การใช้ AI อย่างเร่งรีบอาจทำให้เกมสูญเสียเอกลักษณ์และความน่าเชื่อถือ ตามที่ผู้แทนจาก…

Rock Paper Shotgun7 นาที
สหรัฐอเมริกาบังคับ Anthropic ระงับโมเดล AI ชั้นนำทันทีAI
15 มิถุนายน 2569 เวลา 14:00

สหรัฐอเมริกาบังคับ Anthropic ระงับโมเดล AI ชั้นนำทันที

รัฐบาลสหรัฐออกคำสั่งฉุกเฉินให้ Anthropic ปิดให้บริการโมเดล AI Fable 5 และ Mythos 5 ทั้งหมด เนื่องจากความกังวลเรื่องความปลอดภัยระดับชาติและช่องโหว่ jailbreak…

Android Authority6 นาที
ให้ LLM ภายในเครื่องเข้าถึง Docker แล้วสคริปต์มอนิเตอร์ถู…AI
15 มิถุนายน 2569 เวลา 05:00

ให้ LLM ภายในเครื่องเข้าถึง Docker แล้วสคริปต์มอนิเตอร์ถู…

ผู้ใช้ให้ Local LLM เข้าถึง Docker เพื่อสร้างสคริปต์มอนิเตอร์อัตโนมัติ แต่ค่าใช้จ่ายสูง, ความเป็นส่วนตัวเสี่ยง, และผลลัพธ์ไม่แม่นยำ…

XDA Developers8 นาที
คัดลอกลิงก์แล้ว!