PixelRAG ปรับปรุงความแม่นยำของ RAG และลดค่าโทเคนของ AI ag…

การวิจัยใหม่จากทีมที่ร่วมกันระหว่าง UC Berkeley, Princeton University, EPFL และ Databricks เปิดตัวระบบ PixelRAG ที่หลีกเลี่ยงขั้นตอนการแปลง HTML ไปเป็นข้อความโดยตรง ระบบนี้ใช้ภาพสกรีนช็อตของหน้าเว็บเป็นตัวดัชนีและให้โมเดลวิชัน‑ภาษา (VLM) อ่านข้อมูลโดยตรง ผลการทดสอบบน Wikipedia จำนวน 30 ล้านภาพแสดงให้เห็นว่า PixelRAG ให้ความแม่นยำสูงกว่าระบบ RAG แบบข้อความถึง 18.1 % และลดค่าโทเคนของ AI agent ได้ถึง 10 เท่า

Overview

ระบบ Retrieval‑Augmented Generation (RAG) ขององค์กรส่วนใหญ่เริ่มต้นด้วยการใช้ text parser แปลงหน้าเว็บและเอกสารเป็นข้อความธรรมดา เพื่อให้สามารถแบ่งเป็นชิ้นส่วนและทำการจัดดัชนีได้ อย่างไรก็ตามขั้นตอนนี้ทำลายสัญญาณการเรียกคืนข้อมูลที่สำคัญและเป็นสาเหตุหลักของคำตอบที่ผิดพลาดตามการวิจัยใหม่ การทดสอบบนชุดข้อมูล SimpleQA พบว่าการสูญเสียเหล่านี้มาจากสามสาเหตุหลัก:

Parser loss – 36.6 % ของความล้มเหลวเกิดจากการแปลง HTML‑to‑text ทำให้ข้อมูลที่ต้องการหายไปโดยสิ้นเชิง
Rank loss – 55.2 % ของความล้มเหลวมาจากการจัดอันดับที่ไม่ถูกต้อง เนื่องจากบล็อกข้อมูลที่มีคีย์เวิร์ดสูงเช่น infobox ถูกจัดให้อยู่ในอันดับแรกถึง 75.9 % ของคำถาม
Reader loss – 8.2 % ของความล้มเหลวมาจากการที่ข้อมูลที่ถูกต้องถึงมือผู้อ่านแล้ว แต่โครงสร้างที่แบนทำให้การตีความผิดพลาด

ทีมวิจัยสรุปว่า “การปรับปรุง parser อย่างต่อเนื่องเป็นกระบวนการที่ไม่มีที่สิ้นสุด เพราะแต่ละเว็บไซต์ต้องการการจัดการพิเศษ” (Yichuan Wang, UC Berkeley) และจึงมองหาวิธีใหม่ที่ใช้ความก้าวหน้าของ VLM เพื่อข้ามขั้นตอนนี้เลย

How PixelRAG Works

PixelRAG แทนที่กระบวนการแปลงข้อความด้วยระบบสี่ขั้นตอนที่ทำงานโดยตรงกับภาพสกรีนช็อตของหน้าเว็บ

Rendering – ใช้ Playwright เรนเดอร์หน้าเว็บที่ความกว้างคงที่ 875 พิกเซล แล้วตัดเป็นแถบภาพสูง 1024 พิกเซล หนึ่งบทความของ Wikipedia จำนวนประมาณ 7 ล้านบทความให้ได้ 30 ล้านแถบภาพ
Indexing – แต่ละแถบภาพถูกเข้ารหัสเป็นเวกเตอร์ 2048‑dimensional ด้วย Qwen3‑VL‑Embedding‑2B และเก็บในดัชนี FAISS ที่ใช้ประมาณ 120 GB ในรูปแบบ fp16
Training – โมเดลดึงข้อมูลถูกฝึกด้วยข้อมูลคู่คอนทราสต์ที่สร้างจาก datastore โดยใช้เทคนิค hard‑negative mining และ LoRA เพื่ออัปเดตน้ำหนักเพียงส่วนเล็กของโมเดล ทั้งภาษาและภาพ การฝึกใช้ประมาณ 40 000 คู่และเสร็จภายในสามชั่วโมงบน GPU H100 ตัวเดียว
Storage – แม้ภาพสกรีนช็อตของ Wikipedia จะต้องใช้ที่จัดเก็บ 5.6 TB ระบบทำการลบภาพหลังจากสร้างเวกเตอร์แล้ว สามารถเรนเดอร์หน้าเว็บใหม่ตามคำขอได้แบบ on‑demand

โครงสร้างนี้ทำให้ PixelRAG สามารถอ่านข้อมูลโดยอิงจาก layout และ typography ของหน้าเว็บได้เหมือนมนุษย์ ซึ่งต่างจากโมเดล LLM ที่อ่านเฉพาะข้อความแบน

Evaluation & Results

ทีมวิจัยทดสอบ PixelRAG บนหกชุดทดสอบที่ครอบคลุมการตอบคำถามจาก Wikipedia, การสืบค้นตาราง, การตอบคำถามหลายโมเดลและการดึงข่าวสารสด ผลลัพธ์สรุปได้ดังนี้

บน SimpleQA ความแม่นยำของ PixelRAG อยู่ที่ 78.8 % เทียบกับ 71.6 % ของระบบ text‑parser ที่ดีที่สุด
ในการสืบค้นข้อมูลจากตารางความแม่นยำเพิ่มเป็น 48.8 % จาก 42.5 % ของวิธีเดิม
การใช้โมเดลระดับ Qwen3‑VL‑4B ขึ้นไปจึงทำให้ได้ประโยชน์ที่ชัดเจน โมเดลขนาดเล็กกว่านั้นจะแย่กว่าระบบข้อความมากกว่า 12.5 เปอร์เซ็นต์

นอกจากนี้ PixelRAG ยังลดจำนวน prompt tokens ของ AI agent จาก 37.5 ล้านเป็น 3.6 ล้านโทเคน ซึ่งหมายถึงต้นทุนที่ลดลง 2‑4 เท่าเมื่อเทียบกับโซลูชันเช่น Google แม้จะยังคงมีค่าใช้จ่ายสูงกว่าโมเดลข้อความทั่วไปเพียงเล็กน้อยก็ตาม

Advantages & Limitations

การข้ามขั้นตอนการแปลงเป็นข้อความทำให้ PixelRAG รักษาข้อมูลเชิงโครงสร้างเช่น ภาพ, ตาราง, การจัดวาง, ตัวหนา เป็นต้น ซึ่งเป็นข้อได้เปรียบสำคัญต่อการทำความเข้าใจข้อมูลที่ซับซ้อน อย่างไรก็ตาม ระบบยังมีข้อจำกัดสำคัญที่ต้องแก้ไข

การแบ่งหน้าเว็บเป็นแถบภาพที่มีความสูงคงที่ 1024 พิกเซลอาจทำให้ table หรือ paragraph ถูกตัดครึ่งโดยไม่มีการรับรู้ขอบเขตของเนื้อหา ซึ่งแตกต่างจากการแบ่งชิ้นส่วนในระบบข้อความที่อาศัยการวิเคราะห์หัวข้อหรือเซมานติก
ประสิทธิภาพของ PixelRAG พึ่งพาโมเดล VLM ที่มีขนาดใหญ่ การนำไปใช้ในสภาพแวดล้อมที่มีทรัพยากรจำกัดอาจทำให้ค่าใช้จ่ายสูงขึ้น แม้ว่าจะมีการบีบอัดภาพเพื่อลดโทเคนต่อการค้นหาได้อีกหนึ่งในสาม

ทีมวิจัยจึงเรียกร้องให้ชุมชนการดึงข้อมูลมุ่งเน้นการพัฒนา visual chunking ที่ตระหนักถึงโครงสร้างของหน้าเว็บเพื่อให้ผลลัพธ์ดียิ่งขึ้น

Impact & Future Directions

PixelRAG แสดงให้เห็นว่าแนวทางการใช้ vision‑language models แทนการแปลงข้อความอาจเป็นทางออกที่มีประสิทธิภาพสำหรับปัญหาการสูญเสียข้อมูลใน RAG ขององค์กรระดับใหญ่ หากเทคโนโลยีนี้พัฒนาให้รองรับการแบ่งส่วนภาพอย่างชาญฉลาด จะทำให้ระบบสามารถจัดการกับเอกสารที่มีโครงสร้างซับซ้อนได้ดียิ่งขึ้น

ในระยะสั้น การลดจำนวนโทเคนของ AI agent ทำให้บริษัทที่ใช้ระบบ RAG สามารถประหยัดค่าใช้จ่ายได้อย่างมีนัยสำคัญ ซึ่งอาจเป็นจุดขายสำคัญสำหรับผู้ให้บริการคลาวด์และแพลตฟอร์ม AI ส่วนระยะยาว การบูรณาการ VLM กับการดึงข้อมูลอาจเปลี่ยนวิธีการออกแบบระบบค้นหาและสรุปข้อมูลในหลายอุตสาหกรรม ตั้งแต่การบริการลูกค้าไปจนถึงการวิเคราะห์ข้อมูลวิจัย

Summary

PixelRAG แสดงให้เห็นว่าการละทิ้งขั้นตอนแปลง HTML‑to‑text แล้วใช้ภาพสกรีนช็อตเป็นตัวดัชนี สามารถเพิ่มความแม่นยำของ RAG ได้ถึง 18 % และลดค่าโทเคนของ AI agent ถึง 10 เท่า แม้ว่ายังต้องแก้ไขการแบ่งภาพที่อาจตัดเนื้อหา การพัฒนาต่อไปของ VLM จะเป็นกุญแจสำคัญต่อการขยายการใช้งานนี้ในระดับองค์กร.