MRAgent ลดการใช้โทเค็นต่อคำถามจาก 3.26 ล้านเป็น 118 พันสำหรับ LLM Agents

ที่มาภาพ: VentureBeat

AI-อ่าน 8 นาทีVentureBeat

MRAgent ลดการใช้โทเค็นต่อคำถามจาก 3.26 ล้านเป็น 118 พันสำหรับ LLM Agents

⚡ สรุป 30 วิ

นักวิจัยจาก NUS เปิดตัว MRAgent ซึ่งเป็นกรอบการทำงานหน่วยความจำแบบ active สำหรับเอเจนต์ LLM ใช้โทเค็นเพียง 118 k ต่อคำถาม เทียบกับ LangMem ที่ต้องใช้ 3.26 M…

Lead – นักวิจัยจากมหาวิทยาลัยแห่งชาติสิงคโปร์เปิดตัว MRAgent ซึ่งเป็นกรอบการทำงานใหม่สำหรับการจัดการหน่วยความจำของเอเจนต์ LLM โดยเน้นการเรียกคืนแบบ “active” และลดการใช้โทเค็นอย่างมากเมื่อเทียบกับโซลูชันเดิม การเปลี่ยนแปลงนี้สำคัญต่อการขยายความสามารถของโมเดลภาษาขนาดใหญ่ในงานที่ต้องอาศัยการให้เหตุผลหลายขั้นตอนและการโต้ตอบระยะยาว

Overview

MRAgent (Memory Reasoning Architecture for LLM Agents) ถูกออกแบบเพื่อแก้จุดอ่อนของระบบเอเจนต์แบบ “retrieve‑then‑reason” ซึ่งมักทำให้หน้าต่างคอนเท็กซ์เต็มเร็วและทำให้กระบวนการค้นคืนข้อมูลสร้างสัญญาณรบกวนมากเกินไป ผู้พัฒนาชี้ว่า MRAgent ให้เอเจนต์สามารถพัฒนาหน่วยความจำแบบไดนามิกโดยอิงจากหลักฐานที่สะสมระหว่างการให้เหตุผล ทำให้กระบวนการเรียกคืนข้อมูลกลายเป็นส่วนหนึ่งของการคำนวณโดยตรง แทนที่จะเป็นขั้นตอนแยกจากกัน

ในเชิงประจักษ์ MRAgent ใช้โทเค็นเพียง 118 k tokens ต่อหนึ่งคำถาม ในขณะที่ระบบที่คล้ายกันอย่าง LangMem ต้องใช้โทเค็นมากถึง 3.26 M tokens ต่อการโต้ตอบเดียว ความแตกต่างนี้แปลเป็นต้นทุนการประมวลผลที่ต่ำกว่าและความเร็วที่เพิ่มขึ้นอย่างมีนัยสำคัญ

การออกแบบของ MRAgent ยังรองรับการทำงานร่วมกับโมเดลพื้นฐานหลายรุ่น โดยในงานทดสอบใช้ Gemini 2.5 Fl เป็นตัวประมวลผลหลัก ทำให้เห็นว่ากรอบงานนี้ไม่จำกัดเฉพาะโมเดลใดโมเดลหนึ่ง

Limitations of Passive Retrieval

ระบบการค้นคืนแบบดั้งเดิมมักทำงานผ่านการค้นหาเวกเตอร์หรือการเดินกราฟแล้วส่งผลลัพธ์ให้ LLM ทำการให้เหตุผลต่อไป อย่างไรก็ตามวิธีนี้มีข้อจำกัดสามประการสำคัญ:

  • ไม่สามารถปรับกลยุทธ์การค้นคืนระหว่างการให้เหตุผล ได้ หากเอเจนต์พบข้อมูลสำคัญที่ขาดหายไป เช่น วันที่หรือชื่อบุคคล มันไม่สามารถออกคำถามใหม่เพื่อเติมเต็มช่องว่างได้
  • ผลลัพธ์ที่ได้มักเป็นการแมทช์ตามความคล้ายคลึงเชิงผิว ทำให้ข้อมูลที่ไม่เกี่ยวข้องล้นหน้าต่างคอนเท็กซ์ของโมเดลและทำให้คุณภาพการให้เหตุผลลดลง
  • การพึ่งพาโครงสร้างคงที่ เช่นการดึง top‑k ผลลัพธ์หรือฟังก์ชันความเกี่ยวข้องที่กำหนดไว้ล่วงหน้า ทำให้ระบบขาดความยืดหยุ่นต่อการโต้ตอบระยะยาวที่ไม่สามารถคาดการณ์ล่วงหน้าได้

จุดอ่อนเหล่านี้เป็นสาเหตุที่ทำให้ผู้พัฒนาต้องมองหาแนวทางใหม่ที่รวมการให้เหตุผลเข้ากับการเรียกคืนหน่วยความจำอย่างต่อเนื่อง

Active Memory Reconstruction

แนวคิด “active and associative reconstruction process” ที่อ้างอิงจากประสาทวิทยาศาสตร์ จัดเป็นแกนหลักของ MRAgent โดยให้การเรียกคืนหน่วยความจำดำเนินไปเป็นขั้นตอนต่อเนื่อง แทนการอ่านข้อมูลจากฐานข้อมูลแบบคงที่ เริ่มต้นจากการสกัด Cue (คำกระตุ้น) จากคำถามของผู้ใช้ เช่น ชื่อคน กิจกรรม หรือสถานที่ แล้วใช้ Cue เหล่านี้เพื่อเชื่อมต่อกับ Tag ซึ่งเป็นสรุปความสัมพันธ์เชิงความหมาย

เอเจนต์จะเดินทางผ่านกราฟเชิงสัมพันธ์โดยใช้ Tag เป็นจุดตัดสินใจเพื่อเลือกเส้นทางที่คาดว่าจะให้ข้อมูลที่เกี่ยวข้องมากที่สุด กระบวนการนี้ทำซ้ำหลายรอบจนกว่าจะสะสมหลักฐานที่เพียงพอสำหรับการตอบคำถาม ตัวอย่างเช่น ในกรณีที่ผู้ใช้ถามว่า “Nate ใช้เงินรางวัลจากการแข่งขันวิดีโอเกมครั้งที่สามอย่างไร” MRAgent จะเริ่มจาก Cue “Nate”, “video game tournament”, “win” แล้วค้นหา Tag ที่เชื่อมโยง เช่น “Tournament Victory” ก่อนที่จะดึงข้อมูลจาก Content ที่เกี่ยวข้อง

Architecture Details

MRAgent ใช้โครงสร้างกราฟแบบหลายชั้นที่เรียกว่า Cue‑Tag‑Content โดยมีสามประเภทของโหนด:

  • Cue – คีย์เวิร์ดละเอียดอ่อน เช่น ชื่อเอกชนหรือแอตทริบิวต์เชิงบริบทที่สกัดจากการสนทนา
  • Tag – สะพานเชิงความหมายที่สรุปความสัมพันธ์ระหว่าง Cue กับ Content ทำให้การประเมินความเกี่ยวข้องทำได้เร็วโดยไม่ต้องโหลดข้อมูลเต็มรูปแบบ
  • Content – หน่วยความจำจริง แบ่งเป็นชั้นหลายระดับ เช่น episodic memory สำหรับเหตุการณ์เฉพาะและ semantic memory สำหรับความรู้ทั่วไปหรือพฤติกรรมผู้ใช้

กระบวนการดึงข้อมูลทำในสองขั้นตอน: LLM เริ่มต้นจาก Cue ไปยัง Tag เพื่อประเมินความสำคัญ แล้วจึงเข้าถึง Content ที่เชื่อมโยงกับ Tag ที่เลือก วิธีนี้ช่วยลดจำนวนโทเค็นที่ต้องส่งไปยังโมเดลอย่างมีประสิทธิภาพ

  • Frameworks ที่เปรียบเทียบ
  • A‑MEM – กราฟ‑based memory framework
  • MemoryOS – ระบบหน่วยความจำแบบลำดับชั้น
  • LangMem – ใช้โทเค็นจำนวนมาก (3.26 M) ต่อการโต้ตอบ
  • Mem0 – หน่วยความจำถาวรอื่น ๆ

Benchmark Performance

การทดสอบประสิทธิภาพของ MRAgent ทำบนสองชุดข้อมูลมาตรฐานของอุตสาหกรรมคือ LoCoMo และ LongMemEval ซึ่งออกแบบเพื่อวัดความสามารถของเอเจนต์ในการจัดการงานระยะยาวและการสนทนาที่มีหลายร้อยเทิร์น ผลลัพธ์แสดงให้เห็นว่า MRAgent สามารถให้คำตอบที่แม่นยำเทียบเท่าหรือดีกว่ากรอบงานอื่น ๆ ขณะเดียวกันใช้โทเค็นเพียง 118 k ต่อการถาม ซึ่งเป็นการลดลงถึง ≈ 96 % เมื่อเทียบกับ LangMem

นอกจากนี้ การประเมินเวลาในการทำงาน (runtime) ยังบ่งชี้ว่า MRAgent ใช้ทรัพยากรคอมพิวเตอร์น้อยกว่าโครงสร้างแบบดั้งเดิมอย่างมีนัยสำคัญ ทำให้เหมาะกับการนำไปใช้ในระบบบริการลูกค้าอัตโนมัติหรือแอปพลิเคชันที่ต้องการการตอบสนองแบบเรียลไทม์

Implications

การนำแนวคิด “active memory reconstruction” มาใช้ใน MRAgent เปิดทางให้ LLM agents สามารถทำงานในสภาพแวดล้อมที่ซับซ้อนและต่อเนื่องได้โดยไม่ต้องพึ่งพาการดึงข้อมูลแบบคงที่ ซึ่งอาจเป็นก้าวสำคัญต่อการพัฒนาแชทบอทที่มีความเข้าใจลึกซึ้งและสามารถปรับตัวตามข้อมูลใหม่ ๆ ได้อย่างรวดเร็ว

สำหรับอุตสาหกรรมที่ต้องการประหยัดต้นทุนการประมวลผลและลดความล่าช้า การลดการใช้โทเค็นจากระดับหลายล้านลงเหลือระดับแสนเป็นการลดค่าใช้จ่ายที่ชัดเจน นอกจากนี้โครงสร้าง Cue‑Tag‑Content ยังเปิดโอกาสให้ผู้พัฒนาสร้างฐานข้อมูลความจำที่เป็นเชิงสัมพันธ์ได้ง่ายขึ้น ซึ่งอาจส่งผลต่อการออกแบบระบบแนะนำส่วนบุคคลหรือระบบสนับสนุนการตัดสินใจในธุรกิจต่าง ๆ

Summary

MRAgent ของมหาวิทยาลัยแห่งชาติสิงคโปร์นำเสนอวิธีการจัดการหน่วยความจำแบบ “active” ที่ลดการใช้โทเค็นจาก 3.26 M ลงเป็น 118 k ต่อการถาม และให้ผลการทำงานที่ดีกว่ากรอบงานอื่น ๆ บนชุดทดสอบ LoCoMo และ LongMemEval การเปลี่ยนแปลงนี้อาจเร่งการพัฒนาเอเจนต์ LLM ในงานที่ต้องการการให้เหตุผลระยะยาวและการโต้ตอบที่ยืดหยุ่นมากขึ้น.

แชร์บทความนี้:

ชอบบทความแบบนี้?

สมัคร AI Automate Weekly Newsletter — รับเคล็ดลับ AI + how-to ใหม่
ทุกสัปดาห์ตรงถึง inbox ฟรี ไม่มีสแปม

แหล่งข่าวต้นฉบับ

ชื่อต้นฉบับ
New agentic memory framework uses 118K tokens per query. LangMem burns through 3.26M.
ผู้เขียน
[email protected] (Ben Dickson)
แหล่ง
VentureBeat
วันที่เผยแพร่
27 มิถุนายน 2569 เวลา 05:58

Related

บทความที่เกี่ยวข้อง

เปรียบเทียบเครื่องมือรัน LLM สี่ตัว พบว่า Ollama ทำงานเต็มศักยภาพAI
22 มิถุนายน 2569 เวลา 02:00

เปรียบเทียบเครื่องมือรัน LLM สี่ตัว พบว่า Ollama ทำงานเต็มศักยภาพ

ผู้เขียนทดสอบ LM Studio, Ollama, Text Generation WebUI และ llama.cpp บนคอมพิวเตอร์ระดับกลาง ผลการทดสอบพบว่า Ollama สามารถดึงศักยภาพของโมเดลได้เต็มที่ ทั้งด้าน…

XDA Developers7 นาที
AI บนเครื่องท้องถิ่นเข้าถึงง่ายขึ้น แต่ VRAM GPU ยังคงเป็นข้อจำกัดหลักAI
19 มิถุนายน 2569 เวลา 19:30

AI บนเครื่องท้องถิ่นเข้าถึงง่ายขึ้น แต่ VRAM GPU ยังคงเป็นข้อจำกัดหลัก

LM Studio และ Ollama ทำให้การรันโมเดลภาษาใหญ่บนคอมพิวเตอร์ส่วนบุคคลง่ายขึ้นโดยไม่ต้องมีความชำนาญ แม้โมเดล MoE ลดความต้องการ VRAM แต่ขนาด VRAM ของ GPU…

XDA Developers7 นาที
ให้ LLM ภายในเครื่องเข้าถึง Docker แล้วสคริปต์มอนิเตอร์ถู…AI
15 มิถุนายน 2569 เวลา 05:00

ให้ LLM ภายในเครื่องเข้าถึง Docker แล้วสคริปต์มอนิเตอร์ถู…

ผู้ใช้ให้ Local LLM เข้าถึง Docker เพื่อสร้างสคริปต์มอนิเตอร์อัตโนมัติ แต่ค่าใช้จ่ายสูง, ความเป็นส่วนตัวเสี่ยง, และผลลัพธ์ไม่แม่นยำ…

XDA Developers8 นาที
ทดลองรัน LLM บนสมาร์ทโฟนหนึ่งเดือน ทำให้เดสก์ท็อปดูเหมือน…AI
14 มิถุนายน 2569 เวลา 18:30

ทดลองรัน LLM บนสมาร์ทโฟนหนึ่งเดือน ทำให้เดสก์ท็อปดูเหมือน…

ผู้เขียนรัน LLM ขนาด 7 B แบบ 4‑bit บน Android สมาร์ทโฟน RAM 6‑8 GB พบผลลัพธ์แม่นยำพอแต่ตอบช้าและแบตหมดเร็ว การเปรียบเทียบกับเดสก์ท็อป RTX 3060…

XDA Developers9 นาที
คัดลอกลิงก์แล้ว!