
ที่มาภาพ: VentureBeat
MRAgent ลดการใช้โทเค็นต่อคำถามจาก 3.26 ล้านเป็น 118 พันสำหรับ LLM Agents
⚡ สรุป 30 วิ
นักวิจัยจาก NUS เปิดตัว MRAgent ซึ่งเป็นกรอบการทำงานหน่วยความจำแบบ active สำหรับเอเจนต์ LLM ใช้โทเค็นเพียง 118 k ต่อคำถาม เทียบกับ LangMem ที่ต้องใช้ 3.26 M…
Lead – นักวิจัยจากมหาวิทยาลัยแห่งชาติสิงคโปร์เปิดตัว MRAgent ซึ่งเป็นกรอบการทำงานใหม่สำหรับการจัดการหน่วยความจำของเอเจนต์ LLM โดยเน้นการเรียกคืนแบบ “active” และลดการใช้โทเค็นอย่างมากเมื่อเทียบกับโซลูชันเดิม การเปลี่ยนแปลงนี้สำคัญต่อการขยายความสามารถของโมเดลภาษาขนาดใหญ่ในงานที่ต้องอาศัยการให้เหตุผลหลายขั้นตอนและการโต้ตอบระยะยาว
Overview
MRAgent (Memory Reasoning Architecture for LLM Agents) ถูกออกแบบเพื่อแก้จุดอ่อนของระบบเอเจนต์แบบ “retrieve‑then‑reason” ซึ่งมักทำให้หน้าต่างคอนเท็กซ์เต็มเร็วและทำให้กระบวนการค้นคืนข้อมูลสร้างสัญญาณรบกวนมากเกินไป ผู้พัฒนาชี้ว่า MRAgent ให้เอเจนต์สามารถพัฒนาหน่วยความจำแบบไดนามิกโดยอิงจากหลักฐานที่สะสมระหว่างการให้เหตุผล ทำให้กระบวนการเรียกคืนข้อมูลกลายเป็นส่วนหนึ่งของการคำนวณโดยตรง แทนที่จะเป็นขั้นตอนแยกจากกัน
ในเชิงประจักษ์ MRAgent ใช้โทเค็นเพียง 118 k tokens ต่อหนึ่งคำถาม ในขณะที่ระบบที่คล้ายกันอย่าง LangMem ต้องใช้โทเค็นมากถึง 3.26 M tokens ต่อการโต้ตอบเดียว ความแตกต่างนี้แปลเป็นต้นทุนการประมวลผลที่ต่ำกว่าและความเร็วที่เพิ่มขึ้นอย่างมีนัยสำคัญ
การออกแบบของ MRAgent ยังรองรับการทำงานร่วมกับโมเดลพื้นฐานหลายรุ่น โดยในงานทดสอบใช้ Gemini 2.5 Fl เป็นตัวประมวลผลหลัก ทำให้เห็นว่ากรอบงานนี้ไม่จำกัดเฉพาะโมเดลใดโมเดลหนึ่ง
Limitations of Passive Retrieval
ระบบการค้นคืนแบบดั้งเดิมมักทำงานผ่านการค้นหาเวกเตอร์หรือการเดินกราฟแล้วส่งผลลัพธ์ให้ LLM ทำการให้เหตุผลต่อไป อย่างไรก็ตามวิธีนี้มีข้อจำกัดสามประการสำคัญ:
- ไม่สามารถปรับกลยุทธ์การค้นคืนระหว่างการให้เหตุผล ได้ หากเอเจนต์พบข้อมูลสำคัญที่ขาดหายไป เช่น วันที่หรือชื่อบุคคล มันไม่สามารถออกคำถามใหม่เพื่อเติมเต็มช่องว่างได้
- ผลลัพธ์ที่ได้มักเป็นการแมทช์ตามความคล้ายคลึงเชิงผิว ทำให้ข้อมูลที่ไม่เกี่ยวข้องล้นหน้าต่างคอนเท็กซ์ของโมเดลและทำให้คุณภาพการให้เหตุผลลดลง
- การพึ่งพาโครงสร้างคงที่ เช่นการดึง top‑k ผลลัพธ์หรือฟังก์ชันความเกี่ยวข้องที่กำหนดไว้ล่วงหน้า ทำให้ระบบขาดความยืดหยุ่นต่อการโต้ตอบระยะยาวที่ไม่สามารถคาดการณ์ล่วงหน้าได้
จุดอ่อนเหล่านี้เป็นสาเหตุที่ทำให้ผู้พัฒนาต้องมองหาแนวทางใหม่ที่รวมการให้เหตุผลเข้ากับการเรียกคืนหน่วยความจำอย่างต่อเนื่อง
Active Memory Reconstruction
แนวคิด “active and associative reconstruction process” ที่อ้างอิงจากประสาทวิทยาศาสตร์ จัดเป็นแกนหลักของ MRAgent โดยให้การเรียกคืนหน่วยความจำดำเนินไปเป็นขั้นตอนต่อเนื่อง แทนการอ่านข้อมูลจากฐานข้อมูลแบบคงที่ เริ่มต้นจากการสกัด Cue (คำกระตุ้น) จากคำถามของผู้ใช้ เช่น ชื่อคน กิจกรรม หรือสถานที่ แล้วใช้ Cue เหล่านี้เพื่อเชื่อมต่อกับ Tag ซึ่งเป็นสรุปความสัมพันธ์เชิงความหมาย
เอเจนต์จะเดินทางผ่านกราฟเชิงสัมพันธ์โดยใช้ Tag เป็นจุดตัดสินใจเพื่อเลือกเส้นทางที่คาดว่าจะให้ข้อมูลที่เกี่ยวข้องมากที่สุด กระบวนการนี้ทำซ้ำหลายรอบจนกว่าจะสะสมหลักฐานที่เพียงพอสำหรับการตอบคำถาม ตัวอย่างเช่น ในกรณีที่ผู้ใช้ถามว่า “Nate ใช้เงินรางวัลจากการแข่งขันวิดีโอเกมครั้งที่สามอย่างไร” MRAgent จะเริ่มจาก Cue “Nate”, “video game tournament”, “win” แล้วค้นหา Tag ที่เชื่อมโยง เช่น “Tournament Victory” ก่อนที่จะดึงข้อมูลจาก Content ที่เกี่ยวข้อง
Architecture Details
MRAgent ใช้โครงสร้างกราฟแบบหลายชั้นที่เรียกว่า Cue‑Tag‑Content โดยมีสามประเภทของโหนด:
- Cue – คีย์เวิร์ดละเอียดอ่อน เช่น ชื่อเอกชนหรือแอตทริบิวต์เชิงบริบทที่สกัดจากการสนทนา
- Tag – สะพานเชิงความหมายที่สรุปความสัมพันธ์ระหว่าง Cue กับ Content ทำให้การประเมินความเกี่ยวข้องทำได้เร็วโดยไม่ต้องโหลดข้อมูลเต็มรูปแบบ
- Content – หน่วยความจำจริง แบ่งเป็นชั้นหลายระดับ เช่น episodic memory สำหรับเหตุการณ์เฉพาะและ semantic memory สำหรับความรู้ทั่วไปหรือพฤติกรรมผู้ใช้
กระบวนการดึงข้อมูลทำในสองขั้นตอน: LLM เริ่มต้นจาก Cue ไปยัง Tag เพื่อประเมินความสำคัญ แล้วจึงเข้าถึง Content ที่เชื่อมโยงกับ Tag ที่เลือก วิธีนี้ช่วยลดจำนวนโทเค็นที่ต้องส่งไปยังโมเดลอย่างมีประสิทธิภาพ
- Frameworks ที่เปรียบเทียบ
- A‑MEM – กราฟ‑based memory framework
- MemoryOS – ระบบหน่วยความจำแบบลำดับชั้น
- LangMem – ใช้โทเค็นจำนวนมาก (3.26 M) ต่อการโต้ตอบ
- Mem0 – หน่วยความจำถาวรอื่น ๆ
Benchmark Performance
การทดสอบประสิทธิภาพของ MRAgent ทำบนสองชุดข้อมูลมาตรฐานของอุตสาหกรรมคือ LoCoMo และ LongMemEval ซึ่งออกแบบเพื่อวัดความสามารถของเอเจนต์ในการจัดการงานระยะยาวและการสนทนาที่มีหลายร้อยเทิร์น ผลลัพธ์แสดงให้เห็นว่า MRAgent สามารถให้คำตอบที่แม่นยำเทียบเท่าหรือดีกว่ากรอบงานอื่น ๆ ขณะเดียวกันใช้โทเค็นเพียง 118 k ต่อการถาม ซึ่งเป็นการลดลงถึง ≈ 96 % เมื่อเทียบกับ LangMem
นอกจากนี้ การประเมินเวลาในการทำงาน (runtime) ยังบ่งชี้ว่า MRAgent ใช้ทรัพยากรคอมพิวเตอร์น้อยกว่าโครงสร้างแบบดั้งเดิมอย่างมีนัยสำคัญ ทำให้เหมาะกับการนำไปใช้ในระบบบริการลูกค้าอัตโนมัติหรือแอปพลิเคชันที่ต้องการการตอบสนองแบบเรียลไทม์
Implications
การนำแนวคิด “active memory reconstruction” มาใช้ใน MRAgent เปิดทางให้ LLM agents สามารถทำงานในสภาพแวดล้อมที่ซับซ้อนและต่อเนื่องได้โดยไม่ต้องพึ่งพาการดึงข้อมูลแบบคงที่ ซึ่งอาจเป็นก้าวสำคัญต่อการพัฒนาแชทบอทที่มีความเข้าใจลึกซึ้งและสามารถปรับตัวตามข้อมูลใหม่ ๆ ได้อย่างรวดเร็ว
สำหรับอุตสาหกรรมที่ต้องการประหยัดต้นทุนการประมวลผลและลดความล่าช้า การลดการใช้โทเค็นจากระดับหลายล้านลงเหลือระดับแสนเป็นการลดค่าใช้จ่ายที่ชัดเจน นอกจากนี้โครงสร้าง Cue‑Tag‑Content ยังเปิดโอกาสให้ผู้พัฒนาสร้างฐานข้อมูลความจำที่เป็นเชิงสัมพันธ์ได้ง่ายขึ้น ซึ่งอาจส่งผลต่อการออกแบบระบบแนะนำส่วนบุคคลหรือระบบสนับสนุนการตัดสินใจในธุรกิจต่าง ๆ
Summary
MRAgent ของมหาวิทยาลัยแห่งชาติสิงคโปร์นำเสนอวิธีการจัดการหน่วยความจำแบบ “active” ที่ลดการใช้โทเค็นจาก 3.26 M ลงเป็น 118 k ต่อการถาม และให้ผลการทำงานที่ดีกว่ากรอบงานอื่น ๆ บนชุดทดสอบ LoCoMo และ LongMemEval การเปลี่ยนแปลงนี้อาจเร่งการพัฒนาเอเจนต์ LLM ในงานที่ต้องการการให้เหตุผลระยะยาวและการโต้ตอบที่ยืดหยุ่นมากขึ้น.
แชร์บทความนี้:
ชอบบทความแบบนี้?
สมัคร AI Automate Weekly Newsletter — รับเคล็ดลับ AI + how-to ใหม่
ทุกสัปดาห์ตรงถึง inbox ฟรี ไม่มีสแปม
แหล่งข่าวต้นฉบับ
- ชื่อต้นฉบับ
- New agentic memory framework uses 118K tokens per query. LangMem burns through 3.26M.
- ผู้เขียน
- [email protected] (Ben Dickson)
- แหล่ง
- VentureBeat
- วันที่เผยแพร่
- 27 มิถุนายน 2569 เวลา 05:58



