MRAgent ลดการใช้โทเค็นต่อคำถามจาก 3.26 ล้านเป็น 118 พันสำหรับ LLM Agents

Lead – นักวิจัยจากมหาวิทยาลัยแห่งชาติสิงคโปร์เปิดตัว MRAgent ซึ่งเป็นกรอบการทำงานใหม่สำหรับการจัดการหน่วยความจำของเอเจนต์ LLM โดยเน้นการเรียกคืนแบบ “active” และลดการใช้โทเค็นอย่างมากเมื่อเทียบกับโซลูชันเดิม การเปลี่ยนแปลงนี้สำคัญต่อการขยายความสามารถของโมเดลภาษาขนาดใหญ่ในงานที่ต้องอาศัยการให้เหตุผลหลายขั้นตอนและการโต้ตอบระยะยาว

Overview

MRAgent (Memory Reasoning Architecture for LLM Agents) ถูกออกแบบเพื่อแก้จุดอ่อนของระบบเอเจนต์แบบ “retrieve‑then‑reason” ซึ่งมักทำให้หน้าต่างคอนเท็กซ์เต็มเร็วและทำให้กระบวนการค้นคืนข้อมูลสร้างสัญญาณรบกวนมากเกินไป ผู้พัฒนาชี้ว่า MRAgent ให้เอเจนต์สามารถพัฒนาหน่วยความจำแบบไดนามิกโดยอิงจากหลักฐานที่สะสมระหว่างการให้เหตุผล ทำให้กระบวนการเรียกคืนข้อมูลกลายเป็นส่วนหนึ่งของการคำนวณโดยตรง แทนที่จะเป็นขั้นตอนแยกจากกัน

ในเชิงประจักษ์ MRAgent ใช้โทเค็นเพียง 118 k tokens ต่อหนึ่งคำถาม ในขณะที่ระบบที่คล้ายกันอย่าง LangMem ต้องใช้โทเค็นมากถึง 3.26 M tokens ต่อการโต้ตอบเดียว ความแตกต่างนี้แปลเป็นต้นทุนการประมวลผลที่ต่ำกว่าและความเร็วที่เพิ่มขึ้นอย่างมีนัยสำคัญ

การออกแบบของ MRAgent ยังรองรับการทำงานร่วมกับโมเดลพื้นฐานหลายรุ่น โดยในงานทดสอบใช้ Gemini 2.5 Fl เป็นตัวประมวลผลหลัก ทำให้เห็นว่ากรอบงานนี้ไม่จำกัดเฉพาะโมเดลใดโมเดลหนึ่ง

Limitations of Passive Retrieval

ระบบการค้นคืนแบบดั้งเดิมมักทำงานผ่านการค้นหาเวกเตอร์หรือการเดินกราฟแล้วส่งผลลัพธ์ให้ LLM ทำการให้เหตุผลต่อไป อย่างไรก็ตามวิธีนี้มีข้อจำกัดสามประการสำคัญ:

ไม่สามารถปรับกลยุทธ์การค้นคืนระหว่างการให้เหตุผล ได้ หากเอเจนต์พบข้อมูลสำคัญที่ขาดหายไป เช่น วันที่หรือชื่อบุคคล มันไม่สามารถออกคำถามใหม่เพื่อเติมเต็มช่องว่างได้
ผลลัพธ์ที่ได้มักเป็นการแมทช์ตามความคล้ายคลึงเชิงผิว ทำให้ข้อมูลที่ไม่เกี่ยวข้องล้นหน้าต่างคอนเท็กซ์ของโมเดลและทำให้คุณภาพการให้เหตุผลลดลง
การพึ่งพาโครงสร้างคงที่ เช่นการดึง top‑k ผลลัพธ์หรือฟังก์ชันความเกี่ยวข้องที่กำหนดไว้ล่วงหน้า ทำให้ระบบขาดความยืดหยุ่นต่อการโต้ตอบระยะยาวที่ไม่สามารถคาดการณ์ล่วงหน้าได้

จุดอ่อนเหล่านี้เป็นสาเหตุที่ทำให้ผู้พัฒนาต้องมองหาแนวทางใหม่ที่รวมการให้เหตุผลเข้ากับการเรียกคืนหน่วยความจำอย่างต่อเนื่อง

Active Memory Reconstruction

แนวคิด “active and associative reconstruction process” ที่อ้างอิงจากประสาทวิทยาศาสตร์ จัดเป็นแกนหลักของ MRAgent โดยให้การเรียกคืนหน่วยความจำดำเนินไปเป็นขั้นตอนต่อเนื่อง แทนการอ่านข้อมูลจากฐานข้อมูลแบบคงที่ เริ่มต้นจากการสกัด Cue (คำกระตุ้น) จากคำถามของผู้ใช้ เช่น ชื่อคน กิจกรรม หรือสถานที่ แล้วใช้ Cue เหล่านี้เพื่อเชื่อมต่อกับ Tag ซึ่งเป็นสรุปความสัมพันธ์เชิงความหมาย

เอเจนต์จะเดินทางผ่านกราฟเชิงสัมพันธ์โดยใช้ Tag เป็นจุดตัดสินใจเพื่อเลือกเส้นทางที่คาดว่าจะให้ข้อมูลที่เกี่ยวข้องมากที่สุด กระบวนการนี้ทำซ้ำหลายรอบจนกว่าจะสะสมหลักฐานที่เพียงพอสำหรับการตอบคำถาม ตัวอย่างเช่น ในกรณีที่ผู้ใช้ถามว่า “Nate ใช้เงินรางวัลจากการแข่งขันวิดีโอเกมครั้งที่สามอย่างไร” MRAgent จะเริ่มจาก Cue “Nate”, “video game tournament”, “win” แล้วค้นหา Tag ที่เชื่อมโยง เช่น “Tournament Victory” ก่อนที่จะดึงข้อมูลจาก Content ที่เกี่ยวข้อง

Architecture Details

MRAgent ใช้โครงสร้างกราฟแบบหลายชั้นที่เรียกว่า Cue‑Tag‑Content โดยมีสามประเภทของโหนด:

Cue – คีย์เวิร์ดละเอียดอ่อน เช่น ชื่อเอกชนหรือแอตทริบิวต์เชิงบริบทที่สกัดจากการสนทนา
Tag – สะพานเชิงความหมายที่สรุปความสัมพันธ์ระหว่าง Cue กับ Content ทำให้การประเมินความเกี่ยวข้องทำได้เร็วโดยไม่ต้องโหลดข้อมูลเต็มรูปแบบ
Content – หน่วยความจำจริง แบ่งเป็นชั้นหลายระดับ เช่น episodic memory สำหรับเหตุการณ์เฉพาะและ semantic memory สำหรับความรู้ทั่วไปหรือพฤติกรรมผู้ใช้

กระบวนการดึงข้อมูลทำในสองขั้นตอน: LLM เริ่มต้นจาก Cue ไปยัง Tag เพื่อประเมินความสำคัญ แล้วจึงเข้าถึง Content ที่เชื่อมโยงกับ Tag ที่เลือก วิธีนี้ช่วยลดจำนวนโทเค็นที่ต้องส่งไปยังโมเดลอย่างมีประสิทธิภาพ

Frameworks ที่เปรียบเทียบ
A‑MEM – กราฟ‑based memory framework
MemoryOS – ระบบหน่วยความจำแบบลำดับชั้น
LangMem – ใช้โทเค็นจำนวนมาก (3.26 M) ต่อการโต้ตอบ
Mem0 – หน่วยความจำถาวรอื่น ๆ

Benchmark Performance

การทดสอบประสิทธิภาพของ MRAgent ทำบนสองชุดข้อมูลมาตรฐานของอุตสาหกรรมคือ LoCoMo และ LongMemEval ซึ่งออกแบบเพื่อวัดความสามารถของเอเจนต์ในการจัดการงานระยะยาวและการสนทนาที่มีหลายร้อยเทิร์น ผลลัพธ์แสดงให้เห็นว่า MRAgent สามารถให้คำตอบที่แม่นยำเทียบเท่าหรือดีกว่ากรอบงานอื่น ๆ ขณะเดียวกันใช้โทเค็นเพียง 118 k ต่อการถาม ซึ่งเป็นการลดลงถึง ≈ 96 % เมื่อเทียบกับ LangMem

นอกจากนี้ การประเมินเวลาในการทำงาน (runtime) ยังบ่งชี้ว่า MRAgent ใช้ทรัพยากรคอมพิวเตอร์น้อยกว่าโครงสร้างแบบดั้งเดิมอย่างมีนัยสำคัญ ทำให้เหมาะกับการนำไปใช้ในระบบบริการลูกค้าอัตโนมัติหรือแอปพลิเคชันที่ต้องการการตอบสนองแบบเรียลไทม์

Implications

การนำแนวคิด “active memory reconstruction” มาใช้ใน MRAgent เปิดทางให้ LLM agents สามารถทำงานในสภาพแวดล้อมที่ซับซ้อนและต่อเนื่องได้โดยไม่ต้องพึ่งพาการดึงข้อมูลแบบคงที่ ซึ่งอาจเป็นก้าวสำคัญต่อการพัฒนาแชทบอทที่มีความเข้าใจลึกซึ้งและสามารถปรับตัวตามข้อมูลใหม่ ๆ ได้อย่างรวดเร็ว

สำหรับอุตสาหกรรมที่ต้องการประหยัดต้นทุนการประมวลผลและลดความล่าช้า การลดการใช้โทเค็นจากระดับหลายล้านลงเหลือระดับแสนเป็นการลดค่าใช้จ่ายที่ชัดเจน นอกจากนี้โครงสร้าง Cue‑Tag‑Content ยังเปิดโอกาสให้ผู้พัฒนาสร้างฐานข้อมูลความจำที่เป็นเชิงสัมพันธ์ได้ง่ายขึ้น ซึ่งอาจส่งผลต่อการออกแบบระบบแนะนำส่วนบุคคลหรือระบบสนับสนุนการตัดสินใจในธุรกิจต่าง ๆ

Summary

MRAgent ของมหาวิทยาลัยแห่งชาติสิงคโปร์นำเสนอวิธีการจัดการหน่วยความจำแบบ “active” ที่ลดการใช้โทเค็นจาก 3.26 M ลงเป็น 118 k ต่อการถาม และให้ผลการทำงานที่ดีกว่ากรอบงานอื่น ๆ บนชุดทดสอบ LoCoMo และ LongMemEval การเปลี่ยนแปลงนี้อาจเร่งการพัฒนาเอเจนต์ LLM ในงานที่ต้องการการให้เหตุผลระยะยาวและการโต้ตอบที่ยืดหยุ่นมากขึ้น.