DeepSeek เปิดตัว DSpark เร่งความเร็ว LLM สูงสุด 85% ด้วย speculative decoding

DeepSeek เปิดตัว DSpark ระบบใหม่ที่ใช้แนวคิด *speculative decoding* เพื่อเร่งความเร็วการให้ผลลัพธ์ของโมเดลภาษาใหญ่ (LLM) ได้ถึง 85 % โดยไม่ทำให้ความหมายของข้อความเปลี่ยนแปลง รายงานนี้สำคัญเพราะการเร่งการตอบของ LLM จะช่วยลดต้นทุนการให้บริการและทำให้ประสบการณ์ผู้ใช้ในแอปพลิเคชันเช่นแชทบอทหรือผู้ช่วยโค้ดดีขึ้นอย่างชัดเจน

Overview

DeepSeek ซึ่งเป็นโครงการโอเพนซอร์สจากจีน ได้ปล่อย DSpark พร้อมใบอนุญาต MIT บน GitHub และ Hugging Face ทั้งโค้ด, เอกสารเชิงเทคนิคและโมเดลเช็กพอยต์ การออกแบบของ DSpark คือการเพิ่ม “สกาวท์” ที่ทำการคาดการณ์ล่วงหน้าหลายขั้นตอน แล้วให้โมเดลหลักตรวจสอบผลลัพธ์พร้อมกัน การทำงานนี้ช่วยให้ระบบสามารถข้ามขั้นตอนที่ไม่จำเป็นได้ เมื่อการคาดการณ์ถูกต้อง โมเดลหลักจะรับประกันผลลัพธ์สุดท้ายโดยไม่ต้องรอคอยต่อเนื่อง

การเปิดตัวนี้มุ่งตอบโจทย์หนึ่งในปัญหาที่มีค่าใช้จ่ายสูงที่สุดของการประยุกต์ใช้ AI คือการให้บริการโมเดลขนาดใหญ่ด้วยความเร็วที่เพียงพอต่อผู้ใช้จริง พร้อมกับการใช้ทรัพยากรฮาร์ดแวร์อย่างมีประสิทธิภาพ ซึ่งเป็นประเด็นสำคัญสำหรับธุรกิจที่ต้องให้บริการตอบโต้แบบเรียลไทม์

Technical Details

DSpark ทำงานบนหลักการของ *speculative decoding* ซึ่งเริ่มต้นจากการใช้โมเดลร่าง (draft model) ที่เบากว่าเพื่อคาดการณ์หลายโทเคนต่อเนื่อง จากนั้นโมเดลหลักจะตรวจสอบชุดคาดการณ์นั้นพร้อมกัน หากคาดการณ์ตรง ระบบจะส่งต่อหลายโทเคนพร้อมกันให้ผู้ใช้ หากไม่ตรง ระบบจะทำการแก้ไขและดำเนินการต่อไป แนวคิดนี้ไม่ได้เปลี่ยนแปลงผลลัพธ์สุดท้ายของโมเดลหลัก เพียงแต่เพิ่มความเร็วการสร้างโทเคน

การพัฒนา DSpark ถูกบันทึกในเอกสารวิชาการพร้อมกับชุดข้อมูล DeepSpec ที่ให้ผู้วิจัยและนักพัฒนาสามารถฝึกและประเมินระบบ speculative decoding ได้อย่างอิสระ โค้ดทั้งหมดอยู่ภายใต้ MIT license ซึ่งหมายความว่าผู้ใช้สามารถปรับใช้หรือดัดแปลงได้โดยไม่มีข้อจำกัดเชิงพาณิชย์

Performance Results

DeepSeek ทำการทดสอบ DSpark กับโมเดลของตนเองสองรุ่นหลัก ได้แก่

DeepSeek‑V4‑Flash – โมเดล mixture‑of‑experts ขนาด 284 พันล้านพารามิเตอร์ โดยมีพารามิเตอร์ที่ทำงานจริง 13 พันล้าน ตัวและรองรับคอนเท็กซ์สูงสุด 1 ล้านโทเคน
DeepSeek‑V4‑Pro – โมเดลขนาด 1.6 เทริลิออนพารามิเตอร์ มีพารามิเตอร์ที่ทำงานจริง 49 พันล้าน ตัวและเช่นเดียวกันรองรับคอนเท็กซ์ 1 ล้านโทเคน

ผลการทดสอบในสภาพการให้บริการจริงแสดงให้เห็นว่า DSpark สามารถเพิ่ม throughput โดยรวมได้ 51 % สำหรับ V4‑Flash เมื่อเป้าหมาย 80 โทเคนต่อวินาทีต่อผู้ใช้ และ 52 % สำหรับ V4‑Pro ที่ 35 โทเคนต่อวินาทีต่อผู้ใช้ นอกจากนี้อัตราการสร้างโทเคนต่อผู้ใช้เพิ่มขึ้น 60‑85 % สำหรับ V4‑Flash และ 57‑78 % สำหรับ V4‑Pro เมื่อเทียบกับระบบฐาน MTP‑1

เมื่อกำหนดเป้าหมายความเร็วที่เข้มข้นกว่า 120 โทเคนต่อวินาทีต่อผู้ใช้สำหรับ V4‑Flash และ 50 โทเคนต่อวินาทีต่อผู้ใช้สำหรับ V4‑Pro DSpark ทำให้ throughput รวมเพิ่มขึ้นถึง 661 % และ 406 % ตามลำดับ ซึ่งสะท้อนถึงการหลีกเลี่ยง “cliff” ของระบบฐานที่ไม่สามารถรองรับการร้องขอพร้อมกันได้

Adoption & Compatibility

DSpark ไม่ได้จำกัดการใช้งานเฉพาะกับโมเดลของ DeepSeek เท่านั้น รายงานระบุว่ามีการทดสอบกับโมเดลโอเพ่นเวทของ Alibaba Qwen และ Google Gemma ซึ่งแสดงให้เห็นว่าแนวคิด speculative decoding สามารถนำไปประยุกต์ใช้กับโมเดลอื่นได้โดยผู้ดำเนินการต้องควบคุมน้ำหนักโมเดลและสแต็กการให้บริการเอง

แม้ว่า DSpark จะไม่ใช่ “สวิตช์” ที่ลูกค้า API สามารถเปิดหรือปิดได้โดยตรง แต่เป็นวิธีการที่ผู้พัฒนาและทีมปฏิบัติการในองค์กรสามารถฝึกหรือปรับแต่งโมดูลร่างให้สอดคล้องกับโมเดลเป้าหมายของตนเองได้ การเปิดเผยโค้ดและเช็กพอยต์ภายใต้ใบอนุญาต MIT ทำให้เทคโนโลยีนี้เป็นทรัพยากรสาธารณะที่พร้อมใช้ในโครงการวิจัยและเชิงพาณิชย์

Analysis

การเร่งความเร็วของ LLM ผ่าน *speculative decoding* เป็นการแก้ไขคอขวดหลักของการสร้างโทเคนแบบต่อเนื่อง ซึ่งเคยเป็นอุปสรรคต่อการขยายการใช้งานในระดับผู้ใช้จำนวนมาก ความสำเร็จของ DSpark แสดงให้เห็นว่าการเพิ่ม “สกาวท์” ที่คาดการณ์หลายขั้นตอนเป็นวิธีที่มีประสิทธิภาพโดยไม่ทำให้ผลลัพธ์เปลี่ยนแปลง

จากมุมมองเศรษฐกิจ การเพิ่ม throughput และลด latency โดยไม่ต้องเพิ่มฮาร์ดแวร์ใหม่หมายถึงต้นทุนการดำเนินงานที่ต่ำลงสำหรับผู้ให้บริการ AI ซึ่งอาจกระตุ้นการนำ LLM ไปใช้ในแอปพลิเคชันที่ต้องการการตอบสนองแบบเรียลไทม์ เช่น ระบบสนับสนุนลูกค้า, ตัวช่วยเขียนโค้ด, หรือเวิร์กโฟลว์อัตโนมัติในองค์กร

นอกจากนี้ การเปิดซอร์สของ DSpark ภายใต้ MIT license ส่งเสริมให้ชุมชนวิจัยและผู้พัฒนาร่วมมือกันปรับปรุงและขยายขีดความสามารถของเทคนิคนี้ได้อย่างอิสระ ซึ่งอาจเร่งการพัฒนามาตรฐานใหม่สำหรับการเร่งการทำงานของโมเดลใหญ่ในอนาคต

Impact

หากเทคโนโลยี DSpark ถูกนำไปใช้อย่างกว้างขวาง เราอาจเห็นการลดค่าใช้จ่ายในการให้บริการ AI บนคลาวด์อย่างมีนัยสำคัญ ส่งผลให้ผู้ให้บริการสามารถเสนอราคาแข่งขันได้ดีขึ้นและทำให้ AI เข้าถึงได้ง่ายขึ้นสำหรับองค์กรขนาดเล็กถึงกลาง

สำหรับผู้ใช้ปลายทาง ความเร็วที่เพิ่มขึ้นอาจทำให้ประสบการณ์การโต้ตอบกับแชทบอทหรือผู้ช่วย AI ราบรื่นยิ่งขึ้น ลดการรอคอยและเพิ่มประสิทธิภาพการทำงานโดยรวม ซึ่งอาจส่งผลต่อการยอมรับเทคโนโลยี AI อย่างต่อเนื่องในหลายภาคส่วนของเศรษฐกิจ

Summary

DeepSeek ปล่อย DSpark ซึ่งใช้แนวคิด *speculative decoding* เพื่อเร่งการให้ผลลัพธ์ของ LLM ได้ถึง 85 % โดยเปิดซอร์สภายใต้ MIT license. การทดสอบกับโมเดล DeepSeek‑V4‑Flash, DeepSeek‑V4‑Pro และโมเดลของ Alibaba Qwen, Google Gemma แสดงให้เห็นถึงประสิทธิภาพที่เพิ่มขึ้นอย่างมีนัยสำคัญ ทั้งในแง่ของ throughput และ latency, ซึ่งอาจส่งผลต่อการลดต้นทุนและการขยายการใช้งาน AI อย่างกว้างขวางในอนาคต.