
ที่มาภาพ: VentureBeat
DeepSeek เปิดตัว DSpark เร่งความเร็ว LLM สูงสุด 85% ด้วย speculative decoding
⚡ สรุป 30 วิ
DeepSeek เปิดระบบโอเพนซอร์ส DSpark ที่ใช้เทคนิค speculative decoding เพื่อเร่งการสร้างโทเคนของโมเดล LLM สูงสุด 85% โดยไม่เสียคุณภาพ…
DeepSeek เปิดตัว DSpark ระบบใหม่ที่ใช้แนวคิด *speculative decoding* เพื่อเร่งความเร็วการให้ผลลัพธ์ของโมเดลภาษาใหญ่ (LLM) ได้ถึง 85 % โดยไม่ทำให้ความหมายของข้อความเปลี่ยนแปลง รายงานนี้สำคัญเพราะการเร่งการตอบของ LLM จะช่วยลดต้นทุนการให้บริการและทำให้ประสบการณ์ผู้ใช้ในแอปพลิเคชันเช่นแชทบอทหรือผู้ช่วยโค้ดดีขึ้นอย่างชัดเจน
Overview
DeepSeek ซึ่งเป็นโครงการโอเพนซอร์สจากจีน ได้ปล่อย DSpark พร้อมใบอนุญาต MIT บน GitHub และ Hugging Face ทั้งโค้ด, เอกสารเชิงเทคนิคและโมเดลเช็กพอยต์ การออกแบบของ DSpark คือการเพิ่ม “สกาวท์” ที่ทำการคาดการณ์ล่วงหน้าหลายขั้นตอน แล้วให้โมเดลหลักตรวจสอบผลลัพธ์พร้อมกัน การทำงานนี้ช่วยให้ระบบสามารถข้ามขั้นตอนที่ไม่จำเป็นได้ เมื่อการคาดการณ์ถูกต้อง โมเดลหลักจะรับประกันผลลัพธ์สุดท้ายโดยไม่ต้องรอคอยต่อเนื่อง
การเปิดตัวนี้มุ่งตอบโจทย์หนึ่งในปัญหาที่มีค่าใช้จ่ายสูงที่สุดของการประยุกต์ใช้ AI คือการให้บริการโมเดลขนาดใหญ่ด้วยความเร็วที่เพียงพอต่อผู้ใช้จริง พร้อมกับการใช้ทรัพยากรฮาร์ดแวร์อย่างมีประสิทธิภาพ ซึ่งเป็นประเด็นสำคัญสำหรับธุรกิจที่ต้องให้บริการตอบโต้แบบเรียลไทม์
Technical Details
DSpark ทำงานบนหลักการของ *speculative decoding* ซึ่งเริ่มต้นจากการใช้โมเดลร่าง (draft model) ที่เบากว่าเพื่อคาดการณ์หลายโทเคนต่อเนื่อง จากนั้นโมเดลหลักจะตรวจสอบชุดคาดการณ์นั้นพร้อมกัน หากคาดการณ์ตรง ระบบจะส่งต่อหลายโทเคนพร้อมกันให้ผู้ใช้ หากไม่ตรง ระบบจะทำการแก้ไขและดำเนินการต่อไป แนวคิดนี้ไม่ได้เปลี่ยนแปลงผลลัพธ์สุดท้ายของโมเดลหลัก เพียงแต่เพิ่มความเร็วการสร้างโทเคน
การพัฒนา DSpark ถูกบันทึกในเอกสารวิชาการพร้อมกับชุดข้อมูล DeepSpec ที่ให้ผู้วิจัยและนักพัฒนาสามารถฝึกและประเมินระบบ speculative decoding ได้อย่างอิสระ โค้ดทั้งหมดอยู่ภายใต้ MIT license ซึ่งหมายความว่าผู้ใช้สามารถปรับใช้หรือดัดแปลงได้โดยไม่มีข้อจำกัดเชิงพาณิชย์
Performance Results
DeepSeek ทำการทดสอบ DSpark กับโมเดลของตนเองสองรุ่นหลัก ได้แก่
- DeepSeek‑V4‑Flash – โมเดล mixture‑of‑experts ขนาด 284 พันล้านพารามิเตอร์ โดยมีพารามิเตอร์ที่ทำงานจริง 13 พันล้าน ตัวและรองรับคอนเท็กซ์สูงสุด 1 ล้านโทเคน
- DeepSeek‑V4‑Pro – โมเดลขนาด 1.6 เทริลิออนพารามิเตอร์ มีพารามิเตอร์ที่ทำงานจริง 49 พันล้าน ตัวและเช่นเดียวกันรองรับคอนเท็กซ์ 1 ล้านโทเคน
ผลการทดสอบในสภาพการให้บริการจริงแสดงให้เห็นว่า DSpark สามารถเพิ่ม throughput โดยรวมได้ 51 % สำหรับ V4‑Flash เมื่อเป้าหมาย 80 โทเคนต่อวินาทีต่อผู้ใช้ และ 52 % สำหรับ V4‑Pro ที่ 35 โทเคนต่อวินาทีต่อผู้ใช้ นอกจากนี้อัตราการสร้างโทเคนต่อผู้ใช้เพิ่มขึ้น 60‑85 % สำหรับ V4‑Flash และ 57‑78 % สำหรับ V4‑Pro เมื่อเทียบกับระบบฐาน MTP‑1
เมื่อกำหนดเป้าหมายความเร็วที่เข้มข้นกว่า 120 โทเคนต่อวินาทีต่อผู้ใช้สำหรับ V4‑Flash และ 50 โทเคนต่อวินาทีต่อผู้ใช้สำหรับ V4‑Pro DSpark ทำให้ throughput รวมเพิ่มขึ้นถึง 661 % และ 406 % ตามลำดับ ซึ่งสะท้อนถึงการหลีกเลี่ยง “cliff” ของระบบฐานที่ไม่สามารถรองรับการร้องขอพร้อมกันได้
Adoption & Compatibility
DSpark ไม่ได้จำกัดการใช้งานเฉพาะกับโมเดลของ DeepSeek เท่านั้น รายงานระบุว่ามีการทดสอบกับโมเดลโอเพ่นเวทของ Alibaba Qwen และ Google Gemma ซึ่งแสดงให้เห็นว่าแนวคิด speculative decoding สามารถนำไปประยุกต์ใช้กับโมเดลอื่นได้โดยผู้ดำเนินการต้องควบคุมน้ำหนักโมเดลและสแต็กการให้บริการเอง
แม้ว่า DSpark จะไม่ใช่ “สวิตช์” ที่ลูกค้า API สามารถเปิดหรือปิดได้โดยตรง แต่เป็นวิธีการที่ผู้พัฒนาและทีมปฏิบัติการในองค์กรสามารถฝึกหรือปรับแต่งโมดูลร่างให้สอดคล้องกับโมเดลเป้าหมายของตนเองได้ การเปิดเผยโค้ดและเช็กพอยต์ภายใต้ใบอนุญาต MIT ทำให้เทคโนโลยีนี้เป็นทรัพยากรสาธารณะที่พร้อมใช้ในโครงการวิจัยและเชิงพาณิชย์
Analysis
การเร่งความเร็วของ LLM ผ่าน *speculative decoding* เป็นการแก้ไขคอขวดหลักของการสร้างโทเคนแบบต่อเนื่อง ซึ่งเคยเป็นอุปสรรคต่อการขยายการใช้งานในระดับผู้ใช้จำนวนมาก ความสำเร็จของ DSpark แสดงให้เห็นว่าการเพิ่ม “สกาวท์” ที่คาดการณ์หลายขั้นตอนเป็นวิธีที่มีประสิทธิภาพโดยไม่ทำให้ผลลัพธ์เปลี่ยนแปลง
จากมุมมองเศรษฐกิจ การเพิ่ม throughput และลด latency โดยไม่ต้องเพิ่มฮาร์ดแวร์ใหม่หมายถึงต้นทุนการดำเนินงานที่ต่ำลงสำหรับผู้ให้บริการ AI ซึ่งอาจกระตุ้นการนำ LLM ไปใช้ในแอปพลิเคชันที่ต้องการการตอบสนองแบบเรียลไทม์ เช่น ระบบสนับสนุนลูกค้า, ตัวช่วยเขียนโค้ด, หรือเวิร์กโฟลว์อัตโนมัติในองค์กร
นอกจากนี้ การเปิดซอร์สของ DSpark ภายใต้ MIT license ส่งเสริมให้ชุมชนวิจัยและผู้พัฒนาร่วมมือกันปรับปรุงและขยายขีดความสามารถของเทคนิคนี้ได้อย่างอิสระ ซึ่งอาจเร่งการพัฒนามาตรฐานใหม่สำหรับการเร่งการทำงานของโมเดลใหญ่ในอนาคต
Impact
หากเทคโนโลยี DSpark ถูกนำไปใช้อย่างกว้างขวาง เราอาจเห็นการลดค่าใช้จ่ายในการให้บริการ AI บนคลาวด์อย่างมีนัยสำคัญ ส่งผลให้ผู้ให้บริการสามารถเสนอราคาแข่งขันได้ดีขึ้นและทำให้ AI เข้าถึงได้ง่ายขึ้นสำหรับองค์กรขนาดเล็กถึงกลาง
สำหรับผู้ใช้ปลายทาง ความเร็วที่เพิ่มขึ้นอาจทำให้ประสบการณ์การโต้ตอบกับแชทบอทหรือผู้ช่วย AI ราบรื่นยิ่งขึ้น ลดการรอคอยและเพิ่มประสิทธิภาพการทำงานโดยรวม ซึ่งอาจส่งผลต่อการยอมรับเทคโนโลยี AI อย่างต่อเนื่องในหลายภาคส่วนของเศรษฐกิจ
Summary
DeepSeek ปล่อย DSpark ซึ่งใช้แนวคิด *speculative decoding* เพื่อเร่งการให้ผลลัพธ์ของ LLM ได้ถึง 85 % โดยเปิดซอร์สภายใต้ MIT license. การทดสอบกับโมเดล DeepSeek‑V4‑Flash, DeepSeek‑V4‑Pro และโมเดลของ Alibaba Qwen, Google Gemma แสดงให้เห็นถึงประสิทธิภาพที่เพิ่มขึ้นอย่างมีนัยสำคัญ ทั้งในแง่ของ throughput และ latency, ซึ่งอาจส่งผลต่อการลดต้นทุนและการขยายการใช้งาน AI อย่างกว้างขวางในอนาคต.
แชร์บทความนี้:
ชอบบทความแบบนี้?
สมัคร AI Automate Weekly Newsletter — รับเคล็ดลับ AI + how-to ใหม่
ทุกสัปดาห์ตรงถึง inbox ฟรี ไม่มีสแปม
แหล่งข่าวต้นฉบับ
- ชื่อต้นฉบับ
- DeepSeek open sources DSpark, a new framework to speed up LLM inference by up to 85%
- ผู้เขียน
- [email protected] (Carl Franzen)
- แหล่ง
- VentureBeat
- วันที่เผยแพร่
- 30 มิถุนายน 2569 เวลา 03:36



