DeepSeek เปิดตัว DSpark เร่งความเร็ว LLM สูงสุด 85% ด้วย speculative decoding

ที่มาภาพ: VentureBeat

AI-อ่าน 8 นาทีVentureBeat

DeepSeek เปิดตัว DSpark เร่งความเร็ว LLM สูงสุด 85% ด้วย speculative decoding

⚡ สรุป 30 วิ

DeepSeek เปิดระบบโอเพนซอร์ส DSpark ที่ใช้เทคนิค speculative decoding เพื่อเร่งการสร้างโทเคนของโมเดล LLM สูงสุด 85% โดยไม่เสียคุณภาพ…

DeepSeek เปิดตัว DSpark ระบบใหม่ที่ใช้แนวคิด *speculative decoding* เพื่อเร่งความเร็วการให้ผลลัพธ์ของโมเดลภาษาใหญ่ (LLM) ได้ถึง 85 % โดยไม่ทำให้ความหมายของข้อความเปลี่ยนแปลง รายงานนี้สำคัญเพราะการเร่งการตอบของ LLM จะช่วยลดต้นทุนการให้บริการและทำให้ประสบการณ์ผู้ใช้ในแอปพลิเคชันเช่นแชทบอทหรือผู้ช่วยโค้ดดีขึ้นอย่างชัดเจน

Overview

DeepSeek ซึ่งเป็นโครงการโอเพนซอร์สจากจีน ได้ปล่อย DSpark พร้อมใบอนุญาต MIT บน GitHub และ Hugging Face ทั้งโค้ด, เอกสารเชิงเทคนิคและโมเดลเช็กพอยต์ การออกแบบของ DSpark คือการเพิ่ม “สกาวท์” ที่ทำการคาดการณ์ล่วงหน้าหลายขั้นตอน แล้วให้โมเดลหลักตรวจสอบผลลัพธ์พร้อมกัน การทำงานนี้ช่วยให้ระบบสามารถข้ามขั้นตอนที่ไม่จำเป็นได้ เมื่อการคาดการณ์ถูกต้อง โมเดลหลักจะรับประกันผลลัพธ์สุดท้ายโดยไม่ต้องรอคอยต่อเนื่อง

การเปิดตัวนี้มุ่งตอบโจทย์หนึ่งในปัญหาที่มีค่าใช้จ่ายสูงที่สุดของการประยุกต์ใช้ AI คือการให้บริการโมเดลขนาดใหญ่ด้วยความเร็วที่เพียงพอต่อผู้ใช้จริง พร้อมกับการใช้ทรัพยากรฮาร์ดแวร์อย่างมีประสิทธิภาพ ซึ่งเป็นประเด็นสำคัญสำหรับธุรกิจที่ต้องให้บริการตอบโต้แบบเรียลไทม์

Technical Details

DSpark ทำงานบนหลักการของ *speculative decoding* ซึ่งเริ่มต้นจากการใช้โมเดลร่าง (draft model) ที่เบากว่าเพื่อคาดการณ์หลายโทเคนต่อเนื่อง จากนั้นโมเดลหลักจะตรวจสอบชุดคาดการณ์นั้นพร้อมกัน หากคาดการณ์ตรง ระบบจะส่งต่อหลายโทเคนพร้อมกันให้ผู้ใช้ หากไม่ตรง ระบบจะทำการแก้ไขและดำเนินการต่อไป แนวคิดนี้ไม่ได้เปลี่ยนแปลงผลลัพธ์สุดท้ายของโมเดลหลัก เพียงแต่เพิ่มความเร็วการสร้างโทเคน

การพัฒนา DSpark ถูกบันทึกในเอกสารวิชาการพร้อมกับชุดข้อมูล DeepSpec ที่ให้ผู้วิจัยและนักพัฒนาสามารถฝึกและประเมินระบบ speculative decoding ได้อย่างอิสระ โค้ดทั้งหมดอยู่ภายใต้ MIT license ซึ่งหมายความว่าผู้ใช้สามารถปรับใช้หรือดัดแปลงได้โดยไม่มีข้อจำกัดเชิงพาณิชย์

Performance Results

DeepSeek ทำการทดสอบ DSpark กับโมเดลของตนเองสองรุ่นหลัก ได้แก่

  • DeepSeek‑V4‑Flash – โมเดล mixture‑of‑experts ขนาด 284 พันล้านพารามิเตอร์ โดยมีพารามิเตอร์ที่ทำงานจริง 13 พันล้าน ตัวและรองรับคอนเท็กซ์สูงสุด 1 ล้านโทเคน
  • DeepSeek‑V4‑Pro – โมเดลขนาด 1.6 เทริลิออนพารามิเตอร์ มีพารามิเตอร์ที่ทำงานจริง 49 พันล้าน ตัวและเช่นเดียวกันรองรับคอนเท็กซ์ 1 ล้านโทเคน

ผลการทดสอบในสภาพการให้บริการจริงแสดงให้เห็นว่า DSpark สามารถเพิ่ม throughput โดยรวมได้ 51 % สำหรับ V4‑Flash เมื่อเป้าหมาย 80 โทเคนต่อวินาทีต่อผู้ใช้ และ 52 % สำหรับ V4‑Pro ที่ 35 โทเคนต่อวินาทีต่อผู้ใช้ นอกจากนี้อัตราการสร้างโทเคนต่อผู้ใช้เพิ่มขึ้น 60‑85 % สำหรับ V4‑Flash และ 57‑78 % สำหรับ V4‑Pro เมื่อเทียบกับระบบฐาน MTP‑1

เมื่อกำหนดเป้าหมายความเร็วที่เข้มข้นกว่า 120 โทเคนต่อวินาทีต่อผู้ใช้สำหรับ V4‑Flash และ 50 โทเคนต่อวินาทีต่อผู้ใช้สำหรับ V4‑Pro DSpark ทำให้ throughput รวมเพิ่มขึ้นถึง 661 % และ 406 % ตามลำดับ ซึ่งสะท้อนถึงการหลีกเลี่ยง “cliff” ของระบบฐานที่ไม่สามารถรองรับการร้องขอพร้อมกันได้

Adoption & Compatibility

DSpark ไม่ได้จำกัดการใช้งานเฉพาะกับโมเดลของ DeepSeek เท่านั้น รายงานระบุว่ามีการทดสอบกับโมเดลโอเพ่นเวทของ Alibaba Qwen และ Google Gemma ซึ่งแสดงให้เห็นว่าแนวคิด speculative decoding สามารถนำไปประยุกต์ใช้กับโมเดลอื่นได้โดยผู้ดำเนินการต้องควบคุมน้ำหนักโมเดลและสแต็กการให้บริการเอง

แม้ว่า DSpark จะไม่ใช่ “สวิตช์” ที่ลูกค้า API สามารถเปิดหรือปิดได้โดยตรง แต่เป็นวิธีการที่ผู้พัฒนาและทีมปฏิบัติการในองค์กรสามารถฝึกหรือปรับแต่งโมดูลร่างให้สอดคล้องกับโมเดลเป้าหมายของตนเองได้ การเปิดเผยโค้ดและเช็กพอยต์ภายใต้ใบอนุญาต MIT ทำให้เทคโนโลยีนี้เป็นทรัพยากรสาธารณะที่พร้อมใช้ในโครงการวิจัยและเชิงพาณิชย์

Analysis

การเร่งความเร็วของ LLM ผ่าน *speculative decoding* เป็นการแก้ไขคอขวดหลักของการสร้างโทเคนแบบต่อเนื่อง ซึ่งเคยเป็นอุปสรรคต่อการขยายการใช้งานในระดับผู้ใช้จำนวนมาก ความสำเร็จของ DSpark แสดงให้เห็นว่าการเพิ่ม “สกาวท์” ที่คาดการณ์หลายขั้นตอนเป็นวิธีที่มีประสิทธิภาพโดยไม่ทำให้ผลลัพธ์เปลี่ยนแปลง

จากมุมมองเศรษฐกิจ การเพิ่ม throughput และลด latency โดยไม่ต้องเพิ่มฮาร์ดแวร์ใหม่หมายถึงต้นทุนการดำเนินงานที่ต่ำลงสำหรับผู้ให้บริการ AI ซึ่งอาจกระตุ้นการนำ LLM ไปใช้ในแอปพลิเคชันที่ต้องการการตอบสนองแบบเรียลไทม์ เช่น ระบบสนับสนุนลูกค้า, ตัวช่วยเขียนโค้ด, หรือเวิร์กโฟลว์อัตโนมัติในองค์กร

นอกจากนี้ การเปิดซอร์สของ DSpark ภายใต้ MIT license ส่งเสริมให้ชุมชนวิจัยและผู้พัฒนาร่วมมือกันปรับปรุงและขยายขีดความสามารถของเทคนิคนี้ได้อย่างอิสระ ซึ่งอาจเร่งการพัฒนามาตรฐานใหม่สำหรับการเร่งการทำงานของโมเดลใหญ่ในอนาคต

Impact

หากเทคโนโลยี DSpark ถูกนำไปใช้อย่างกว้างขวาง เราอาจเห็นการลดค่าใช้จ่ายในการให้บริการ AI บนคลาวด์อย่างมีนัยสำคัญ ส่งผลให้ผู้ให้บริการสามารถเสนอราคาแข่งขันได้ดีขึ้นและทำให้ AI เข้าถึงได้ง่ายขึ้นสำหรับองค์กรขนาดเล็กถึงกลาง

สำหรับผู้ใช้ปลายทาง ความเร็วที่เพิ่มขึ้นอาจทำให้ประสบการณ์การโต้ตอบกับแชทบอทหรือผู้ช่วย AI ราบรื่นยิ่งขึ้น ลดการรอคอยและเพิ่มประสิทธิภาพการทำงานโดยรวม ซึ่งอาจส่งผลต่อการยอมรับเทคโนโลยี AI อย่างต่อเนื่องในหลายภาคส่วนของเศรษฐกิจ

Summary

DeepSeek ปล่อย DSpark ซึ่งใช้แนวคิด *speculative decoding* เพื่อเร่งการให้ผลลัพธ์ของ LLM ได้ถึง 85 % โดยเปิดซอร์สภายใต้ MIT license. การทดสอบกับโมเดล DeepSeek‑V4‑Flash, DeepSeek‑V4‑Pro และโมเดลของ Alibaba Qwen, Google Gemma แสดงให้เห็นถึงประสิทธิภาพที่เพิ่มขึ้นอย่างมีนัยสำคัญ ทั้งในแง่ของ throughput และ latency, ซึ่งอาจส่งผลต่อการลดต้นทุนและการขยายการใช้งาน AI อย่างกว้างขวางในอนาคต.

แชร์บทความนี้:

ชอบบทความแบบนี้?

สมัคร AI Automate Weekly Newsletter — รับเคล็ดลับ AI + how-to ใหม่
ทุกสัปดาห์ตรงถึง inbox ฟรี ไม่มีสแปม

แหล่งข่าวต้นฉบับ

ชื่อต้นฉบับ
DeepSeek open sources DSpark, a new framework to speed up LLM inference by up to 85%
ผู้เขียน
[email protected] (Carl Franzen)
แหล่ง
VentureBeat
วันที่เผยแพร่
30 มิถุนายน 2569 เวลา 03:36

Related

บทความที่เกี่ยวข้อง

เปรียบเทียบเครื่องมือรัน LLM สี่ตัว พบว่า Ollama ทำงานเต็มศักยภาพAI
22 มิถุนายน 2569 เวลา 02:00

เปรียบเทียบเครื่องมือรัน LLM สี่ตัว พบว่า Ollama ทำงานเต็มศักยภาพ

ผู้เขียนทดสอบ LM Studio, Ollama, Text Generation WebUI และ llama.cpp บนคอมพิวเตอร์ระดับกลาง ผลการทดสอบพบว่า Ollama สามารถดึงศักยภาพของโมเดลได้เต็มที่ ทั้งด้าน…

XDA Developers7 นาที
AI บนเครื่องท้องถิ่นเข้าถึงง่ายขึ้น แต่ VRAM GPU ยังคงเป็นข้อจำกัดหลักAI
19 มิถุนายน 2569 เวลา 19:30

AI บนเครื่องท้องถิ่นเข้าถึงง่ายขึ้น แต่ VRAM GPU ยังคงเป็นข้อจำกัดหลัก

LM Studio และ Ollama ทำให้การรันโมเดลภาษาใหญ่บนคอมพิวเตอร์ส่วนบุคคลง่ายขึ้นโดยไม่ต้องมีความชำนาญ แม้โมเดล MoE ลดความต้องการ VRAM แต่ขนาด VRAM ของ GPU…

XDA Developers7 นาที
DocLang สร้างมาตรฐานเอกสารใหม่ให้ AI อ่านได้โดยตรงAI
18 มิถุนายน 2569 เวลา 13:30

DocLang สร้างมาตรฐานเอกสารใหม่ให้ AI อ่านได้โดยตรง

กลุ่มทำงาน DocLang ภายใต้ Linux Foundation เปิดมาตรฐานเอกสารที่โครงสร้างอ่านได้โดย AI แทนมนุษย์.…

InfoWorld7 นาที
ให้ LLM ภายในเครื่องเข้าถึง Docker แล้วสคริปต์มอนิเตอร์ถู…AI
15 มิถุนายน 2569 เวลา 05:00

ให้ LLM ภายในเครื่องเข้าถึง Docker แล้วสคริปต์มอนิเตอร์ถู…

ผู้ใช้ให้ Local LLM เข้าถึง Docker เพื่อสร้างสคริปต์มอนิเตอร์อัตโนมัติ แต่ค่าใช้จ่ายสูง, ความเป็นส่วนตัวเสี่ยง, และผลลัพธ์ไม่แม่นยำ…

XDA Developers8 นาที
คัดลอกลิงก์แล้ว!