Moonshot AI เปิดตัว Kimi K2.7‑Code ลดการใช้ thinking‑toke…

Kimi K2.7‑Code รุ่นล่าสุดของ Moonshot AI ได้เปิดตัวสัปดาห์นี้พร้อมอ้างอิงว่าลดการใช้ thinking‑token ลง 30 % เมื่อเทียบกับรุ่นก่อนหน้า K2.6 และให้การอ้างว่าประสิทธิภาพโดยรวมเพิ่มขึ้นหลายสิบเปอร์เซ็นต์ ทั้งนี้การอัปเดตยังคงใช้สถาปัตยกรรม mixture‑of‑experts ขนาดหนึ่งล้านล้านพารามิเตอร์เดียวกันและสามารถเรียกใช้ผ่าน OpenAI‑compatible API ทำให้ผู้ใช้งานที่มี K2.6 อยู่แล้วสามารถสลับไปใช้ได้โดยไม่ต้องปรับโครงสร้างระบบ

Overview

K2.7‑Code เป็นโมเดลโอเพ่นซอร์สที่ต่อเนื่องจากตระกูล K2 ของ Moonshot AI ซึ่งเปิดตัวครั้งแรกในเดือนเมษายนด้วย K2.6 ที่ทำคะแนนสูงสุดบน OpenRouter รายสัปดาห์ ซึ่งอิงจากการตัดสินใจเส้นทาง API ของนักพัฒนาจริง ๆ แทนการอ้างอิงผลการทดสอบภายใน โมเดลใหม่ยังคงใช้สถาปัตยกรรม trillion‑parameter mixture‑of‑experts เดียวกันกับ K2.6 แต่มุ่งเน้นที่การลด “การคิดมากเกินไป” (overthinking) ที่ Moonshot AI ระบุว่าเป็นสาเหตุของค่าใช้จ่ายการทำ inference สูง

K2.7‑Code ถูกปล่อยภายใต้ Modified MIT license พร้อมน้ำหนักโมเดลให้ดาวน์โหลดได้ที่ HuggingFace การติดตั้งสามารถทำผ่านเฟรมเวิร์ก vLLM หรือ SGLang ได้โดยตรง ซึ่งทำให้ทีมไอทีสามารถผสานรวมเข้ากับระบบเดิมได้อย่างรวดเร็ว การทำงานของโมเดลจำกัดอยู่ที่ “thinking mode” เท่านั้น และอุณหภูมิเครื่องตอบกลับถูกตั้งค่าให้คงที่ที่ 1.0 ไม่สามารถปรับเปลี่ยนได้ตามต้องการของผู้ใช้

Technical Changes

การเปลี่ยนแปลงหลักระหว่าง K2.6 กับ K2.7‑Code อยู่ที่วิธีการสร้างโค้ดระดับล่าง K2.6 จะสร้างการทำงานโดย ห่อหุ้มไลบรารี ที่มีอยู่แล้วและส่งต่อผ่านเฟรมเวิร์กที่กำหนดไว้ล่วงหน้า ในขณะที่ K2.7‑Code จะ เขียนโค้ดโดยตรง ซึ่ง Moonshot AI กล่าวว่าช่วยให้โมเดลมีความทั่วไปที่ดีกว่าในหลายภาษา เช่น Rust, Go, และ Python รวมถึงงานประเภทต่าง ๆ เช่น การพัฒนา Front‑end, DevOps, และการปรับประสิทธิภาพระบบ

โมเดลใหม่ยังคงทำงานในโหมด “thinking” อย่างเดียว ซึ่งหมายความว่าการควบคุมความสุ่มของผลลัพธ์ (temperature) ถูกล็อกที่ 1.0 ผู้ใช้จึงไม่สามารถปรับระดับ deterministic ของผลลัพธ์ได้เหมือนกับโมเดลอื่น ๆ ที่เปิดให้กำหนดค่า temperature ได้ตามความต้องการของแอปพลิเคชัน

Benchmark Claims

Moonshot AI ยืนยันว่า K2.7‑Code ให้ผลการเพิ่มประสิทธิภาพบนชุดทดสอบภายในของบริษัทหลายสิบเปอร์เซ็นต์ รายละเอียดการเพิ่มประสิทธิภาพที่ระบุมีดังนี้

Kimi Code Bench v2 เพิ่ม **21.8 %
Program Bench เพิ่ม **11 %
MLS Bench Lite เพิ่ม **31.5 %

ชุดทดสอบเหล่านี้เป็น benchmark ที่พัฒนาและดำเนินการโดย Moonshot AI เอง ซึ่งยังไม่ได้ส่งโมเดลเข้าสู่การทดสอบของ DeepSWE – benchmark การเขียนโค้ดอิสระที่ให้คะแนนกระจายกว้างกว่า SWE‑Bench Pro อย่างมีนัยสำคัญ การที่ K2.7‑Code ยังไม่ผ่านการประเมินจาก DeepSWE ทำให้ยังไม่มีข้อมูลเปรียบเทียบจากแหล่งภายนอกที่เป็นมาตรฐานอุตสาหกรรม

Independent Evaluation

นักวิจัย Elliot Arledge ได้ทำการทดสอบ K2.7‑Code เปรียบเทียบกับ K2.6 และ Claude Fable 5 บน KernelBench‑Hard – benchmark สาธารณะที่มุ่งเน้นการเพิ่มประสิทธิภาพของเคอร์เนล GPU ผลการทดลองเผยว่า K2.7‑Code “more honest but not more capable” โดยในหกโจทย์ที่ทดสอบ โมเดลใหม่สร้าง Triton kernels ที่เขียนโดยตรงใน 5 กรณี แต่มี 2 ตัวที่ล้มเหลวจากบั๊กของโมเดลเอง ทำให้คะแนน MoE kernel ลดลงจาก 0.222 ของ K2.6 เหลือ 0.157 ของ K2.7‑Code ส่วน Claude Fable 5 ติดอันดับบนทุกเซลล์ที่ไม่ล้มเหลว

นักพัฒนา Sugumaran Balasubramaniyan ที่สร้าง model‑task‑router สำหรับแพลตฟอร์ม Hermes Agent โดยอ้างอิงคะแนนจาก DeepSWE แสดงความกังวลต่อการใช้ benchmark ภายในของ Moonshot AI เข้าข้อเรียกร้องให้ K2.7‑Code ส่งคะแนนเข้าสู่ DeepSWE ด้วย เขายังระบุว่า K2.6 ได้คะแนน 24 % บน DeepSWE เทียบเท่ากับ GPT‑5.4‑mini** และบอกว่าจะพิจารณา routing งานไปยัง K2.7‑Code ก็ต่อเมื่อผลลัพธ์จาก benchmark อิสระยืนยันความได้เปรียบของโมเดลใหม่

Enterprise Impact

การลดการใช้ thinking‑token 30 % ที่ Moonshot AI ระบุอาจช่วยองค์กรที่ใช้ K2.6 อยู่แล้วลดค่าใช้จ่ายการ inference ได้อย่างทันทีโดยไม่ต้องปรับสถาปัตยกรรมระบบ เนื่องจากโมเดลใหม่สามารถเรียกใช้ผ่าน OpenAI‑compatible API ที่มีอยู่แล้ว การสลับโมเดลจึงเป็นกระบวนการที่มีความเสี่ยงต่ำและสามารถทดลองกับ workload ของตนเองก่อนทำการเปลี่ยนแปลงน้ำหนัก routing อย่างเป็นทางการ

อย่างไรก็ตาม ประสิทธิภาพที่อ้างอิงจาก benchmark ภายในอาจไม่สอดคล้องกับผลลัพธ์จริงในสภาพแวดล้อมของแต่ละองค์กร ทีมไอทีควรทำการประเมิน K2.7‑Code บนงานจริงของตนเองก่อนปรับค่า routing เพื่อยืนยันว่าการลด token ใช้จริงจะเกิดขึ้นและไม่ส่งผลกระทบต่อคุณภาพของโค้ดที่สร้างขึ้น

Summary

Moonshot AI เปิดตัว Kimi K2.7‑Code พร้อมอ้างว่าลดการใช้ token ในขั้นคิดลง 30 % และให้ผลการเพิ่มประสิทธิภาพหลายสิบเปอร์เซ็นต์บน benchmark ภายใน ส่วนการประเมินจากผู้เชี่ยวชาญอิสระแสดงให้เห็นว่าประสิทธิภาพจริงอาจไม่สอดคล้องกับตัวเลขที่โฆษณา การทดสอบในสภาพแวดล้อมขององค์กรจึงเป็นขั้นตอนสำคัญก่อนนำโมเดลไปใช้ในงานผลิตจริง.