Moonshot AI เปิดตัว Kimi K2.7‑Code ลดการใช้ thinking‑toke…

ที่มาภาพ: VentureBeat

AI-อ่าน 7 นาทีVentureBeat

Moonshot AI เปิดตัว Kimi K2.7‑Code ลดการใช้ thinking‑toke…

⚡ สรุป 30 วิ

Moonshot AI ประกาศว่า Kimi K2.7‑Code ลดการใช้ thinking‑token 30 % และเพิ่มประสิทธิภาพหลายด้าน แต่การทดสอบภายนอกยังไม่ได้รับการยืนยันจาก benchmark อิสระ

Kimi K2.7‑Code รุ่นล่าสุดของ Moonshot AI ได้เปิดตัวสัปดาห์นี้พร้อมอ้างอิงว่าลดการใช้ thinking‑token ลง 30 % เมื่อเทียบกับรุ่นก่อนหน้า K2.6 และให้การอ้างว่าประสิทธิภาพโดยรวมเพิ่มขึ้นหลายสิบเปอร์เซ็นต์ ทั้งนี้การอัปเดตยังคงใช้สถาปัตยกรรม mixture‑of‑experts ขนาดหนึ่งล้านล้านพารามิเตอร์เดียวกันและสามารถเรียกใช้ผ่าน OpenAI‑compatible API ทำให้ผู้ใช้งานที่มี K2.6 อยู่แล้วสามารถสลับไปใช้ได้โดยไม่ต้องปรับโครงสร้างระบบ

Overview

K2.7‑Code เป็นโมเดลโอเพ่นซอร์สที่ต่อเนื่องจากตระกูล K2 ของ Moonshot AI ซึ่งเปิดตัวครั้งแรกในเดือนเมษายนด้วย K2.6 ที่ทำคะแนนสูงสุดบน OpenRouter รายสัปดาห์ ซึ่งอิงจากการตัดสินใจเส้นทาง API ของนักพัฒนาจริง ๆ แทนการอ้างอิงผลการทดสอบภายใน โมเดลใหม่ยังคงใช้สถาปัตยกรรม trillion‑parameter mixture‑of‑experts เดียวกันกับ K2.6 แต่มุ่งเน้นที่การลด “การคิดมากเกินไป” (overthinking) ที่ Moonshot AI ระบุว่าเป็นสาเหตุของค่าใช้จ่ายการทำ inference สูง

K2.7‑Code ถูกปล่อยภายใต้ Modified MIT license พร้อมน้ำหนักโมเดลให้ดาวน์โหลดได้ที่ HuggingFace การติดตั้งสามารถทำผ่านเฟรมเวิร์ก vLLM หรือ SGLang ได้โดยตรง ซึ่งทำให้ทีมไอทีสามารถผสานรวมเข้ากับระบบเดิมได้อย่างรวดเร็ว การทำงานของโมเดลจำกัดอยู่ที่ “thinking mode” เท่านั้น และอุณหภูมิเครื่องตอบกลับถูกตั้งค่าให้คงที่ที่ 1.0 ไม่สามารถปรับเปลี่ยนได้ตามต้องการของผู้ใช้

Technical Changes

การเปลี่ยนแปลงหลักระหว่าง K2.6 กับ K2.7‑Code อยู่ที่วิธีการสร้างโค้ดระดับล่าง K2.6 จะสร้างการทำงานโดย ห่อหุ้มไลบรารี ที่มีอยู่แล้วและส่งต่อผ่านเฟรมเวิร์กที่กำหนดไว้ล่วงหน้า ในขณะที่ K2.7‑Code จะ เขียนโค้ดโดยตรง ซึ่ง Moonshot AI กล่าวว่าช่วยให้โมเดลมีความทั่วไปที่ดีกว่าในหลายภาษา เช่น Rust, Go, และ Python รวมถึงงานประเภทต่าง ๆ เช่น การพัฒนา Front‑end, DevOps, และการปรับประสิทธิภาพระบบ

โมเดลใหม่ยังคงทำงานในโหมด “thinking” อย่างเดียว ซึ่งหมายความว่าการควบคุมความสุ่มของผลลัพธ์ (temperature) ถูกล็อกที่ 1.0 ผู้ใช้จึงไม่สามารถปรับระดับ deterministic ของผลลัพธ์ได้เหมือนกับโมเดลอื่น ๆ ที่เปิดให้กำหนดค่า temperature ได้ตามความต้องการของแอปพลิเคชัน

Benchmark Claims

Moonshot AI ยืนยันว่า K2.7‑Code ให้ผลการเพิ่มประสิทธิภาพบนชุดทดสอบภายในของบริษัทหลายสิบเปอร์เซ็นต์ รายละเอียดการเพิ่มประสิทธิภาพที่ระบุมีดังนี้

  • Kimi Code Bench v2 เพิ่ม **21.8 %
  • Program Bench เพิ่ม **11 %
  • MLS Bench Lite เพิ่ม **31.5 %

ชุดทดสอบเหล่านี้เป็น benchmark ที่พัฒนาและดำเนินการโดย Moonshot AI เอง ซึ่งยังไม่ได้ส่งโมเดลเข้าสู่การทดสอบของ DeepSWE – benchmark การเขียนโค้ดอิสระที่ให้คะแนนกระจายกว้างกว่า SWE‑Bench Pro อย่างมีนัยสำคัญ การที่ K2.7‑Code ยังไม่ผ่านการประเมินจาก DeepSWE ทำให้ยังไม่มีข้อมูลเปรียบเทียบจากแหล่งภายนอกที่เป็นมาตรฐานอุตสาหกรรม

Independent Evaluation

นักวิจัย Elliot Arledge ได้ทำการทดสอบ K2.7‑Code เปรียบเทียบกับ K2.6 และ Claude Fable 5 บน KernelBench‑Hard – benchmark สาธารณะที่มุ่งเน้นการเพิ่มประสิทธิภาพของเคอร์เนล GPU ผลการทดลองเผยว่า K2.7‑Code “more honest but not more capable” โดยในหกโจทย์ที่ทดสอบ โมเดลใหม่สร้าง Triton kernels ที่เขียนโดยตรงใน 5 กรณี แต่มี 2 ตัวที่ล้มเหลวจากบั๊กของโมเดลเอง ทำให้คะแนน MoE kernel ลดลงจาก 0.222 ของ K2.6 เหลือ 0.157 ของ K2.7‑Code ส่วน Claude Fable 5 ติดอันดับบนทุกเซลล์ที่ไม่ล้มเหลว

นักพัฒนา Sugumaran Balasubramaniyan ที่สร้าง model‑task‑router สำหรับแพลตฟอร์ม Hermes Agent โดยอ้างอิงคะแนนจาก DeepSWE แสดงความกังวลต่อการใช้ benchmark ภายในของ Moonshot AI เข้าข้อเรียกร้องให้ K2.7‑Code ส่งคะแนนเข้าสู่ DeepSWE ด้วย เขายังระบุว่า K2.6 ได้คะแนน 24 % บน DeepSWE เทียบเท่ากับ GPT‑5.4‑mini** และบอกว่าจะพิจารณา routing งานไปยัง K2.7‑Code ก็ต่อเมื่อผลลัพธ์จาก benchmark อิสระยืนยันความได้เปรียบของโมเดลใหม่

Enterprise Impact

การลดการใช้ thinking‑token 30 % ที่ Moonshot AI ระบุอาจช่วยองค์กรที่ใช้ K2.6 อยู่แล้วลดค่าใช้จ่ายการ inference ได้อย่างทันทีโดยไม่ต้องปรับสถาปัตยกรรมระบบ เนื่องจากโมเดลใหม่สามารถเรียกใช้ผ่าน OpenAI‑compatible API ที่มีอยู่แล้ว การสลับโมเดลจึงเป็นกระบวนการที่มีความเสี่ยงต่ำและสามารถทดลองกับ workload ของตนเองก่อนทำการเปลี่ยนแปลงน้ำหนัก routing อย่างเป็นทางการ

อย่างไรก็ตาม ประสิทธิภาพที่อ้างอิงจาก benchmark ภายในอาจไม่สอดคล้องกับผลลัพธ์จริงในสภาพแวดล้อมของแต่ละองค์กร ทีมไอทีควรทำการประเมิน K2.7‑Code บนงานจริงของตนเองก่อนปรับค่า routing เพื่อยืนยันว่าการลด token ใช้จริงจะเกิดขึ้นและไม่ส่งผลกระทบต่อคุณภาพของโค้ดที่สร้างขึ้น

Summary

Moonshot AI เปิดตัว Kimi K2.7‑Code พร้อมอ้างว่าลดการใช้ token ในขั้นคิดลง 30 % และให้ผลการเพิ่มประสิทธิภาพหลายสิบเปอร์เซ็นต์บน benchmark ภายใน ส่วนการประเมินจากผู้เชี่ยวชาญอิสระแสดงให้เห็นว่าประสิทธิภาพจริงอาจไม่สอดคล้องกับตัวเลขที่โฆษณา การทดสอบในสภาพแวดล้อมขององค์กรจึงเป็นขั้นตอนสำคัญก่อนนำโมเดลไปใช้ในงานผลิตจริง.

แชร์บทความนี้:

ชอบบทความแบบนี้?

สมัคร AI Automate Weekly Newsletter — รับเคล็ดลับ AI + how-to ใหม่
ทุกสัปดาห์ตรงถึง inbox ฟรี ไม่มีสแปม

แหล่งข่าวต้นฉบับ

ชื่อต้นฉบับ
Kimi K2.7-Code cuts thinking tokens 30% — but practitioners say the benchmarks don't check out
ผู้เขียน
Unknown
แหล่ง
VentureBeat
วันที่เผยแพร่
13 มิถุนายน 2569 เวลา 04:55

Related

บทความที่เกี่ยวข้อง

ทดสอบอัปเดตใหญ่ของ NotebookLM 3 รายการและการยกเลิกฟีเจอร์…AI
15 มิถุนายน 2569 เวลา 21:30

ทดสอบอัปเดตใหญ่ของ NotebookLM 3 รายการและการยกเลิกฟีเจอร์…

NotebookLM ยังคงเป็น AI ช่วยวิจัยยอดนิยม ด้วยอัปเดต UI การสรุปแม่นยำขึ้นและความเร็วในการจัดการข้อมูล การยกเลิกฟีเจอร์เสียงแม้เงียบแต่เปลี่ยนวิธีใช้มาก

XDA Developers6 นาที
เกมอินดี้ต้องสร้าง Prototype ให้ดี มิใช่พึ่ง AI เพื่อรับเ…AI
15 มิถุนายน 2569 เวลา 17:00

เกมอินดี้ต้องสร้าง Prototype ให้ดี มิใช่พึ่ง AI เพื่อรับเ…

การสร้าง prototype เป็นขั้นตอนสำคัญเพื่อให้ผู้จัดพิมพ์พิจารณาการลงทุน แต่การใช้ AI อย่างเร่งรีบอาจทำให้เกมสูญเสียเอกลักษณ์และความน่าเชื่อถือ ตามที่ผู้แทนจาก…

Rock Paper Shotgun7 นาที
สหรัฐอเมริกาบังคับ Anthropic ระงับโมเดล AI ชั้นนำทันทีAI
15 มิถุนายน 2569 เวลา 14:00

สหรัฐอเมริกาบังคับ Anthropic ระงับโมเดล AI ชั้นนำทันที

รัฐบาลสหรัฐออกคำสั่งฉุกเฉินให้ Anthropic ปิดให้บริการโมเดล AI Fable 5 และ Mythos 5 ทั้งหมด เนื่องจากความกังวลเรื่องความปลอดภัยระดับชาติและช่องโหว่ jailbreak…

Android Authority6 นาที
ให้ LLM ภายในเครื่องเข้าถึง Docker แล้วสคริปต์มอนิเตอร์ถู…AI
15 มิถุนายน 2569 เวลา 05:00

ให้ LLM ภายในเครื่องเข้าถึง Docker แล้วสคริปต์มอนิเตอร์ถู…

ผู้ใช้ให้ Local LLM เข้าถึง Docker เพื่อสร้างสคริปต์มอนิเตอร์อัตโนมัติ แต่ค่าใช้จ่ายสูง, ความเป็นส่วนตัวเสี่ยง, และผลลัพธ์ไม่แม่นยำ…

XDA Developers8 นาที
คัดลอกลิงก์แล้ว!