Cohere เปิดตัวโมเดล AI โค้ดดิ้ง North Mini Code ทำงานบน H…

Cohere ปล่อยโมเดล AI เปิด‑source ชื่อ North Mini Code ที่ออกแบบมาสำหรับงานเขียนโค้ดแบบ agentic โดยสามารถทำงานบน GPU H100 ตัวเดียวได้ทันที การเปิดตัวนี้เป็นสัญญาณสำคัญว่าเทคโนโลยีโมเดลภาษาขนาดใหญ่สำหรับการพัฒนาซอฟต์แวร์กำลังเคลื่อนย้ายจากบริการคลาวด์แบบจ่ายตามการใช้ไปสู่การใช้งานในองค์กรแบบอิสระและเปิดเผยซอร์สโค้ด

Overview

North Mini Code ถูกเปิดตัวเมื่อวันอังคารที่ผ่านมาและเผยแพร่บน Hugging Face ภายใต้สัญญาอนุญาต Apache 2.0 ทำให้ผู้พัฒนาสามารถดาวน์โหลดและปรับใช้โมเดลได้โดยไม่ต้องพึ่งพาผู้ให้บริการคลาวด์ใด ๆ โมเดลนี้เป็น Mixture‑of‑Experts (MoE) ขนาด 30 พันล้านพารามิเตอร์ ที่มีเพียง 3 พันล้านพารามิเตอร์** ทำงานต่อโทเคนหนึ่งครั้ง ซึ่งช่วยลดความต้องการคอมพิวเตอร์ขณะ inference อย่างมีนัยสำคัญ

โมเดลรองรับ context window ขนาด 256,000 โทเคน และความยาวการสร้างผลลัพธ์สูงสุด 64,000 โทเคน ทำให้สามารถประมวลผลโครงการหลายไฟล์หรือโค้ดฐานขนาดใหญ่ในขั้นตอนเดียวได้อย่างต่อเนื่อง นอกจากนี้ยังมีการรวมความสามารถในการใช้เครื่องมือ (tool‑use) และการคิดแบบสลับขั้น (interleaved thinking) เพื่อเพิ่มประสิทธิภาพในงานที่ต้องทำหลายขั้นตอน

Architecture & Capabilities

North Mini Code ถูกออกแบบเฉพาะสำหรับ agentic software engineering ไม่ได้ดัดแปลงมาจากโมเดลทั่วไป จึงมีการฝังฟังก์ชันการใช้งานเครื่องมือและการโต้ตอบกับเทอร์มินัลไว้ในระดับโมเดลเอง ตัวอย่างการใช้งานรวมถึง

การทำ mapping สถาปัตยกรรมระบบ: โมเดลสามารถวิเคราะห์ dependencies และสร้างแผนผังสถาปัตยกรรมของระบบขนาดใหญ่ได้โดยอาศัย context window ขนาดกว้าง
**การตรวจสอบโค้ด (code review): สามารถทำ review บนฐานโค้ดหลายไฟล์พร้อมกัน โดยใช้ข้อมูลจากหลายไฟล์ใน context เดียวกัน
การทำงานในเทอร์มินัล: โมเดลได้รับการฝึกให้ตอบสนองต่อคำสั่ง shell, สคริปต์แพคเกจและเครื่องมือ command‑line ต่าง ๆ และได้ผ่านการทดสอบด้วย Terminal‑Bench v2 ซึ่งมุ่งเน้นการประเมินการทำงานจริงในสภาพแวดล้อมเทอร์มินัล

การฝึกโมเดลผ่านสองขั้นตอนของ supervised fine‑tuning ตามด้วย reinforcement learning โดยอ้างอิงจาก 70,000 งานที่ตรวจสอบได้ จากประมาณ 5,000 repositories ที่ได้ทำการ deduplicate กับชุดข้อมูล SWE‑Bench ทำให้โมเดลมีความแม่นยำและความเสถียรในการเรียกใช้เครื่องมือ

Training & Benchmark Results

การฝึกของ North Mini Code ใช้แนวทาง multi‑harness ซึ่งครอบคลุมสามสภาพแวดล้อมของ agent คือ SWE‑Agent, Mini‑SWE‑Agent, และ OpenCode ผลการทดสอบแสดงให้เห็นว่าโมเดลมีการเพิ่มประสิทธิภาพ 10 percentage points บนการประเมินของ OpenCode ในขณะเดียวกันยังคงรักษาประสิทธิภาพของ SWE‑Agent ได้ครบถ้วน

ในด้านการวัดประสิทธิภาพการทำงาน โมเดลได้รับการจัดอันดับจาก Artificial Analysis เป็นอันดับ 8 จาก 127 โมเดลเปิด‑weight ในเกณฑ์ความเร็วการผลิตผล (output speed) ที่ 210 tokens ต่อ วินาที และเวลาตอบสนองแรก (time to first token) เพียง 0.25 วินาที เทียบกับค่า median ของกลุ่มคือ 1.95 วินาที อย่างไรก็ตามโมเดลสร้าง 75 ล้านโทเคนผลลัพธ์ ในการประเมิน Intelligence Index ซึ่งมากกว่าค่า median (25 ล้านโทเคน) ส่งผลให้ค่าใช้จ่ายในการ inference เพิ่มขึ้นเมื่อใช้งานในปริมาณมาก

Cohere ยังเปรียบเทียบกับโมเดล Mistral Devstral Small 2 (24 พันล้านพารามิเตอร์) โดยอ้างว่ามี 2.8× ความเร็วในการผลิตผลและความล่าช้า inter‑token ต่ำกว่า 30 % ภายใต้ฮาร์ดแวร์เดียวกัน

Market Position & Pricing Comparison

North Mini Code เข้าสู่ตลาดที่มีผู้ให้บริการโมเดลโค้ดหลายราย ได้แก่ Mistral Devstral Small 2, GitHub Copilot, Cursor และ Claude Fable 5 ของ Anthropic โมเดลเหล่านี้แตกต่างกันในด้านค่าใช้จ่ายและวิธีการปรับใช้

Claude Fable 5: บริการแบบจัดการ มีค่าใช้จ่าย $50 ต่อ 1 ล้านโทเคนผลลัพธ์**
GitHub Copilot / Cursor: โมเดลเชิง subscription หรือ pay‑per‑use ไม่มีตัวเลือกการปรับใช้บนเครื่องของลูกค้า
Mistral Devstral Small 2: โมเดลเปิด‑source ที่มีขนาดเล็กกว่าแต่ยังคงต้องใช้ GPU หลายตัวเพื่อให้ได้ประสิทธิภาพที่เทียบเคียง

ในขณะที่ North Mini Code สามารถทำงานบน GPU H100 ตัวเดียว ด้วยการใช้หน่วยความจำประมาณ 20 GB RAM (ตามการสาธิตของ Nick Frosst บน Mac Studio) ทำให้ค่าใช้จ่ายด้านโครงสร้างพื้นฐานสำหรับองค์กรที่ต้องการประมวลผลระดับสูงลดลงอย่างมาก นอกจากนี้สัญญาอนุญาต Apache 2.0 ให้ความยืดหยุ่นในการปรับแต่งและการใช้ในสภาพแวดล้อมภายในองค์กรได้อย่างเต็มที่

Implications for Enterprises

การเปิดตัว North Mini Code ทำให้ทีมพัฒนาซอฟต์แวร์ต้องพิจารณา เกณฑ์ใหม่ ในการเลือกโมเดลสำหรับ pipeline agentic coding ได้แก่

การฝึกแบบ agent‑centric: โมเดลที่ฝึกโดยตรงสำหรับการทำงานแบบ multi‑step agentic จะเป็นมาตรฐานใหม่ที่ต้องวัดเทียบกับโมเดลทั่วไป
**ต้นทุนความหนาแน่นของโทเคน (verbosity): การผลิตโทเคนที่สูงกว่าคู่แข่งอาจทำให้ค่าใช้จ่าย inference เพิ่มขึ้นอย่างมีนัยสำคัญในงานที่ต้องประมวลผลจำนวนมาก
**การปรับใช้ภายใน (on‑premise): ความสามารถในการรันบน H100 ตัวเดียวและการมีสัญญาอนุญาตเปิดทำให้บริษัทสามารถควบคุมข้อมูลและต้นทุนได้ดียิ่งขึ้นเมื่อเทียบกับบริการคลาวด์ที่คิดค่าใช้จ่ายต่อโทเคน

ดังนั้น ผู้จัดการเทคโนโลยีต้องประเมินทั้ง ประสิทธิภาพการทำงาน, ค่าใช้จ่ายระยะยาว, และ ความต้องการด้านความเป็นอิสระของข้อมูล ก่อนตัดสินใจใช้โมเดลแบบจัดการหรือเปิด‑source อย่าง North Mini Code

Summary

Cohere ปล่อย North Mini Code โมเดลเปิด‑source ขนาด 30 พันล้านพารามิเตอร์ ที่ทำงานบน GPU H100 ตัวเดียวได้อย่างมีประสิทธิภาพและรองรับการทำงานแบบ agentic อย่างครบวงจร การเปิดตัวนี้สร้างตัวเลือกใหม่ให้กับองค์กรที่ต้องการลดค่าใช้จ่ายและควบคุมข้อมูลโดยไม่พึ่งพาบริการคลาวด์แบบจ่าย‑ตาม‑การใช้.