Weibo เปิดโมเดล VibeThinker-3B 3 พันล้านพารามิเตอร์ ทำคะแนน AI benchmark สูงสุด

VibeThinker-3B ของ Sina Weibo เพิ่งเปิดเผยใน arXiv พร้อมอ้างว่ามีขนาดเพียง 3 พันล้านพารามิเตอร์ สามารถทำคะแนนการให้เหตุผลได้เทียบเท่าหรือเหนือกว่าระบบระดับไจาก Google DeepMind, OpenAI, Anthropic และ DeepSeek ซึ่งมีขนาดหลายร้อยเท่าตัว โมเดลนี้จึงก่อให้เกิดการถกเถียงอย่างกว้างขวางในชุมชน AI เกี่ยวกับความเชื่อถือของ benchmark และทิศทางการพัฒนาโมเดลขนาดใหญ่ต่อไป

Overview

ทีมวิจัยจำนวนเก้าคนจาก Sina Weibo ได้ส่งรายงานเทคนิค 14 หน้าไปยัง arXiv เมื่อวันอาทิตย์ที่ผ่านมา รายงานระบุว่าการฝึกโมเดล VibeThinker-3B ด้วยเทคนิคการประเมินระดับความเชื่อถือ (Claim‑Level Reliability Assessment) ทำให้ได้คะแนน 94.3 บนการสอบ AIME 2026 ซึ่งเทียบเท่ากับ DeepSeek V3.2 (671 พันล้านพารามิเตอร์) และเหนือกว่า Gemini 3 Pro ของ Google ที่ได้คะแนน 91.7

โดยทีมงานยังระบุว่าหากใช้เทคนิคสเกลเวลาทดสอบเพิ่มเติม คะแนนจะเพิ่มเป็น 97.1 ทำให้โมเดลนี้เป็นหนึ่งในระบบที่มีคะแนนสูงสุดที่เปิดเผยต่อสาธารณะ การเผยแพร่ทำให้มีการโหวตบน Hugging Face จำนวน 62 คะแนน, โมเดลรีโพซิทอรีได้รับไลค์ 130 ครั้ง และ GitHub repository สะสมดาว 685 ดาวภายในไม่กี่ชั่วโมง

Benchmark Results

โมเดลนี้ได้ทดสอบบนหลาย benchmark ด้านคณิตศาสตร์, การเขียนโค้ด และการทำตามคำสั่ง โดยสรุปผลได้ดังต่อไปนี้

AIME 2025 : 91.4
AIME 2026 : 94.3
HMMT 2025 : 89.3
BruMO 2025 : 93.8
IMO‑AnswerBench : 76.4 (จาก 400 ปัญหาระดับ IMO)
LiveCodeBench v6 : Pass@1 = 80.2
LeetCode (ช่วงเมษายน‑พฤษภาคม 2026) : อัตราการยอมรับ = 96.1 %
IFEval : 93.4

ผลลัพธ์เหล่านี้แสดงให้เห็นว่าโมเดลขนาด 3 พันล้านพารามิเตอร์ สามารถทำคะแนนได้เทียบเท่าหรือดีกว่าระบบที่มีขนาดหลายร้อยเท่าในงานที่ผลลัพธ์สามารถตรวจสอบได้โดยตรง อย่างไรก็ตามบน benchmark ความรู้แบบเปิด (GPQA‑Diamond) โมเดลได้คะแนน 70.2 ซึ่งต่ำกว่าที่ Gemini 3 Pro (91.9) และ Claude Opus 4.5 (87.0) ทำให้ชี้ให้เห็นถึงข้อจำกัดของโมเดลในด้านความครอบคลุมของความรู้

Training Methodology

VibeThinker-3B ไม่ได้เริ่มจากศูนย์ แต่ต่อยอดจาก Qwen2.5‑Coder‑3B ของทีม Alibaba ผ่านกระบวนการฝึกสี่ขั้นตอนที่ทีม Weibo เรียกว่า “Spectrum‑to‑Signal Principle”

ขั้นตอนแรกเป็นการฝึกแบบ supervised learning สองขั้นตอนโดยใช้ curriculum learning: ขั้นแรกฝึกกับข้อมูลผสมหลากหลายด้านคณิตศาสตร์, โค้ด, STEM, การสนทนาและการทำตามคำสั่ง; ขั้นที่สองย้ายไปฝึกกับชุดข้อมูลที่ยากขึ้นและมีระยะเวลาการให้เหตุผลยาวกว่า

ขั้นตอนที่สองของกระบวนการคัดกรองตัวอย่างที่มีความยาวน้อยกว่า 5,000 โทเคนออก และกรองปัญหาที่ VibeThinker‑1.5B สามารถแก้ได้เกิน 75 % เพื่อลดความง่ายและเน้นความท้าทายที่แท้จริง

ต่อมาคือการฝึกด้วย reinforcement learning (RL) ข้ามหลายโดเมนโดยใช้อัลกอริทึม **MaxEnt‑Guided Policy Optimization (MGPO) ซึ่งให้โมเดลฝึกกับปัญหาที่อยู่บนขอบเขตความสามารถของมัน แทนที่จะฝึกกับปัญหาที่ง่ายหรือยากเกินไป

ทีมงานสังเกตว่าการขยายขนาดหน้าต่างบริบทระหว่างการฝึก RL ซึ่งเคยช่วยในเวอร์ชัน 1.5 B กลับทำให้ประสิทธิภาพของโมเดล 3 B ลดลง ทำให้พวกเขาตั้งสมมติฐานว่า checkpoint ที่แข็งแกร่งกว่าอาจทำให้การตัดทอน trace ระหว่าง warm‑up มีผลเสีย

Theoretical Implications

รายงานได้เสนอ Parametric Compression‑Coverage Hypothesis ซึ่งอธิบายว่าความสามารถของ AI มีความสัมพันธ์กับจำนวนพารามิเตอร์ที่แตกต่างกันอย่างชัดเจน

ความสามารถด้านการให้เหตุผลที่สามารถตรวจสอบได้ (เช่น คณิตศาสตร์และโค้ด) ถูกจัดเป็น “parameter‑dense” ซึ่งสามารถบีบอัดลงในแกนกลางที่ค่อนข้างเล็กได้
ความรู้แบบเปิดโดเมน (เช่น ความรู้ทั่วไป, คำตอบวิทยาศาสตร์ระดับมหาวิทยาลัย) ถูกจัดเป็น “parameter‑expansive” ซึ่งต้องการจำนวนพารามิเตอร์มากเพื่อครอบคลุมความหลากหลายของข้อมูล

ผลการทดสอบบน GPQA‑Diamond ที่คะแนนต่ำกว่าระบบขนาดใหญ่สนับสนุนแนวคิดนี้ โดยทีมงานอธิบายว่าข้อแตกต่างไม่ได้เป็นการโต้แย้งกับสมมติฐาน แต่แสดงให้เห็นว่าการบีบอัดความสามารถที่ตรวจสอบได้เป็นไปได้ แม้ในโมเดลขนาดเล็ก

Community Reaction

เมื่อรายงานเผยแพร่บน arXiv มีการโต้ตอบอย่างรวดเร็วบนแพลตฟอร์มต่าง ๆ 62 การโหวตบน Hugging Face, 130 ไลค์บนโมเดลรีโพซิทอรี, และ 685 ดาวบน GitHub แสดงถึงความสนใจสูงของชุมชน

ในเวลาเดียวกัน โซเชียลมีเดียก็มีเสียงวิพากษ์วิจารณ์อย่างเข้มข้น ผู้ใช้บางคนตั้งคำถามว่าการบรรลุคะแนนระดับเดียวกับโมเดลหลายร้อยเท่าอาจมาจากการ “ทำลาย” benchmark หรืออาจเป็นการบิดเบือนผลลัพธ์ ด้วยเหตุนี้หลายคนจึงเรียกร้องให้มีการตรวจสอบอย่างละเอียดและอาจต้องปรับปรุงเกณฑ์วัดผลให้ทนต่อการ “เกม” มากขึ้น

การถกเถียงนี้สะท้อนถึงความกังวลที่กว้างขวางในวงการ AI ว่า benchmark ที่ใช้วัดความฉลาดของโมเดลอาจกลายเป็นเครื่องมือที่สามารถ “โกง” ได้ หากไม่มีการออกแบบที่เหมาะสม ทั้งนี้ผลกระทบต่อการพัฒนาโมเดลขนาดใหญ่ต่อไปยังคงต้องอาศัยการประเมินจากชุมชนอย่างต่อเนื่อง

Impact

ถ้า VibeThinker-3B ยืนยันความสามารถของโมเดลขนาดเล็กในการทำงานด้านการให้เหตุผลอย่างเชื่อถือได้ จะทำให้ผู้พัฒนามองเห็นทางเลือกใหม่ในการลดต้นทุนการฝึกและการใช้งานโมเดล AI โดยเฉพาะในสภาพแวดล้อมที่จำกัดทรัพยากรเช่นอุปกรณ์ส่วนบุคคล

อย่างไรก็ตาม ความอ่อนแอบน benchmark ความรู้แบบเปิดยังคงเป็นอุปสรรคสำคัญ หากต้องการโมเดลที่ทำหน้าที่เป็นผู้ช่วยทั่วไปแบบครบวงจร การเพิ่มพารามิเตอร์หรือการผสานเทคนิคการฝึกใหม่อาจยังคงจำเป็น

การพิจารณาว่าแนวทาง “parameter‑dense” จะเป็นทิศทางหลักของการพัฒนา AI หรือเป็นเพียงส่วนเสริมของแนวคิดเดิม จะขึ้นกับผลการทดลองต่อเนื่องและการยอมรับของชุมชนวิชาการและอุตสาหกรรมในระยะยาว

Summary

VibeThinker-3B ของ Sina Weibo แสดงให้เห็นว่ามodel ขนาด 3 พันล้านพารามิเตอร์ สามารถทำคะแนน benchmark การให้เหตุผลได้เทียบเท่าหรือเหนือกว่าระบบขนาดหลายร้อยเท่า รายงานกระตุ้นการถกเถียงเกี่ยวกับความเชื่อถือของ benchmark และอาจเปิดทางให้การพัฒนาโมเดลขนาดเล็กมีบทบาทมากขึ้นในอนาคต.

Weibo เปิดโมเดล VibeThinker-3B 3 พันล้านพารามิเตอร์ ทำคะแนน AI benchmark สูงสุด

Overview

Benchmark Results

Training Methodology

Theoretical Implications

Community Reaction

Impact

Summary

แหล่งข่าวต้นฉบับ

บทความที่เกี่ยวข้อง

AI พลังต่ำขับเคลื่อนยุคนวัตกรรมระดับโลก

สหรัฐห้ามนำเข้าโรบอตขั้นสูงและอุปกรณ์แปลงไฟฟ้าจากต่างประเทศ

การเข้าถึง Claude Mythos ไม่อาจปกป้องความเชื่อมั่นของธนาคารอังกฤษ

ให้ AI จัดการตัวเลข แต่ตัดสินใจเชิงอารมณ์ให้อยู่กับมนุษย์

Overview

Benchmark Results

Training Methodology

Theoretical Implications

Community Reaction

Impact

Summary

แหล่งข่าวต้นฉบับ

บทความที่เกี่ยวข้อง

AI พลังต่ำขับเคลื่อนยุคนวัตกรรมระดับโลก

สหรัฐห้ามนำเข้าโรบอตขั้นสูงและอุปกรณ์แปลงไฟฟ้าจากต่างประเทศ

การเข้าถึง Claude Mythos ไม่อาจปกป้องความเชื่อมั่นของธนาคารอังกฤษ

ให้ AI จัดการตัวเลข แต่ตัดสินใจเชิงอารมณ์ให้อยู่กับมนุษย์

การเข้าถึง Claude Mythos ไม่อาจปกป้องความเชื่อมั่นของธนาคารอังกฤษ