Weibo เปิดโมเดล VibeThinker-3B 3 พันล้านพารามิเตอร์ ทำคะแนน AI benchmark สูงสุด

ที่มาภาพ: VentureBeat

AI-อ่าน 8 นาทีVentureBeat

Weibo เปิดโมเดล VibeThinker-3B 3 พันล้านพารามิเตอร์ ทำคะแนน AI benchmark สูงสุด

⚡ สรุป 30 วิ

Weibo เปิดโมเดล VibeThinker-3B ขนาด 3 พันล้านพารามิเตอร์ โดยอ้างว่าสามารถทำคะแนน AIME 2026 ได้ 94.3 เทียบเท่าระบบหลายร้อยเท่า…

VibeThinker-3B ของ Sina Weibo เพิ่งเปิดเผยใน arXiv พร้อมอ้างว่ามีขนาดเพียง 3 พันล้านพารามิเตอร์ สามารถทำคะแนนการให้เหตุผลได้เทียบเท่าหรือเหนือกว่าระบบระดับไจาก Google DeepMind, OpenAI, Anthropic และ DeepSeek ซึ่งมีขนาดหลายร้อยเท่าตัว โมเดลนี้จึงก่อให้เกิดการถกเถียงอย่างกว้างขวางในชุมชน AI เกี่ยวกับความเชื่อถือของ benchmark และทิศทางการพัฒนาโมเดลขนาดใหญ่ต่อไป

Overview

ทีมวิจัยจำนวนเก้าคนจาก Sina Weibo ได้ส่งรายงานเทคนิค 14 หน้าไปยัง arXiv เมื่อวันอาทิตย์ที่ผ่านมา รายงานระบุว่าการฝึกโมเดล VibeThinker-3B ด้วยเทคนิคการประเมินระดับความเชื่อถือ (Claim‑Level Reliability Assessment) ทำให้ได้คะแนน 94.3 บนการสอบ AIME 2026 ซึ่งเทียบเท่ากับ DeepSeek V3.2 (671 พันล้านพารามิเตอร์) และเหนือกว่า Gemini 3 Pro ของ Google ที่ได้คะแนน 91.7

โดยทีมงานยังระบุว่าหากใช้เทคนิคสเกลเวลาทดสอบเพิ่มเติม คะแนนจะเพิ่มเป็น 97.1 ทำให้โมเดลนี้เป็นหนึ่งในระบบที่มีคะแนนสูงสุดที่เปิดเผยต่อสาธารณะ การเผยแพร่ทำให้มีการโหวตบน Hugging Face จำนวน 62 คะแนน, โมเดลรีโพซิทอรีได้รับไลค์ 130 ครั้ง และ GitHub repository สะสมดาว 685 ดาวภายในไม่กี่ชั่วโมง

Benchmark Results

โมเดลนี้ได้ทดสอบบนหลาย benchmark ด้านคณิตศาสตร์, การเขียนโค้ด และการทำตามคำสั่ง โดยสรุปผลได้ดังต่อไปนี้

  • AIME 2025 : 91.4
  • AIME 2026 : 94.3
  • HMMT 2025 : 89.3
  • BruMO 2025 : 93.8
  • IMO‑AnswerBench : 76.4 (จาก 400 ปัญหาระดับ IMO)
  • LiveCodeBench v6 : Pass@1 = 80.2
  • LeetCode (ช่วงเมษายน‑พฤษภาคม 2026) : อัตราการยอมรับ = 96.1 %
  • IFEval : 93.4

ผลลัพธ์เหล่านี้แสดงให้เห็นว่าโมเดลขนาด 3 พันล้านพารามิเตอร์ สามารถทำคะแนนได้เทียบเท่าหรือดีกว่าระบบที่มีขนาดหลายร้อยเท่าในงานที่ผลลัพธ์สามารถตรวจสอบได้โดยตรง อย่างไรก็ตามบน benchmark ความรู้แบบเปิด (GPQA‑Diamond) โมเดลได้คะแนน 70.2 ซึ่งต่ำกว่าที่ Gemini 3 Pro (91.9) และ Claude Opus 4.5 (87.0) ทำให้ชี้ให้เห็นถึงข้อจำกัดของโมเดลในด้านความครอบคลุมของความรู้

Training Methodology

VibeThinker-3B ไม่ได้เริ่มจากศูนย์ แต่ต่อยอดจาก Qwen2.5‑Coder‑3B ของทีม Alibaba ผ่านกระบวนการฝึกสี่ขั้นตอนที่ทีม Weibo เรียกว่า “Spectrum‑to‑Signal Principle

ขั้นตอนแรกเป็นการฝึกแบบ supervised learning สองขั้นตอนโดยใช้ curriculum learning: ขั้นแรกฝึกกับข้อมูลผสมหลากหลายด้านคณิตศาสตร์, โค้ด, STEM, การสนทนาและการทำตามคำสั่ง; ขั้นที่สองย้ายไปฝึกกับชุดข้อมูลที่ยากขึ้นและมีระยะเวลาการให้เหตุผลยาวกว่า

ขั้นตอนที่สองของกระบวนการคัดกรองตัวอย่างที่มีความยาวน้อยกว่า 5,000 โทเคนออก และกรองปัญหาที่ VibeThinker‑1.5B สามารถแก้ได้เกิน 75 % เพื่อลดความง่ายและเน้นความท้าทายที่แท้จริง

ต่อมาคือการฝึกด้วย reinforcement learning (RL) ข้ามหลายโดเมนโดยใช้อัลกอริทึม **MaxEnt‑Guided Policy Optimization (MGPO) ซึ่งให้โมเดลฝึกกับปัญหาที่อยู่บนขอบเขตความสามารถของมัน แทนที่จะฝึกกับปัญหาที่ง่ายหรือยากเกินไป

ทีมงานสังเกตว่าการขยายขนาดหน้าต่างบริบทระหว่างการฝึก RL ซึ่งเคยช่วยในเวอร์ชัน 1.5 B กลับทำให้ประสิทธิภาพของโมเดล 3 B ลดลง ทำให้พวกเขาตั้งสมมติฐานว่า checkpoint ที่แข็งแกร่งกว่าอาจทำให้การตัดทอน trace ระหว่าง warm‑up มีผลเสีย

Theoretical Implications

รายงานได้เสนอ Parametric Compression‑Coverage Hypothesis ซึ่งอธิบายว่าความสามารถของ AI มีความสัมพันธ์กับจำนวนพารามิเตอร์ที่แตกต่างกันอย่างชัดเจน

  • ความสามารถด้านการให้เหตุผลที่สามารถตรวจสอบได้ (เช่น คณิตศาสตร์และโค้ด) ถูกจัดเป็น “parameter‑dense” ซึ่งสามารถบีบอัดลงในแกนกลางที่ค่อนข้างเล็กได้
  • ความรู้แบบเปิดโดเมน (เช่น ความรู้ทั่วไป, คำตอบวิทยาศาสตร์ระดับมหาวิทยาลัย) ถูกจัดเป็น “parameter‑expansive” ซึ่งต้องการจำนวนพารามิเตอร์มากเพื่อครอบคลุมความหลากหลายของข้อมูล

ผลการทดสอบบน GPQA‑Diamond ที่คะแนนต่ำกว่าระบบขนาดใหญ่สนับสนุนแนวคิดนี้ โดยทีมงานอธิบายว่าข้อแตกต่างไม่ได้เป็นการโต้แย้งกับสมมติฐาน แต่แสดงให้เห็นว่าการบีบอัดความสามารถที่ตรวจสอบได้เป็นไปได้ แม้ในโมเดลขนาดเล็ก

Community Reaction

เมื่อรายงานเผยแพร่บน arXiv มีการโต้ตอบอย่างรวดเร็วบนแพลตฟอร์มต่าง ๆ 62 การโหวตบน Hugging Face, 130 ไลค์บนโมเดลรีโพซิทอรี, และ 685 ดาวบน GitHub แสดงถึงความสนใจสูงของชุมชน

ในเวลาเดียวกัน โซเชียลมีเดียก็มีเสียงวิพากษ์วิจารณ์อย่างเข้มข้น ผู้ใช้บางคนตั้งคำถามว่าการบรรลุคะแนนระดับเดียวกับโมเดลหลายร้อยเท่าอาจมาจากการ “ทำลาย” benchmark หรืออาจเป็นการบิดเบือนผลลัพธ์ ด้วยเหตุนี้หลายคนจึงเรียกร้องให้มีการตรวจสอบอย่างละเอียดและอาจต้องปรับปรุงเกณฑ์วัดผลให้ทนต่อการ “เกม” มากขึ้น

การถกเถียงนี้สะท้อนถึงความกังวลที่กว้างขวางในวงการ AI ว่า benchmark ที่ใช้วัดความฉลาดของโมเดลอาจกลายเป็นเครื่องมือที่สามารถ “โกง” ได้ หากไม่มีการออกแบบที่เหมาะสม ทั้งนี้ผลกระทบต่อการพัฒนาโมเดลขนาดใหญ่ต่อไปยังคงต้องอาศัยการประเมินจากชุมชนอย่างต่อเนื่อง

Impact

ถ้า VibeThinker-3B ยืนยันความสามารถของโมเดลขนาดเล็กในการทำงานด้านการให้เหตุผลอย่างเชื่อถือได้ จะทำให้ผู้พัฒนามองเห็นทางเลือกใหม่ในการลดต้นทุนการฝึกและการใช้งานโมเดล AI โดยเฉพาะในสภาพแวดล้อมที่จำกัดทรัพยากรเช่นอุปกรณ์ส่วนบุคคล

อย่างไรก็ตาม ความอ่อนแอบน benchmark ความรู้แบบเปิดยังคงเป็นอุปสรรคสำคัญ หากต้องการโมเดลที่ทำหน้าที่เป็นผู้ช่วยทั่วไปแบบครบวงจร การเพิ่มพารามิเตอร์หรือการผสานเทคนิคการฝึกใหม่อาจยังคงจำเป็น

การพิจารณาว่าแนวทาง “parameter‑dense” จะเป็นทิศทางหลักของการพัฒนา AI หรือเป็นเพียงส่วนเสริมของแนวคิดเดิม จะขึ้นกับผลการทดลองต่อเนื่องและการยอมรับของชุมชนวิชาการและอุตสาหกรรมในระยะยาว

Summary

VibeThinker-3B ของ Sina Weibo แสดงให้เห็นว่ามodel ขนาด 3 พันล้านพารามิเตอร์ สามารถทำคะแนน benchmark การให้เหตุผลได้เทียบเท่าหรือเหนือกว่าระบบขนาดหลายร้อยเท่า รายงานกระตุ้นการถกเถียงเกี่ยวกับความเชื่อถือของ benchmark และอาจเปิดทางให้การพัฒนาโมเดลขนาดเล็กมีบทบาทมากขึ้นในอนาคต.

แชร์บทความนี้:

ชอบบทความแบบนี้?

สมัคร AI Automate Weekly Newsletter — รับเคล็ดลับ AI + how-to ใหม่
ทุกสัปดาห์ตรงถึง inbox ฟรี ไม่มีสแปม

แหล่งข่าวต้นฉบับ

ชื่อต้นฉบับ
Why Weibo’s tiny VibeThinker-3B has the AI world arguing over benchmarks again
ผู้เขียน
[email protected] (Michael Nuñez)
แหล่ง
VentureBeat
วันที่เผยแพร่
17 มิถุนายน 2569 เวลา 07:32

Related

บทความที่เกี่ยวข้อง

หยุดใช้ Cursor เขียนโค้ดแล้วพบว่ามันกลายเป็นผู้ช่วยที่มีป…AI
16 มิถุนายน 2569 เวลา 17:00

หยุดใช้ Cursor เขียนโค้ดแล้วพบว่ามันกลายเป็นผู้ช่วยที่มีป…

ผู้เขียนหยุดใช้ Cursor เพื่อเขียนโค้ดโดยตรงและพบว่ามันทำงานได้ดีในบทบาทผู้ช่วย เช่น สร้างเอกสาร API ตรวจสอบโค้ดและสรุปผลการทดสอบ.…

XDA Developers5 นาที
คณะกรรมาธิการสภา: ยังไม่มีหลักฐานยืนยันสมาร์ทโฟนทำให้สมอง…AI
16 มิถุนายน 2569 เวลา 14:00

คณะกรรมาธิการสภา: ยังไม่มีหลักฐานยืนยันสมาร์ทโฟนทำให้สมอง…

การสอบสวนของคณะกรรมาธิการวิทยาศาสตร์พบว่าผู้เชี่ยวชาญไม่สามารถยืนยันว่าการใช้สมาร์ทโฟนหรือสื่อสังคมทำให้สมองของเด็กเปลี่ยนแปลงอย่างรุนแรงได้…

The Register6 นาที
iOS 27 เปิดแอป Siri สแตนด์อโลนบนหน้าจอหลักของ iPhoneAI
16 มิถุนายน 2569 เวลา 05:00

iOS 27 เปิดแอป Siri สแตนด์อโลนบนหน้าจอหลักของ iPhone

iOS 27 เปิดตัวแอป Siri แยกเป็นสแตนด์อโลนบนหน้าจอหลักของ iPhone ทำให้ผู้ใช้เรียกใช้บริการ AI ได้โดยตรงจากไอคอนเดียว…

9to5Mac8 นาที
ใช้ NotebookLM ของ Google กับ Claude ของ Anthropic แปลงข้…AI
16 มิถุนายน 2569 เวลา 03:30

ใช้ NotebookLM ของ Google กับ Claude ของ Anthropic แปลงข้…

ผู้เขียนทดลองใช้ NotebookLM ของ Google ร่วมกับ Claude ของ Anthropic เพื่อสรุปข้อมูลและแปลงเป็นขั้นตอนปฏิบัติ ลดเวลาการอ่านและจดโน้ตหลายชั่วโมง

XDA Developers6 นาที
คัดลอกลิงก์แล้ว!