Tensordyne ใช้คณิตศาสตร์ลอการิทึมชิป AI ใหม่ ท้าชน Nvidia

Tensordyne ได้นำชิปเร่งความเร็ว AI รุ่นแรกของตนซึ่งกำลังผลิตบนกระบวนการ 3 nm ของ TSMC ไปยังขั้นตอน tape‑out อย่างเป็นทางการ การพัฒนาเป็นความร่วมมือกับ Juniper Networks และ Broadcom ทำให้บริษัทอ้างว่าระบบของตนจะให้การประมวลผลที่เร็วกว่าและใช้พลังงานน้อยกว่า GPU ของ Nvidia อย่างมีนัยสำคัญ ซึ่งถ้าเป็นจริงจะเป็นการเปลี่ยนโฉมตลาดโครงสร้างพื้นฐาน AI ในระดับองค์กร

Overview

เทคโนโลยีของ Tensordyne มุ่งเน้นการใช้ คณิตศาสตร์ลอการิทึม เพื่อแปลงการคูณเมทริกซ์ซึ่งเป็นภาระงานหลักของโมเดล AI ให้เป็นการบวกที่ง่ายกว่า แนวคิดนี้ย้อนกลับหลักการที่คอมพิวเตอร์ทั่วไปถือว่าการบวกมีต้นทุนต่ำและการคูณมีต้นทุนสูง การแปลงค่าเป็นลอการิทึมแล้วบวกกัน (a × b log a + log b) ทำให้ขั้นตอนคูณสามารถทำได้ด้วยวงจรบวกแบบดิจิทัล

อย่างไรก็ตาม การแปลงค่ากลับจากลอการิธึมเป็นค่าจริงต้องทำอย่างมีประสิทธิภาพ Tensordyne เลือกไม่ใช้ lookup table (LUT) เนื่องจากขนาดจะใหญ่เกินกว่าที่จะเป็นไปได้ จึงนำ Mitchell approximation** มาเป็นอัลกอริทึมเชิงประมาณเพื่อคำนวณลอการิทึมและอันติลอการิทึมโดยตรง

การประมาณค่าดังกล่าวอาจทำให้เกิดข้อผิดพลาดสูงเกินกว่าจะยอมรับได้ จึงมีการเพิ่ม กลไกแก้ไขแบบส่วน‑ส่วน (section‑wise correction) ในฮาร์ดแวร์ ซึ่งบริษัทอ้างว่าสามารถให้ความแม่นยำเทียบเท่ากับ FP16 พร้อมสนับสนุน FP8** และข้อมูลแบบบล็อกฟลอตติ้ง 4‑บิต

Architecture & Math Approach

ชิป Napier ของ Tensordyne มีหน่วยประมวลผล **multiply‑accumulate (MAC) ที่ทำงานโดยไม่ต้องทำการคูณแบบดั้งเดิม โดยอาศัยกระบวนการแปลงลอการิทึมและการแก้ไขเพื่อให้ได้ผลลัพธ์ที่เทียบเท่าการคูณในรูปแบบดิจิทัล การออกแบบนี้ทำให้การใช้พลังงานต่อการคำนวณลดลงอย่างมีนัยสำคัญ

การใช้ Mitchell approximation แทน LUT ทำให้พื้นที่เซลล์บนชิปลดลงและสามารถจัดสรรทรัพยากรให้กับหน่วยความจำและการเชื่อมต่อได้มากขึ้น นอกจากนี้ ระบบแก้ไขแบบส่วน‑ส่วนยังช่วยลดความคลาดเคลื่อนของการคำนวณโดยรวม ทำให้ผลลัพธ์ที่ได้ใกล้เคียงกับการคำนวณแบบ FP16 แม้ว่าอัลกอริทึมพื้นฐานเป็นการประมาณ

ข้อจำกัดที่ยังคงอยู่คือการสนับสนุนประเภทข้อมูล FP8 และ FP4 weights เท่านั้น ซึ่งอาจจำกัดการใช้งานในบางกรณีที่ต้องการความละเอียดสูงกว่า อย่างไรก็ตาม บริษัทบอกว่าจะพัฒนาเพิ่มการสนับสนุน FP4 ในรุ่นต่อไป

Specs & Performance Claims

ชิป Napier มีสเปกที่ใกล้เคียงกับ GPU ระดับสูงของ Nvidia ที่เปิดตัวเมื่อปี 2023 โดยมีรายละเอียดสำคัญดังต่อไปนี้

300 W TDP
144 GB HBM3e แบ่งเป็น 4 stack
4.7 TB/s แบนด์วิดท์ของหน่วยความจำ
ประสิทธิภาพสูงสุด 2.1 petaFLOPS ในโหมด FP8

ตามที่บริษัทระบุ ชิปนี้สามารถให้ 17‑เท่ามากกว่า จำนวนโทเค็นต่อวัตต์และ 13‑เท่ามากกว่า ปริมาณการประมวลผลเมื่อเทียบกับระบบ Nvidia Blackwell อย่างไรก็ตาม ผู้สังเกตการณ์เตือนว่าค่า FLOPS สูงสุดมักจะไม่ตรงกับประสิทธิภาพจริงในงานจริง ดังนั้นการเปรียบเทียบดังกล่าวควรพิจารณาอย่างรอบคอบ

System Design & Scalability

ระบบ TDN72 ของ Tensordyne ประกอบด้วยแผงคอมพิวเตอร์ 8 แผ่นที่ทำงานด้วย CPU Intel Xeon‑D 10‑core หนึ่งตัวต่อแผง พร้อม Napier accelerator จำนวน 9 ชิป การเชื่อมต่อระหว่างชิปทั้งหมดใช้โครงข่ายผ้าใบ (fabric) ความเร็วสูงที่พัฒนาโดย Juniper ซึ่งทำงานในรูปแบบ all‑to‑all คล้ายกับระบบ Nvidia GB200 NVL72

ข้อได้เปรียบสำคัญของ TDN72 คือการไม่ต้องใช้ระบบระบายความร้อนแบบของเหลว ทำให้สามารถติดตั้งในศูนย์ข้อมูลที่มีอุปกรณ์เก่า (brownfield) ได้ง่าย นอกจากนี้ สามารถวาง สี่ระบบ TDN72 ที่ใช้พลังงาน 30 kW ต่อระบบในแร็คขนาด 52U ได้ทั้งหมด ทำให้ได้ 608 petaFLOPS ในการใช้พลังงาน 120 kW ซึ่งให้ความหนาแน่นของการประมวลผล FP8 สูงกว่า Nvidia GB200 NVL72 ประมาณ 1.68‑เท่า

แม้ว่า Nvidia จะรองรับการเร่งความเร็วแบบ NVFP4 ส่วน Napier ยังจำกัดที่ FP4 weights การเปรียบเทียบจึงต้องพิจารณาถึงลักษณะการทำงานจริงและการใช้งานแอปพลิเคชันเฉพาะด้าน

Software Ecosystem

ตั้งแต่การพัฒนาซิลิคอนต้นแบบ Tensordyne ได้ให้ความสำคัญกับการทำให้แพลตฟอร์มซอฟต์แวร์ใช้งานง่าย รุ่นต้นแบบขาดการแก้ไขข้อผิดพลาด (error correction) และต้องอาศัยการฝึกโมเดลแบบ quantization‑aware training เพื่อให้ทำงานได้อย่างแม่นยำ ซึ่งไม่เหมาะกับโมเดลขนาดเทริลเลียนพารามิเตอร์

ในปัจจุบันคอมไพเลอร์ของบริษัทสามารถแปลงโมเดลที่มีอยู่ให้ทำงานบนฮาร์ดแวร์ Napier ได้โดยตรง อีกทั้งมีแพลตฟอร์มให้บริการ inference ของตนเองและสภาพแวดล้อมการรันไทม์ที่รองรับการใช้เซิร์ฟเวอร์ inference ยอดนิยม เช่น vLLM ส่วนการสนับสนุน PyTorch ยังอยู่ในขั้นตอนพัฒนา

ก่อนที่ชิปจะวางจำหน่าย Tensordyne ยังคงให้ข้อมูลเชิงประสิทธิภาพที่ทะเยอทะยาน โดยคาดว่าจะผลิต 1,000 โทเค็นต่อวินาที แม้จะไม่ใช้เทคนิคการพยากรณ์หลายโทเค็นหรือการคาดเดาเชิงสเปคทูล (speculative decoding) ผู้ให้บริการคลาวด์แบบใหม่อย่าง Cirrascale และ BlueSky Compute แสดงความสนใจที่จะนำระบบของ Tensordyne ไปใช้งานเมื่อพร้อม

Impact

หากการอ้างอิงของ Tensordyne เป็นจริง การใช้คณิตศาสตร์ลอการิทึมเพื่อเพิ่มประสิทธิภาพพลังงานอาจเป็นแนวทางใหม่สำหรับอุตสาหกรรมชิป AI ที่กำลังเผชิญกับข้อจำกัดด้านการใช้พลังงานและความร้อน การแข่งขันกับระบบของ Nvidia อย่าง Vera Rubin และ Vera Rubin Ultra จะทดสอบความพร้อมของซอฟต์แวร์และเครื่องมือพัฒนาที่สำคัญต่อการรับสมัครลูกค้า

อย่างไรก็ตาม ความสำเร็จของ Tensordyne จะขึ้นกับการตรวจสอบผลการทำงานจริงของ Napier ในสภาพแวดล้อมการใช้งานจริงและการรับรองจากชุมชนผู้พัฒนา AI หากระบบสามารถทำให้ โทเค็นต่อวัตต์ เพิ่มขึ้นอย่างที่อ้างไว้ บริษัทอาจกลายเป็นผู้เล่นสำคัญในตลาดเซิร์ฟเวอร์ AI ระดับองค์กร

Summary

Tensordyne กำลังนำชิป AI ที่ใช้การคำนวณแบบลอการิทึมเข้าสู่ขั้นตอนผลิตบน TSMC 3 nm พร้อมระบบ TDN72 ที่เน้นการทำงานแบบแห้งโดยไม่ต้องใช้ของเหลว การอ้างว่าให้ประสิทธิภาพหลายเท่ากว่าระบบของ Nvidia ยังคงต้องรอการตรวจสอบในตลาด แต่แนวคิดและสถาปัตยกรรมที่แตกต่างอาจสร้างแรงบันดาลใจให้กับแนวทางพัฒนาชิป AI ในอนาคต.