เปลี่ยนเป็น MLX engine ของ Ollama ทำให้ MacBook Air M5 เร็วขึ้นสองเท่า

การเปลี่ยนไปใช้ MLX engine ของ Ollama บนเครื่อง MacBook Air M5 ทำให้ประสิทธิภาพโดยรวมของคอมพิวเตอร์เร็วขึ้นประมาณสองเท่า ผู้ใช้ระบุว่าก่อนหน้านี้การรันโมเดลภาษาขนาดเล็กบนเครื่องนี้ทำให้ระบบช้าลงอย่างชัดเจน แต่หลังจากอัปเดต engine แล้วการทำงานของ LLM กลับเป็นไปได้โดยไม่มีอาการหน่วง‑นานมากนัก

Overview

Ollama เป็นแพลตฟอร์มที่ออกแบบมาเพื่อให้ผู้ใช้สามารถรันโมเดลภาษา (Large Language Model – LLM) บนเครื่องส่วนบุคคลได้โดยไม่ต้องพึ่งพาเซิร์ฟเวอร์คลาวด์ การทำงานของ LLM ต้องการหน่วยประมวลผลและหน่วยความจำจำนวนมาก ทำให้เครื่องที่สเปคไม่สูงอาจพบปัญหาการชะลอของระบบโดยรวม ผู้ใช้ที่ทำการทดสอบในบทความนี้ใช้ MacBook Air M5 ที่มี RAM 16 GB เป็นอุปกรณ์หลักในการรันโมเดลต่าง ๆ

แม้ว่า MacBook Air M5 จะไม่ได้เป็นเครื่องระดับสูงสุดในตระกูล Apple Silicon แต่ก็ยังสามารถรองรับโมเดลที่มีพารามิเตอร์ไม่เกิน 7 พันล้าน ได้อย่างค่อนข้างเสถียร ก่อนหน้านี้การใช้ Ollama รุ่นเดิมทำให้การทำงานของเครื่องช้าลงอย่างเห็นได้ชัด เนื่องจาก engine ที่ใช้ไม่ได้เต็มศักยภาพของสถาปัตยกรรม M‑series

Technical Background

MLX เป็นไลบรารี Machine Learning ของ Apple ที่ถูกพัฒนาเพื่อให้การคำนวณบนชิป Apple Silicon มีประสิทธิภาพสูงสุด โดยเฉพาะการประมวลผลแบบเมทริกซ์และการทำ inference ของโมเดล AI การนำ MLX มาผสานกับ Ollama ทำให้การจัดสรรทรัพยากรระหว่าง CPU, GPU, และ Neural Engine เป็นไปอย่างอัตโนมัติและเหมาะสมกับลักษณะงานของ LLM

การทำงานของ MLX engine จะใช้การเร่งความเร็วแบบ GPU‑accelerated inference บน Apple‑GPU (รวมถึงประสิทธิภาพของ Apple Neural Engine) ซึ่งช่วยลดเวลาในการประมวลผลของโมเดลแต่ละรอบ การจัดการหน่วยความจำก็ได้รับการปรับให้ใช้ RAM 16 GB อย่างมีประสิทธิภาพ ลดการสลับข้อมูลระหว่างระบบและหน่วยเก็บข้อมูลหลัก

นอกจากนี้ MLX ยังสนับสนุนการทำ quantization ของโมเดลให้ใช้พลังงานและหน่วยความจำน้อยลง โดยไม่ทำให้คุณภาพผลลัพธ์ลดลงอย่างมีนัยสำคัญ ซึ่งเป็นประโยชน์สำคัญสำหรับผู้ใช้ที่ต้องการรันโมเดลขนาดกลางบนอุปกรณ์พกพา

Performance Impact

ผู้ใช้รายงานว่าเมื่อสลับไปใช้ MLX engine แล้ว เวลาตอบสนองของ LLM ลดลงประมาณ 50 % ทำให้การโต้ตอบกับโมเดลเป็นไปอย่างราบรื่นขึ้น แม้ว่าอัตราการใช้ CPU และ GPU ยังคงสูงตามธรรมชาติของงาน AI แต่การกระจายโหลดไปยัง Apple Neural Engine ทำให้การใช้ RAM** มีประสิทธิภาพมากขึ้น

การเปรียบเทียบระหว่าง engine เก่าและ MLX บนเครื่องเดียวกันพบว่า:

เวลาการประมวลผลต่อ token ลดลงจากประมาณ 150 ms ไปเหลือ 70 ms
การใช้งาน RAM ลดลงประมาณ 1‑2 GB ต่อโมเดล
ความร้อนของเครื่องคงที่กว่าเดิม ทำให้ความเร็วของพัดลมไม่เพิ่มขึ้นอย่างต่อเนื่อง

ผลลัพธ์เหล่านี้ทำให้ MacBook Air M5 สามารถรันโมเดลที่มีพารามิเตอร์สูงสุด 7 พันล้าน ได้โดยไม่ทำให้ระบบชะลอจนเกินไป

User Experience

จากมุมมองของผู้ใช้ การเปลี่ยน engine ทำให้ประสบการณ์การพัฒนาแอปพลิเคชันหรือทำการทดลองกับ LLM บนเครื่องส่วนบุคคลเป็นไปได้ง่ายขึ้น ไม่ต้องพึ่งพาเซิร์ฟเวอร์ภายนอกหรือการตั้งค่า Docker ที่ซับซ้อน การติดตั้ง Ollama พร้อม MLX engine ใช้ขั้นตอนเพียงไม่กี่ขั้นตอนผ่าน Homebrew หรือไฟล์ติดตั้งที่ให้ไว้

ผู้ใช้ยังกล่าวถึงการประหยัดพลังงานที่เห็นได้ชัด เนื่องจาก MLX ทำให้ GPU และ Neural Engine ทำงานอย่างมีประสิทธิภาพมากขึ้น ทำให้แบตเตอรี่ของ MacBook Air M5 สามารถใช้งานต่อเนื่องได้ยาวนานกว่าเดิมในขณะรัน LLM

อย่างไรก็ตาม การจำกัดที่สำคัญยังคงอยู่คือขนาดของโมเดลที่สามารถรันได้ หากต้องการใช้โมเดลที่ใหญ่กว่า 7 พันล้าน พารามิเตอร์ ผู้ใช้อาจต้องพิจารณาอัปเกรดอุปกรณ์หรือใช้คลาวด์เป็นตัวเลือกเสริม

Broader Implications

การที่ Ollama สามารถผสาน MLX เข้ากับระบบปฏิบัติการ macOS ได้อย่างเต็มที่ ชี้ให้เห็นถึงแนวโน้มของการทำ local AI ที่มีประสิทธิภาพบนอุปกรณ์ส่วนบุคคล ซึ่งอาจส่งผลต่อการลดการพึ่งพาโครงข่ายคลาวด์และเพิ่มความเป็นส่วนตัวของข้อมูลผู้ใช้

ในระดับอุตสาหกรรม การพัฒนาระบบ inference ที่ใช้ Apple Silicon อย่างเต็มที่อาจกระตุ้นให้ผู้พัฒนาโมเดลและซอฟต์แวร์ AI ปรับตัวให้รองรับสถาปัตยกรรม ARM‑based มากขึ้น นอกจากนี้ ผู้ผลิตฮาร์ดแวร์อาจเริ่มให้ความสำคัญกับการออกแบบชิปที่มี Neural Engine ที่ทรงพลังยิ่งขึ้น เพื่อตอบสนองต่อความต้องการของแอปพลิเคชัน AI บนเครื่องพกพา

การสังเกตผลลัพธ์เชิงประสิทธิภาพจากการใช้ MLX engine บน MacBook Air M5 นี้อาจเป็นสัญญาณบ่งบอกว่าการทำงานของ LLM บนอุปกรณ์ส่วนบุคคลสามารถเป็นจริงได้โดยไม่ต้องเสียสละประสิทธิภาพหรือความเสถียรของระบบ

Summary

การนำ MLX engine ของ Ollama มาใช้บน MacBook Air M5 ทำให้ประสิทธิภาพของการรัน LLM เพิ่มขึ้นประมาณสองเท่า โดยเฉพาะการตอบสนองต่อ token ลดลงและการใช้หน่วยความจำน้อยลง ผู้ใช้ที่ต้องการรันโมเดลขนาดกลางบนอุปกรณ์พกพาจะได้ประโยชน์จากการผสานเทคโนโลยี AI ของ Apple กับซอฟต์แวร์เปิด‑source อย่าง Ollama อย่างมีประสิทธิภาพ.