เปลี่ยนเป็น MLX engine ของ Ollama ทำให้ MacBook Air M5 เร็วขึ้นสองเท่า

ที่มาภาพ: XDA Developers

AI-อ่าน 7 นาทีXDA Developers

เปลี่ยนเป็น MLX engine ของ Ollama ทำให้ MacBook Air M5 เร็วขึ้นสองเท่า

⚡ สรุป 30 วิ

ผู้ใช้เปลี่ยน Ollama ไปใช้ MLX engine บน MacBook Air M5 พบประสิทธิภาพเพิ่มประมาณสองเท่า เวลาแปรผลต่อ token ลดลงจาก 150 ms เหนือ 70 ms และการใช้ RAM ลดลง 1‑2 GB…

การเปลี่ยนไปใช้ MLX engine ของ Ollama บนเครื่อง MacBook Air M5 ทำให้ประสิทธิภาพโดยรวมของคอมพิวเตอร์เร็วขึ้นประมาณสองเท่า ผู้ใช้ระบุว่าก่อนหน้านี้การรันโมเดลภาษาขนาดเล็กบนเครื่องนี้ทำให้ระบบช้าลงอย่างชัดเจน แต่หลังจากอัปเดต engine แล้วการทำงานของ LLM กลับเป็นไปได้โดยไม่มีอาการหน่วง‑นานมากนัก

Overview

Ollama เป็นแพลตฟอร์มที่ออกแบบมาเพื่อให้ผู้ใช้สามารถรันโมเดลภาษา (Large Language Model – LLM) บนเครื่องส่วนบุคคลได้โดยไม่ต้องพึ่งพาเซิร์ฟเวอร์คลาวด์ การทำงานของ LLM ต้องการหน่วยประมวลผลและหน่วยความจำจำนวนมาก ทำให้เครื่องที่สเปคไม่สูงอาจพบปัญหาการชะลอของระบบโดยรวม ผู้ใช้ที่ทำการทดสอบในบทความนี้ใช้ MacBook Air M5 ที่มี RAM 16 GB เป็นอุปกรณ์หลักในการรันโมเดลต่าง ๆ

แม้ว่า MacBook Air M5 จะไม่ได้เป็นเครื่องระดับสูงสุดในตระกูล Apple Silicon แต่ก็ยังสามารถรองรับโมเดลที่มีพารามิเตอร์ไม่เกิน 7 พันล้าน ได้อย่างค่อนข้างเสถียร ก่อนหน้านี้การใช้ Ollama รุ่นเดิมทำให้การทำงานของเครื่องช้าลงอย่างเห็นได้ชัด เนื่องจาก engine ที่ใช้ไม่ได้เต็มศักยภาพของสถาปัตยกรรม M‑series

Technical Background

MLX เป็นไลบรารี Machine Learning ของ Apple ที่ถูกพัฒนาเพื่อให้การคำนวณบนชิป Apple Silicon มีประสิทธิภาพสูงสุด โดยเฉพาะการประมวลผลแบบเมทริกซ์และการทำ inference ของโมเดล AI การนำ MLX มาผสานกับ Ollama ทำให้การจัดสรรทรัพยากรระหว่าง CPU, GPU, และ Neural Engine เป็นไปอย่างอัตโนมัติและเหมาะสมกับลักษณะงานของ LLM

การทำงานของ MLX engine จะใช้การเร่งความเร็วแบบ GPU‑accelerated inference บน Apple‑GPU (รวมถึงประสิทธิภาพของ Apple Neural Engine) ซึ่งช่วยลดเวลาในการประมวลผลของโมเดลแต่ละรอบ การจัดการหน่วยความจำก็ได้รับการปรับให้ใช้ RAM 16 GB อย่างมีประสิทธิภาพ ลดการสลับข้อมูลระหว่างระบบและหน่วยเก็บข้อมูลหลัก

นอกจากนี้ MLX ยังสนับสนุนการทำ quantization ของโมเดลให้ใช้พลังงานและหน่วยความจำน้อยลง โดยไม่ทำให้คุณภาพผลลัพธ์ลดลงอย่างมีนัยสำคัญ ซึ่งเป็นประโยชน์สำคัญสำหรับผู้ใช้ที่ต้องการรันโมเดลขนาดกลางบนอุปกรณ์พกพา

Performance Impact

ผู้ใช้รายงานว่าเมื่อสลับไปใช้ MLX engine แล้ว เวลาตอบสนองของ LLM ลดลงประมาณ 50 % ทำให้การโต้ตอบกับโมเดลเป็นไปอย่างราบรื่นขึ้น แม้ว่าอัตราการใช้ CPU และ GPU ยังคงสูงตามธรรมชาติของงาน AI แต่การกระจายโหลดไปยัง Apple Neural Engine ทำให้การใช้ RAM** มีประสิทธิภาพมากขึ้น

การเปรียบเทียบระหว่าง engine เก่าและ MLX บนเครื่องเดียวกันพบว่า:

  • เวลาการประมวลผลต่อ token ลดลงจากประมาณ 150 ms ไปเหลือ 70 ms
  • การใช้งาน RAM ลดลงประมาณ 1‑2 GB ต่อโมเดล
  • ความร้อนของเครื่องคงที่กว่าเดิม ทำให้ความเร็วของพัดลมไม่เพิ่มขึ้นอย่างต่อเนื่อง

ผลลัพธ์เหล่านี้ทำให้ MacBook Air M5 สามารถรันโมเดลที่มีพารามิเตอร์สูงสุด 7 พันล้าน ได้โดยไม่ทำให้ระบบชะลอจนเกินไป

User Experience

จากมุมมองของผู้ใช้ การเปลี่ยน engine ทำให้ประสบการณ์การพัฒนาแอปพลิเคชันหรือทำการทดลองกับ LLM บนเครื่องส่วนบุคคลเป็นไปได้ง่ายขึ้น ไม่ต้องพึ่งพาเซิร์ฟเวอร์ภายนอกหรือการตั้งค่า Docker ที่ซับซ้อน การติดตั้ง Ollama พร้อม MLX engine ใช้ขั้นตอนเพียงไม่กี่ขั้นตอนผ่าน Homebrew หรือไฟล์ติดตั้งที่ให้ไว้

ผู้ใช้ยังกล่าวถึงการประหยัดพลังงานที่เห็นได้ชัด เนื่องจาก MLX ทำให้ GPU และ Neural Engine ทำงานอย่างมีประสิทธิภาพมากขึ้น ทำให้แบตเตอรี่ของ MacBook Air M5 สามารถใช้งานต่อเนื่องได้ยาวนานกว่าเดิมในขณะรัน LLM

อย่างไรก็ตาม การจำกัดที่สำคัญยังคงอยู่คือขนาดของโมเดลที่สามารถรันได้ หากต้องการใช้โมเดลที่ใหญ่กว่า 7 พันล้าน พารามิเตอร์ ผู้ใช้อาจต้องพิจารณาอัปเกรดอุปกรณ์หรือใช้คลาวด์เป็นตัวเลือกเสริม

Broader Implications

การที่ Ollama สามารถผสาน MLX เข้ากับระบบปฏิบัติการ macOS ได้อย่างเต็มที่ ชี้ให้เห็นถึงแนวโน้มของการทำ local AI ที่มีประสิทธิภาพบนอุปกรณ์ส่วนบุคคล ซึ่งอาจส่งผลต่อการลดการพึ่งพาโครงข่ายคลาวด์และเพิ่มความเป็นส่วนตัวของข้อมูลผู้ใช้

ในระดับอุตสาหกรรม การพัฒนาระบบ inference ที่ใช้ Apple Silicon อย่างเต็มที่อาจกระตุ้นให้ผู้พัฒนาโมเดลและซอฟต์แวร์ AI ปรับตัวให้รองรับสถาปัตยกรรม ARM‑based มากขึ้น นอกจากนี้ ผู้ผลิตฮาร์ดแวร์อาจเริ่มให้ความสำคัญกับการออกแบบชิปที่มี Neural Engine ที่ทรงพลังยิ่งขึ้น เพื่อตอบสนองต่อความต้องการของแอปพลิเคชัน AI บนเครื่องพกพา

การสังเกตผลลัพธ์เชิงประสิทธิภาพจากการใช้ MLX engine บน MacBook Air M5 นี้อาจเป็นสัญญาณบ่งบอกว่าการทำงานของ LLM บนอุปกรณ์ส่วนบุคคลสามารถเป็นจริงได้โดยไม่ต้องเสียสละประสิทธิภาพหรือความเสถียรของระบบ

Summary

การนำ MLX engine ของ Ollama มาใช้บน MacBook Air M5 ทำให้ประสิทธิภาพของการรัน LLM เพิ่มขึ้นประมาณสองเท่า โดยเฉพาะการตอบสนองต่อ token ลดลงและการใช้หน่วยความจำน้อยลง ผู้ใช้ที่ต้องการรันโมเดลขนาดกลางบนอุปกรณ์พกพาจะได้ประโยชน์จากการผสานเทคโนโลยี AI ของ Apple กับซอฟต์แวร์เปิด‑source อย่าง Ollama อย่างมีประสิทธิภาพ.

แชร์บทความนี้:

ชอบบทความแบบนี้?

สมัคร AI Automate Weekly Newsletter — รับเคล็ดลับ AI + how-to ใหม่
ทุกสัปดาห์ตรงถึง inbox ฟรี ไม่มีสแปม

แหล่งข่าวต้นฉบับ

ชื่อต้นฉบับ
I switched my local LLM setup to Ollama's new MLX engine, and my Mac suddenly feels twice as fast
ผู้เขียน
Anurag Singh
แหล่ง
XDA Developers
วันที่เผยแพร่
27 มิถุนายน 2569 เวลา 18:30

Related

บทความที่เกี่ยวข้อง

เปรียบเทียบเครื่องมือรัน LLM สี่ตัว พบว่า Ollama ทำงานเต็มศักยภาพAI
22 มิถุนายน 2569 เวลา 02:00

เปรียบเทียบเครื่องมือรัน LLM สี่ตัว พบว่า Ollama ทำงานเต็มศักยภาพ

ผู้เขียนทดสอบ LM Studio, Ollama, Text Generation WebUI และ llama.cpp บนคอมพิวเตอร์ระดับกลาง ผลการทดสอบพบว่า Ollama สามารถดึงศักยภาพของโมเดลได้เต็มที่ ทั้งด้าน…

XDA Developers7 นาที
AI บนเครื่องท้องถิ่นเข้าถึงง่ายขึ้น แต่ VRAM GPU ยังคงเป็นข้อจำกัดหลักAI
19 มิถุนายน 2569 เวลา 19:30

AI บนเครื่องท้องถิ่นเข้าถึงง่ายขึ้น แต่ VRAM GPU ยังคงเป็นข้อจำกัดหลัก

LM Studio และ Ollama ทำให้การรันโมเดลภาษาใหญ่บนคอมพิวเตอร์ส่วนบุคคลง่ายขึ้นโดยไม่ต้องมีความชำนาญ แม้โมเดล MoE ลดความต้องการ VRAM แต่ขนาด VRAM ของ GPU…

XDA Developers7 นาที
Sega เปิดเกมสภาพแวดล้อมเสมือนฉลอง 35 ปี Sonic พร้อมข้อตกลงฝึก AI ทำให้แฟนเกมกังวลAI
27 มิถุนายน 2569 เวลา 23:00

Sega เปิดเกมสภาพแวดล้อมเสมือนฉลอง 35 ปี Sonic พร้อมข้อตกลงฝึก AI ทำให้แฟนเกมกังวล

Sega เปิดเกมสภาพแวดล้อมเสมือนฉลองครบรอบ 35 ปี Sonic ให้ผู้เล่นลงทะเบียนและยอมรับเงื่อนไขการใช้ข้อมูลส่วนบุคคลเพื่อฝึก AI ของบริษัท…

GamesRadar6 นาที
CEO ของ Samsara ประกาศ AI จะพาอุตสาหกรรมปฏิบัติการเข้าสู่ยุคแห่งความฉลาดAI
27 มิถุนายน 2569 เวลา 05:00

CEO ของ Samsara ประกาศ AI จะพาอุตสาหกรรมปฏิบัติการเข้าสู่ยุคแห่งความฉลาด

Samsara CEO Sanjit Biswas กล่าวว่า AI จะลดงานซ้ำซากและเพิ่มประสิทธิภาพการดำเนินงานในสนาม โดยเปิดตัว Agent Studio ที่ช่วยอัตโนมัติเอกสารและการสื่อสาร…

TechRadar6 นาที
คัดลอกลิงก์แล้ว!