Google เปิดตัว Gemini 3.5 Live Translate แปลเสียงแบบเรียล…

ที่มาภาพ: Ars Technica

AI-อ่าน 6 นาทีArs Technica

Google เปิดตัว Gemini 3.5 Live Translate แปลเสียงแบบเรียล…

⚡ สรุป 30 วิ

Google เปิดตัว Gemini 3.5 Live Translate โมเดลแปลเสียง‑เป็น‑เสียงแบบเรียลไทม์ รองรับกว่า 70 ภาษาและลด latency เหลือไม่กี่วินาที รุ่น Flash พร้อมทดลองใช้ในแอป…

Google เพิ่งเปิดตัว Gemini 3.5 Live Translate ซึ่งเป็นโมเดลแปลเสียง‑เป็น‑เสียงแบบเรียลไทม์ใหม่ล่าสุดของบริษัท การเปิดตัวนี้เพิ่มความเร็วและความคล่องตัวของการแปลหลายภาษา ทำให้ผู้ใช้สามารถสนทนาได้โดยไม่ต้องรอคอยหลายวินาทีและเป็นก้าวสำคัญต่อการทำให้การสื่อสารข้ามภาษากลายเป็นเรื่องธรรมชาติยิ่งขึ้น

Overview

Google ได้มุ่งเน้นการพัฒนาเทคโนโลยีแปลแบบเรียลไทม์มาหลายปี โดยอ้างว่าเป็นหนึ่งใน “การทดลองแมชชีนเลิร์นนิงเชิงบุกเบิก” ของบริษัทที่ผ่านมา การสาธิตครั้งแรกมักต้องอาศัยอุปกรณ์เฉพาะของ Google เช่น สมาร์ทโฟนรุ่นพิเศษหรือหูฟังไร้สาย ซึ่งทำให้การเข้าถึงเทคโนโลยีนี้ยังคงจำกัดอยู่ในกลุ่มผู้ใช้ที่มีอุปกรณ์ของ Google

เมื่อปีที่ผ่านมา Google ได้นำฟีเจอร์แปลแบบเรียลไทม์เข้าสู่แอป Google Translate อย่างกว้างขวาง ทำให้ผู้ใช้บนระบบปฏิบัติการหลายแพลตฟอร์มสามารถใช้งานได้โดยไม่ต้องพึ่งพาอุปกรณ์เฉพาะ รุ่นใหม่ Gemini 3.5 Live Translate จะต่อยอดจากความสำเร็จนั้น โดยให้บริการแปลเสียง‑เป็น‑เสียงใน กว่า 70 ภาษา พร้อมความหน่วงเวลา (latency) ที่ลดลงอย่างมีนัยสำคัญ

Technical Details

Gemini 3.5 Live Translate เป็นโมเดล speech‑to‑speech ที่ถูกปรับจูนให้สามารถตรวจจับภาษาโดยอัตโนมัติและแปลได้ทันที โมเดลนี้เป็นส่วนหนึ่งของตระกูลเวอร์ชัน 3.5 ที่เปิดตัวครั้งแรกที่งาน Google I/O ทำให้มีการอัปเดตโครงสร้างพื้นฐานด้านการประมวลผลเสียงและการเรียนรู้เชิงลึกที่รองรับการแปลหลายภาษาแบบพร้อมกัน

Google ระบุว่าโมเดลนี้สามารถตาม intonation, pacing, และ pitch ของผู้พูดได้อย่างแม่นยำ ทำให้เสียงที่แปลออกมาฟังดูคล้ายกับเสียงของผู้พูดต้นฉบับมากกว่าการเป็นเสียงหุ่นยนต์ทั่วไป การจับคู่โทนเสียงเช่นนี้ช่วยลดการทำลายประสบการณ์การสนทนาที่อาจเกิดจากการแปลที่ไม่เป็นธรรมชาติ

Availability & Roadmap

จนถึงขณะนี้ Google ได้ปล่อย รุ่น Flash ของ Gemini 3.5 Live Translate ให้ผู้ใช้ทดลองใช้ในสภาพแวดล้อมที่ควบคุมแล้ว ส่วน รุ่น Pro คาดว่าจะเปิดตัวในไม่กี่สัปดาห์ข้างหน้า ตามแผนของบริษัทที่จะขยายการเข้าถึงฟีเจอร์นี้ให้ครอบคลุมอุปกรณ์และระบบปฏิบัติการหลากหลาย

  • รุ่น Flash – เปิดให้ทดลองใช้ในแอป Translate และอุปกรณ์บางรุ่นของ Google
  • รุ่น Pro (คาดการณ์) – จะเพิ่มประสิทธิภาพด้าน latency และรองรับภาษาเพิ่มเติม

การเปิดตัวในรูปแบบหลายขั้นตอนนี้สอดคล้องกับแนวทางของ Google ที่มักทำการทดสอบฟีเจอร์ใหม่ในกลุ่มผู้ใช้จำกัดก่อนขยายสู่ตลาดกว้าง

Performance Evaluation

การสาธิตที่เผยแพร่โดย Google แสดงให้เห็นว่าโมเดลสามารถทำงานตามจังหวะการสนทนาปกติได้โดยมีการล่าช้าเพียงไม่กี่วินาทีหลังจากผู้พูดจบประโยค นอกจากนี้ยังสามารถรักษา intonation ของผู้พูดได้อย่างต่อเนื่อง แม้ในสภาพแวดล้อมเสียงรบกวนระดับปานกลาง ซึ่งเป็นการปรับปรุงที่สำคัญเมื่อเทียบกับเวอร์ชันก่อนหน้า

อย่างไรก็ตาม การประเมินผลภายใต้สภาพแวดล้อมจริงอาจเปิดเผยข้อจำกัดเพิ่มเติม เช่น ความแม่นยำของการตรวจจับภาษาในสำเนียงท้องถิ่นหรือการจัดการกับคำที่ไม่มีในฐานข้อมูลของโมเดล ทั้งนี้ Google ได้เชิญชวนให้ผู้ใช้ทดลองและให้ข้อเสนอแนะเพื่อพัฒนาเวอร์ชันต่อไป

Implications

การเปิดตัว Gemini 3.5 Live Translate มีศักยภาพที่จะเปลี่ยนวิธีการสื่อสารระหว่างภาษาต่าง ๆ ในหลายภาคส่วน ตั้งแต่การเดินทางระหว่างประเทศ การทำธุรกิจข้ามพรมแดน ไปจนถึงการให้บริการด้านสุขภาพที่ต้องการการสื่อสารที่แม่นยำและรวดเร็ว การลด latency และการจับเสียงให้เป็นธรรมชาติอาจทำให้ผู้ใช้รับรู้ว่าการแปลเป็น “ส่วนหนึ่งของการสนทนา” มากกว่าการแทรกแซง

ในระดับการแข่งขัน การพัฒนานี้ทำให้ Google ยังคงครองตำแหน่งผู้นำในตลาดแปลภาษา AI เมื่อเทียบกับผู้เล่นอื่น ๆ เช่น Microsoft Translator หรือบริษัทสตาร์ตอัพที่มุ่งเน้นการแปลแบบเรียลไทม์ ความก้าวหน้าในด้าน speech‑to‑speech ของ Google อาจเร่งให้ผู้พัฒนาแอปพลิเคชันอื่น ๆ ต้องเร่งพัฒนาเทคโนโลยีที่คล้ายคลึงเพื่อไม่ให้ตกอยู่ในความล่าช้า

Summary

Google เปิดตัว Gemini 3.5 Live Translate เป็นโมเดลแปลเสียง‑เป็น‑เสียงที่รองรับกว่า 70 ภาษาและมี latency ที่ลดลงอย่างมาก การเปิดตัวนี้เป็นการต่อยอดจากเวอร์ชัน Flash ปัจจุบันและคาดว่าจะมีรุ่น Pro เพิ่มประสิทธิภาพในเร็ว ๆ นี้ ซึ่งอาจส่งผลต่อการสื่อสารข้ามภาษาทั้งในชีวิตประจำวันและภาคธุรกิจ.

แชร์บทความนี้:

ชอบบทความแบบนี้?

สมัคร AI Automate Weekly Newsletter — รับเคล็ดลับ AI + how-to ใหม่
ทุกสัปดาห์ตรงถึง inbox ฟรี ไม่มีสแปม

แหล่งข่าวต้นฉบับ

ชื่อต้นฉบับ
Google announces Gemini 3.5 Live Translate for instant voice-to-voice translation
ผู้เขียน
Ryan Whitwam
แหล่ง
Ars Technica
วันที่เผยแพร่
10 มิถุนายน 2569 เวลา 01:57

Related

บทความที่เกี่ยวข้อง

ทดสอบอัปเดตใหญ่ของ NotebookLM 3 รายการและการยกเลิกฟีเจอร์…AI
15 มิถุนายน 2569 เวลา 21:30

ทดสอบอัปเดตใหญ่ของ NotebookLM 3 รายการและการยกเลิกฟีเจอร์…

NotebookLM ยังคงเป็น AI ช่วยวิจัยยอดนิยม ด้วยอัปเดต UI การสรุปแม่นยำขึ้นและความเร็วในการจัดการข้อมูล การยกเลิกฟีเจอร์เสียงแม้เงียบแต่เปลี่ยนวิธีใช้มาก

XDA Developers6 นาที
เกมอินดี้ต้องสร้าง Prototype ให้ดี มิใช่พึ่ง AI เพื่อรับเ…AI
15 มิถุนายน 2569 เวลา 17:00

เกมอินดี้ต้องสร้าง Prototype ให้ดี มิใช่พึ่ง AI เพื่อรับเ…

การสร้าง prototype เป็นขั้นตอนสำคัญเพื่อให้ผู้จัดพิมพ์พิจารณาการลงทุน แต่การใช้ AI อย่างเร่งรีบอาจทำให้เกมสูญเสียเอกลักษณ์และความน่าเชื่อถือ ตามที่ผู้แทนจาก…

Rock Paper Shotgun7 นาที
สหรัฐอเมริกาบังคับ Anthropic ระงับโมเดล AI ชั้นนำทันทีAI
15 มิถุนายน 2569 เวลา 14:00

สหรัฐอเมริกาบังคับ Anthropic ระงับโมเดล AI ชั้นนำทันที

รัฐบาลสหรัฐออกคำสั่งฉุกเฉินให้ Anthropic ปิดให้บริการโมเดล AI Fable 5 และ Mythos 5 ทั้งหมด เนื่องจากความกังวลเรื่องความปลอดภัยระดับชาติและช่องโหว่ jailbreak…

Android Authority6 นาที
ให้ LLM ภายในเครื่องเข้าถึง Docker แล้วสคริปต์มอนิเตอร์ถู…AI
15 มิถุนายน 2569 เวลา 05:00

ให้ LLM ภายในเครื่องเข้าถึง Docker แล้วสคริปต์มอนิเตอร์ถู…

ผู้ใช้ให้ Local LLM เข้าถึง Docker เพื่อสร้างสคริปต์มอนิเตอร์อัตโนมัติ แต่ค่าใช้จ่ายสูง, ความเป็นส่วนตัวเสี่ยง, และผลลัพธ์ไม่แม่นยำ…

XDA Developers8 นาที
คัดลอกลิงก์แล้ว!