
ที่มาภาพ: Ars Technica
Google เปิดตัว Gemini 3.5 Live Translate แปลเสียงแบบเรียล…
⚡ สรุป 30 วิ
Google เปิดตัว Gemini 3.5 Live Translate โมเดลแปลเสียง‑เป็น‑เสียงแบบเรียลไทม์ รองรับกว่า 70 ภาษาและลด latency เหลือไม่กี่วินาที รุ่น Flash พร้อมทดลองใช้ในแอป…
Google เพิ่งเปิดตัว Gemini 3.5 Live Translate ซึ่งเป็นโมเดลแปลเสียง‑เป็น‑เสียงแบบเรียลไทม์ใหม่ล่าสุดของบริษัท การเปิดตัวนี้เพิ่มความเร็วและความคล่องตัวของการแปลหลายภาษา ทำให้ผู้ใช้สามารถสนทนาได้โดยไม่ต้องรอคอยหลายวินาทีและเป็นก้าวสำคัญต่อการทำให้การสื่อสารข้ามภาษากลายเป็นเรื่องธรรมชาติยิ่งขึ้น
Overview
Google ได้มุ่งเน้นการพัฒนาเทคโนโลยีแปลแบบเรียลไทม์มาหลายปี โดยอ้างว่าเป็นหนึ่งใน “การทดลองแมชชีนเลิร์นนิงเชิงบุกเบิก” ของบริษัทที่ผ่านมา การสาธิตครั้งแรกมักต้องอาศัยอุปกรณ์เฉพาะของ Google เช่น สมาร์ทโฟนรุ่นพิเศษหรือหูฟังไร้สาย ซึ่งทำให้การเข้าถึงเทคโนโลยีนี้ยังคงจำกัดอยู่ในกลุ่มผู้ใช้ที่มีอุปกรณ์ของ Google
เมื่อปีที่ผ่านมา Google ได้นำฟีเจอร์แปลแบบเรียลไทม์เข้าสู่แอป Google Translate อย่างกว้างขวาง ทำให้ผู้ใช้บนระบบปฏิบัติการหลายแพลตฟอร์มสามารถใช้งานได้โดยไม่ต้องพึ่งพาอุปกรณ์เฉพาะ รุ่นใหม่ Gemini 3.5 Live Translate จะต่อยอดจากความสำเร็จนั้น โดยให้บริการแปลเสียง‑เป็น‑เสียงใน กว่า 70 ภาษา พร้อมความหน่วงเวลา (latency) ที่ลดลงอย่างมีนัยสำคัญ
Technical Details
Gemini 3.5 Live Translate เป็นโมเดล speech‑to‑speech ที่ถูกปรับจูนให้สามารถตรวจจับภาษาโดยอัตโนมัติและแปลได้ทันที โมเดลนี้เป็นส่วนหนึ่งของตระกูลเวอร์ชัน 3.5 ที่เปิดตัวครั้งแรกที่งาน Google I/O ทำให้มีการอัปเดตโครงสร้างพื้นฐานด้านการประมวลผลเสียงและการเรียนรู้เชิงลึกที่รองรับการแปลหลายภาษาแบบพร้อมกัน
Google ระบุว่าโมเดลนี้สามารถตาม intonation, pacing, และ pitch ของผู้พูดได้อย่างแม่นยำ ทำให้เสียงที่แปลออกมาฟังดูคล้ายกับเสียงของผู้พูดต้นฉบับมากกว่าการเป็นเสียงหุ่นยนต์ทั่วไป การจับคู่โทนเสียงเช่นนี้ช่วยลดการทำลายประสบการณ์การสนทนาที่อาจเกิดจากการแปลที่ไม่เป็นธรรมชาติ
Availability & Roadmap
จนถึงขณะนี้ Google ได้ปล่อย รุ่น Flash ของ Gemini 3.5 Live Translate ให้ผู้ใช้ทดลองใช้ในสภาพแวดล้อมที่ควบคุมแล้ว ส่วน รุ่น Pro คาดว่าจะเปิดตัวในไม่กี่สัปดาห์ข้างหน้า ตามแผนของบริษัทที่จะขยายการเข้าถึงฟีเจอร์นี้ให้ครอบคลุมอุปกรณ์และระบบปฏิบัติการหลากหลาย
- รุ่น Flash – เปิดให้ทดลองใช้ในแอป Translate และอุปกรณ์บางรุ่นของ Google
- รุ่น Pro (คาดการณ์) – จะเพิ่มประสิทธิภาพด้าน latency และรองรับภาษาเพิ่มเติม
การเปิดตัวในรูปแบบหลายขั้นตอนนี้สอดคล้องกับแนวทางของ Google ที่มักทำการทดสอบฟีเจอร์ใหม่ในกลุ่มผู้ใช้จำกัดก่อนขยายสู่ตลาดกว้าง
Performance Evaluation
การสาธิตที่เผยแพร่โดย Google แสดงให้เห็นว่าโมเดลสามารถทำงานตามจังหวะการสนทนาปกติได้โดยมีการล่าช้าเพียงไม่กี่วินาทีหลังจากผู้พูดจบประโยค นอกจากนี้ยังสามารถรักษา intonation ของผู้พูดได้อย่างต่อเนื่อง แม้ในสภาพแวดล้อมเสียงรบกวนระดับปานกลาง ซึ่งเป็นการปรับปรุงที่สำคัญเมื่อเทียบกับเวอร์ชันก่อนหน้า
อย่างไรก็ตาม การประเมินผลภายใต้สภาพแวดล้อมจริงอาจเปิดเผยข้อจำกัดเพิ่มเติม เช่น ความแม่นยำของการตรวจจับภาษาในสำเนียงท้องถิ่นหรือการจัดการกับคำที่ไม่มีในฐานข้อมูลของโมเดล ทั้งนี้ Google ได้เชิญชวนให้ผู้ใช้ทดลองและให้ข้อเสนอแนะเพื่อพัฒนาเวอร์ชันต่อไป
Implications
การเปิดตัว Gemini 3.5 Live Translate มีศักยภาพที่จะเปลี่ยนวิธีการสื่อสารระหว่างภาษาต่าง ๆ ในหลายภาคส่วน ตั้งแต่การเดินทางระหว่างประเทศ การทำธุรกิจข้ามพรมแดน ไปจนถึงการให้บริการด้านสุขภาพที่ต้องการการสื่อสารที่แม่นยำและรวดเร็ว การลด latency และการจับเสียงให้เป็นธรรมชาติอาจทำให้ผู้ใช้รับรู้ว่าการแปลเป็น “ส่วนหนึ่งของการสนทนา” มากกว่าการแทรกแซง
ในระดับการแข่งขัน การพัฒนานี้ทำให้ Google ยังคงครองตำแหน่งผู้นำในตลาดแปลภาษา AI เมื่อเทียบกับผู้เล่นอื่น ๆ เช่น Microsoft Translator หรือบริษัทสตาร์ตอัพที่มุ่งเน้นการแปลแบบเรียลไทม์ ความก้าวหน้าในด้าน speech‑to‑speech ของ Google อาจเร่งให้ผู้พัฒนาแอปพลิเคชันอื่น ๆ ต้องเร่งพัฒนาเทคโนโลยีที่คล้ายคลึงเพื่อไม่ให้ตกอยู่ในความล่าช้า
Summary
Google เปิดตัว Gemini 3.5 Live Translate เป็นโมเดลแปลเสียง‑เป็น‑เสียงที่รองรับกว่า 70 ภาษาและมี latency ที่ลดลงอย่างมาก การเปิดตัวนี้เป็นการต่อยอดจากเวอร์ชัน Flash ปัจจุบันและคาดว่าจะมีรุ่น Pro เพิ่มประสิทธิภาพในเร็ว ๆ นี้ ซึ่งอาจส่งผลต่อการสื่อสารข้ามภาษาทั้งในชีวิตประจำวันและภาคธุรกิจ.
แชร์บทความนี้:
ชอบบทความแบบนี้?
สมัคร AI Automate Weekly Newsletter — รับเคล็ดลับ AI + how-to ใหม่
ทุกสัปดาห์ตรงถึง inbox ฟรี ไม่มีสแปม
แหล่งข่าวต้นฉบับ
- ชื่อต้นฉบับ
- Google announces Gemini 3.5 Live Translate for instant voice-to-voice translation
- ผู้เขียน
- Ryan Whitwam
- แหล่ง
- Ars Technica
- วันที่เผยแพร่
- 10 มิถุนายน 2569 เวลา 01:57



