Microsoft เปิดเผย ASSERT เฟรมเวิร์กโอเพ่นซอร์สสำหรับประเม…

Microsoft เปิดเผย ASSERT – โครงสร้างการประเมินผล AI แบบเปิด‑ซอร์สที่แปลงข้อกำหนดเชิงภาษาธรรมชาติให้เป็นชุดทดสอบอัตโนมัติ การเปิดตัวนี้สอดคล้องกับความพยายามของบริษัทในการขยายโซลูชันการกำกับดูแล AI สำหรับองค์กร เมื่อองค์กรหลายแห่งยังขาดวิธีการตรวจสอบพฤติกรรมของเอเจนต์ AI ก่อนนำไปใช้งานจริงอย่างเป็นระบบ

Overview

Microsoft กล่าวในบล็อกโพสต์ว่า ASSERT (Adaptive Spec‑driven Scoring for Evaluation and Regression Testing) สามารถสร้างสถานการณ์การประเมินผล ชุดข้อมูล ตัวชี้วัด และสกอร์การ์ดจากสเปคที่เขียนเป็นข้อความ เช่น เอกสารข้อกำหนดผลิตภัณฑ์หรือแนวทางการกำกับดูแล การแปลงนี้ทำให้ผู้พัฒนาสามารถผสานการทดสอบเข้าไปในไพลไลน์การพัฒนา AI ได้โดยไม่ต้องสร้างสคริปต์ทดสอบด้วยมือ

บริษัทชี้ว่า “เอเจนต์มักล้มเหลวในรูปแบบที่มองไม่เห็น” เนื่องจากอาจเบี่ยงเบนจากนโยบาย ผลลัพธ์ที่ไม่ปลอดภัยในกรณีขอบ หรือพฤติกรรมที่ต่างจากการทดสอบเมื่อทำงานในสภาพแวดล้อมการผลิต การประเมินผลตามมาตรฐานทั่วไปจึงไม่สามารถจับข้อบกพร่องเหล่านี้ได้เพราะไม่ได้ออกแบบให้สอดคล้องกับนโยบายหรือกรณีการใช้ของแต่ละองค์กร

Technical Details

ASSERT ใช้โมเดลภาษาใหญ่เป็นผู้ตัดสินผลการประเมิน โดย Microsoft รายงานว่าการประเมินของโมเดลสอดคล้องกับผู้ตรวจสอบมนุษย์ในระดับ **80%‑90% ตามการตรวจสอบภายในของบริษัท ระดับความสอดคล้องนี้ช่วยให้สามารถอัตโนมัติการทดสอบส่วนใหญ่ได้ แต่ยังคงต้องมีการควบคุมจากมนุษย์ในกรณีที่มีความเสี่ยงสูงหรือสถานการณ์ที่ซับซ้อน

เฟรมเวิร์กนี้ถูกปล่อยภายใต้ MIT license ทำให้องค์กรสามารถตรวจสอบ แก้ไข และรวมเข้ากับกระบวนการพัฒนา AI ที่มีอยู่ได้อย่างอิสระ การเปิดซอร์สยังช่วยลดความกังวลเรื่องการล็อกอินกับผู้ให้บริการเดียว แต่ไม่อาจขจัดปัญหาความเป็นกลางของการประเมินได้ทั้งหมด

Market Landscape

การเปิดตัว ASSERT ทำให้ Microsoft เข้าสู่ตลาดโซลูชันการประเมินผล AI ที่กำลังเติบโตอย่างรวดเร็ว ปัจจุบันมีผู้ให้บริการหลายรายที่เสนอแพลตฟอร์มคล้ายคลึงกันเพื่อช่วยองค์กรทำการทดสอบและตรวจสอบโมเดลภาษาใหญ่ ได้แก่

LangChain’s LangSmith
Braintrust
Patronus AI
Galileo
Arize AI’s Phoenix
Promptfoo

แต่ละแพลตฟอร์มต่างเน้นการสร้างเกณฑ์การวัดผล การเฝ้าติดตาม และการเปรียบเทียบผลลัพธ์ของโมเดลตามความต้องการของผู้ใช้

Adoption & Challenges

ตามข้อมูลจาก Gartner, 99% ขององค์กรยังไม่ได้ทำการประเมินเอเจนต์ AI ก่อนการผลิต ความล่าช้าในการนำมาตรฐานการทดสอบเข้ามาใช้ทำให้เกิดความเสี่ยงต่อการล้มเหลวของระบบในอุตสาหกรรมที่ต้องการการควบคุมที่เข้มงวด Gartner คาดว่าโดย 2029 มากกว่า 75% ของเอเจนต์เฉพาะโดเมนที่พัฒนาขึ้นโดยไม่มีการจำลองสถานการณ์จะไม่สร้างคุณค่าให้กับองค์กร

Forrester รายงานว่า 45% ขององค์กรใช้เอเจนต์ AI อยู่แล้ว และอีก 25% อยู่ในขั้นตอนทดลองใช้ อย่างไรก็ตามหลายองค์กรยังประสบปัญหาในการขยายการใช้งานเนื่องจากการกำกับดูแลที่ยังไม่เต็มรูปแบบและกระบวนการดำเนินการที่ขาดความเป็นมาตรฐาน

Governance Implications

ผู้เชี่ยวชาญของ Forrester ชี้ว่าการใช้โมเดลเป็นผู้ตรวจสอบอาจให้ผลสอดคล้องกับผู้ตรวจสอบมนุษย์ในระดับ **80%‑90% แต่ไม่ควรพึ่งพาเป็นเครื่องมือการกำกับดูแลหรือการปฏิบัติตามกฎระเบียบเพียงอย่างเดียว ควรมีการควบคุมระดับหลายชั้นโดยมนุษย์ยังคงรับผิดชอบต่อกรณีที่มีความเสี่ยงหรือความไม่แน่นอน

การเปิดซอร์สของ ASSERT ภายใต้ MIT license ช่วยลดความกังวลเรื่องการล็อกอินกับผู้ให้บริการเดียวและส่งเสริมการทำงานร่วมกับระบบโมเดลหลากหลายรูปแบบ อย่างไรก็ตาม ความเป็นกลางของเกณฑ์การประเมินยังคงขึ้นกับการออกแบบของผู้พัฒนาเฟรมเวิร์ก ผู้ใช้จึงควรตรวจสอบและกำหนดนโยบายภายในของตนเองพร้อมกับใช้เครื่องมือหลายชุดเพื่อยืนยันผลการประเมิน

Summary

Microsoft ปล่อย ASSERT เป็นเฟรมเวิร์กการประเมินผล AI แบบเปิด‑ซอร์สที่แปลงข้อกำหนดเป็นชุดทดสอบอัตโนมัติ เพื่อตอบสนองความต้องการขององค์กรที่ยังขาดการตรวจสอบเอเจนต์ AI อย่างเป็นระบบ แม้การเปิดซอร์สจะลดความเสี่ยงเรื่องการล็อกอิน แต่การกำกับดูแลที่มีประสิทธิภาพยังคงต้องอาศัยการตรวจสอบหลายชั้นและการกำหนดนโยบายภายในของแต่ละองค์กร.