
ที่มาภาพ: InfoWorld
Microsoft เปิดเผย ASSERT เฟรมเวิร์กโอเพ่นซอร์สสำหรับประเม…
⚡ สรุป 30 วิ
Microsoft เปิดตัวเฟรมเวิร์กโอเพ่นซอร์ส ASSERT ที่แปลงข้อกำหนดเป็นชุดทดสอบอัตโนมัติ ช่วยองค์กรตรวจสอบเอเจนต์ AI ก่อนใช้งานจริง แม้ผลสอดคล้องกับผู้ตรวจสอบมนุษย์…
Microsoft เปิดเผย ASSERT – โครงสร้างการประเมินผล AI แบบเปิด‑ซอร์สที่แปลงข้อกำหนดเชิงภาษาธรรมชาติให้เป็นชุดทดสอบอัตโนมัติ การเปิดตัวนี้สอดคล้องกับความพยายามของบริษัทในการขยายโซลูชันการกำกับดูแล AI สำหรับองค์กร เมื่อองค์กรหลายแห่งยังขาดวิธีการตรวจสอบพฤติกรรมของเอเจนต์ AI ก่อนนำไปใช้งานจริงอย่างเป็นระบบ
Overview
Microsoft กล่าวในบล็อกโพสต์ว่า ASSERT (Adaptive Spec‑driven Scoring for Evaluation and Regression Testing) สามารถสร้างสถานการณ์การประเมินผล ชุดข้อมูล ตัวชี้วัด และสกอร์การ์ดจากสเปคที่เขียนเป็นข้อความ เช่น เอกสารข้อกำหนดผลิตภัณฑ์หรือแนวทางการกำกับดูแล การแปลงนี้ทำให้ผู้พัฒนาสามารถผสานการทดสอบเข้าไปในไพลไลน์การพัฒนา AI ได้โดยไม่ต้องสร้างสคริปต์ทดสอบด้วยมือ
บริษัทชี้ว่า “เอเจนต์มักล้มเหลวในรูปแบบที่มองไม่เห็น” เนื่องจากอาจเบี่ยงเบนจากนโยบาย ผลลัพธ์ที่ไม่ปลอดภัยในกรณีขอบ หรือพฤติกรรมที่ต่างจากการทดสอบเมื่อทำงานในสภาพแวดล้อมการผลิต การประเมินผลตามมาตรฐานทั่วไปจึงไม่สามารถจับข้อบกพร่องเหล่านี้ได้เพราะไม่ได้ออกแบบให้สอดคล้องกับนโยบายหรือกรณีการใช้ของแต่ละองค์กร
Technical Details
ASSERT ใช้โมเดลภาษาใหญ่เป็นผู้ตัดสินผลการประเมิน โดย Microsoft รายงานว่าการประเมินของโมเดลสอดคล้องกับผู้ตรวจสอบมนุษย์ในระดับ **80%‑90% ตามการตรวจสอบภายในของบริษัท ระดับความสอดคล้องนี้ช่วยให้สามารถอัตโนมัติการทดสอบส่วนใหญ่ได้ แต่ยังคงต้องมีการควบคุมจากมนุษย์ในกรณีที่มีความเสี่ยงสูงหรือสถานการณ์ที่ซับซ้อน
เฟรมเวิร์กนี้ถูกปล่อยภายใต้ MIT license ทำให้องค์กรสามารถตรวจสอบ แก้ไข และรวมเข้ากับกระบวนการพัฒนา AI ที่มีอยู่ได้อย่างอิสระ การเปิดซอร์สยังช่วยลดความกังวลเรื่องการล็อกอินกับผู้ให้บริการเดียว แต่ไม่อาจขจัดปัญหาความเป็นกลางของการประเมินได้ทั้งหมด
Market Landscape
การเปิดตัว ASSERT ทำให้ Microsoft เข้าสู่ตลาดโซลูชันการประเมินผล AI ที่กำลังเติบโตอย่างรวดเร็ว ปัจจุบันมีผู้ให้บริการหลายรายที่เสนอแพลตฟอร์มคล้ายคลึงกันเพื่อช่วยองค์กรทำการทดสอบและตรวจสอบโมเดลภาษาใหญ่ ได้แก่
- LangChain’s LangSmith
- Braintrust
- Patronus AI
- Galileo
- Arize AI’s Phoenix
- Promptfoo
แต่ละแพลตฟอร์มต่างเน้นการสร้างเกณฑ์การวัดผล การเฝ้าติดตาม และการเปรียบเทียบผลลัพธ์ของโมเดลตามความต้องการของผู้ใช้
Adoption & Challenges
ตามข้อมูลจาก Gartner, 99% ขององค์กรยังไม่ได้ทำการประเมินเอเจนต์ AI ก่อนการผลิต ความล่าช้าในการนำมาตรฐานการทดสอบเข้ามาใช้ทำให้เกิดความเสี่ยงต่อการล้มเหลวของระบบในอุตสาหกรรมที่ต้องการการควบคุมที่เข้มงวด Gartner คาดว่าโดย 2029 มากกว่า 75% ของเอเจนต์เฉพาะโดเมนที่พัฒนาขึ้นโดยไม่มีการจำลองสถานการณ์จะไม่สร้างคุณค่าให้กับองค์กร
Forrester รายงานว่า 45% ขององค์กรใช้เอเจนต์ AI อยู่แล้ว และอีก 25% อยู่ในขั้นตอนทดลองใช้ อย่างไรก็ตามหลายองค์กรยังประสบปัญหาในการขยายการใช้งานเนื่องจากการกำกับดูแลที่ยังไม่เต็มรูปแบบและกระบวนการดำเนินการที่ขาดความเป็นมาตรฐาน
Governance Implications
ผู้เชี่ยวชาญของ Forrester ชี้ว่าการใช้โมเดลเป็นผู้ตรวจสอบอาจให้ผลสอดคล้องกับผู้ตรวจสอบมนุษย์ในระดับ **80%‑90% แต่ไม่ควรพึ่งพาเป็นเครื่องมือการกำกับดูแลหรือการปฏิบัติตามกฎระเบียบเพียงอย่างเดียว ควรมีการควบคุมระดับหลายชั้นโดยมนุษย์ยังคงรับผิดชอบต่อกรณีที่มีความเสี่ยงหรือความไม่แน่นอน
การเปิดซอร์สของ ASSERT ภายใต้ MIT license ช่วยลดความกังวลเรื่องการล็อกอินกับผู้ให้บริการเดียวและส่งเสริมการทำงานร่วมกับระบบโมเดลหลากหลายรูปแบบ อย่างไรก็ตาม ความเป็นกลางของเกณฑ์การประเมินยังคงขึ้นกับการออกแบบของผู้พัฒนาเฟรมเวิร์ก ผู้ใช้จึงควรตรวจสอบและกำหนดนโยบายภายในของตนเองพร้อมกับใช้เครื่องมือหลายชุดเพื่อยืนยันผลการประเมิน
Summary
Microsoft ปล่อย ASSERT เป็นเฟรมเวิร์กการประเมินผล AI แบบเปิด‑ซอร์สที่แปลงข้อกำหนดเป็นชุดทดสอบอัตโนมัติ เพื่อตอบสนองความต้องการขององค์กรที่ยังขาดการตรวจสอบเอเจนต์ AI อย่างเป็นระบบ แม้การเปิดซอร์สจะลดความเสี่ยงเรื่องการล็อกอิน แต่การกำกับดูแลที่มีประสิทธิภาพยังคงต้องอาศัยการตรวจสอบหลายชั้นและการกำหนดนโยบายภายในของแต่ละองค์กร.
แชร์บทความนี้:
ชอบบทความแบบนี้?
สมัคร AI Automate Weekly Newsletter — รับเคล็ดลับ AI + how-to ใหม่
ทุกสัปดาห์ตรงถึง inbox ฟรี ไม่มีสแปม
แหล่งข่าวต้นฉบับ
- ชื่อต้นฉบับ
- Microsoft open sources AI evaluation framework for enterprise agents
- ผู้เขียน
- Unknown
- แหล่ง
- InfoWorld
- วันที่เผยแพร่
- 11 มิถุนายน 2569 เวลา 19:36



