Microsoft เปิดเผย ASSERT เฟรมเวิร์กโอเพ่นซอร์สสำหรับประเม…

ที่มาภาพ: InfoWorld

AI-อ่าน 6 นาทีInfoWorld

Microsoft เปิดเผย ASSERT เฟรมเวิร์กโอเพ่นซอร์สสำหรับประเม…

⚡ สรุป 30 วิ

Microsoft เปิดตัวเฟรมเวิร์กโอเพ่นซอร์ส ASSERT ที่แปลงข้อกำหนดเป็นชุดทดสอบอัตโนมัติ ช่วยองค์กรตรวจสอบเอเจนต์ AI ก่อนใช้งานจริง แม้ผลสอดคล้องกับผู้ตรวจสอบมนุษย์…

Microsoft เปิดเผย ASSERT – โครงสร้างการประเมินผล AI แบบเปิด‑ซอร์สที่แปลงข้อกำหนดเชิงภาษาธรรมชาติให้เป็นชุดทดสอบอัตโนมัติ การเปิดตัวนี้สอดคล้องกับความพยายามของบริษัทในการขยายโซลูชันการกำกับดูแล AI สำหรับองค์กร เมื่อองค์กรหลายแห่งยังขาดวิธีการตรวจสอบพฤติกรรมของเอเจนต์ AI ก่อนนำไปใช้งานจริงอย่างเป็นระบบ

Overview

Microsoft กล่าวในบล็อกโพสต์ว่า ASSERT (Adaptive Spec‑driven Scoring for Evaluation and Regression Testing) สามารถสร้างสถานการณ์การประเมินผล ชุดข้อมูล ตัวชี้วัด และสกอร์การ์ดจากสเปคที่เขียนเป็นข้อความ เช่น เอกสารข้อกำหนดผลิตภัณฑ์หรือแนวทางการกำกับดูแล การแปลงนี้ทำให้ผู้พัฒนาสามารถผสานการทดสอบเข้าไปในไพลไลน์การพัฒนา AI ได้โดยไม่ต้องสร้างสคริปต์ทดสอบด้วยมือ

บริษัทชี้ว่า “เอเจนต์มักล้มเหลวในรูปแบบที่มองไม่เห็น” เนื่องจากอาจเบี่ยงเบนจากนโยบาย ผลลัพธ์ที่ไม่ปลอดภัยในกรณีขอบ หรือพฤติกรรมที่ต่างจากการทดสอบเมื่อทำงานในสภาพแวดล้อมการผลิต การประเมินผลตามมาตรฐานทั่วไปจึงไม่สามารถจับข้อบกพร่องเหล่านี้ได้เพราะไม่ได้ออกแบบให้สอดคล้องกับนโยบายหรือกรณีการใช้ของแต่ละองค์กร

Technical Details

ASSERT ใช้โมเดลภาษาใหญ่เป็นผู้ตัดสินผลการประเมิน โดย Microsoft รายงานว่าการประเมินของโมเดลสอดคล้องกับผู้ตรวจสอบมนุษย์ในระดับ **80%‑90% ตามการตรวจสอบภายในของบริษัท ระดับความสอดคล้องนี้ช่วยให้สามารถอัตโนมัติการทดสอบส่วนใหญ่ได้ แต่ยังคงต้องมีการควบคุมจากมนุษย์ในกรณีที่มีความเสี่ยงสูงหรือสถานการณ์ที่ซับซ้อน

เฟรมเวิร์กนี้ถูกปล่อยภายใต้ MIT license ทำให้องค์กรสามารถตรวจสอบ แก้ไข และรวมเข้ากับกระบวนการพัฒนา AI ที่มีอยู่ได้อย่างอิสระ การเปิดซอร์สยังช่วยลดความกังวลเรื่องการล็อกอินกับผู้ให้บริการเดียว แต่ไม่อาจขจัดปัญหาความเป็นกลางของการประเมินได้ทั้งหมด

Market Landscape

การเปิดตัว ASSERT ทำให้ Microsoft เข้าสู่ตลาดโซลูชันการประเมินผล AI ที่กำลังเติบโตอย่างรวดเร็ว ปัจจุบันมีผู้ให้บริการหลายรายที่เสนอแพลตฟอร์มคล้ายคลึงกันเพื่อช่วยองค์กรทำการทดสอบและตรวจสอบโมเดลภาษาใหญ่ ได้แก่

  • LangChain’s LangSmith
  • Braintrust
  • Patronus AI
  • Galileo
  • Arize AI’s Phoenix
  • Promptfoo

แต่ละแพลตฟอร์มต่างเน้นการสร้างเกณฑ์การวัดผล การเฝ้าติดตาม และการเปรียบเทียบผลลัพธ์ของโมเดลตามความต้องการของผู้ใช้

Adoption & Challenges

ตามข้อมูลจาก Gartner, 99% ขององค์กรยังไม่ได้ทำการประเมินเอเจนต์ AI ก่อนการผลิต ความล่าช้าในการนำมาตรฐานการทดสอบเข้ามาใช้ทำให้เกิดความเสี่ยงต่อการล้มเหลวของระบบในอุตสาหกรรมที่ต้องการการควบคุมที่เข้มงวด Gartner คาดว่าโดย 2029 มากกว่า 75% ของเอเจนต์เฉพาะโดเมนที่พัฒนาขึ้นโดยไม่มีการจำลองสถานการณ์จะไม่สร้างคุณค่าให้กับองค์กร

Forrester รายงานว่า 45% ขององค์กรใช้เอเจนต์ AI อยู่แล้ว และอีก 25% อยู่ในขั้นตอนทดลองใช้ อย่างไรก็ตามหลายองค์กรยังประสบปัญหาในการขยายการใช้งานเนื่องจากการกำกับดูแลที่ยังไม่เต็มรูปแบบและกระบวนการดำเนินการที่ขาดความเป็นมาตรฐาน

Governance Implications

ผู้เชี่ยวชาญของ Forrester ชี้ว่าการใช้โมเดลเป็นผู้ตรวจสอบอาจให้ผลสอดคล้องกับผู้ตรวจสอบมนุษย์ในระดับ **80%‑90% แต่ไม่ควรพึ่งพาเป็นเครื่องมือการกำกับดูแลหรือการปฏิบัติตามกฎระเบียบเพียงอย่างเดียว ควรมีการควบคุมระดับหลายชั้นโดยมนุษย์ยังคงรับผิดชอบต่อกรณีที่มีความเสี่ยงหรือความไม่แน่นอน

การเปิดซอร์สของ ASSERT ภายใต้ MIT license ช่วยลดความกังวลเรื่องการล็อกอินกับผู้ให้บริการเดียวและส่งเสริมการทำงานร่วมกับระบบโมเดลหลากหลายรูปแบบ อย่างไรก็ตาม ความเป็นกลางของเกณฑ์การประเมินยังคงขึ้นกับการออกแบบของผู้พัฒนาเฟรมเวิร์ก ผู้ใช้จึงควรตรวจสอบและกำหนดนโยบายภายในของตนเองพร้อมกับใช้เครื่องมือหลายชุดเพื่อยืนยันผลการประเมิน

Summary

Microsoft ปล่อย ASSERT เป็นเฟรมเวิร์กการประเมินผล AI แบบเปิด‑ซอร์สที่แปลงข้อกำหนดเป็นชุดทดสอบอัตโนมัติ เพื่อตอบสนองความต้องการขององค์กรที่ยังขาดการตรวจสอบเอเจนต์ AI อย่างเป็นระบบ แม้การเปิดซอร์สจะลดความเสี่ยงเรื่องการล็อกอิน แต่การกำกับดูแลที่มีประสิทธิภาพยังคงต้องอาศัยการตรวจสอบหลายชั้นและการกำหนดนโยบายภายในของแต่ละองค์กร.

แชร์บทความนี้:

ชอบบทความแบบนี้?

สมัคร AI Automate Weekly Newsletter — รับเคล็ดลับ AI + how-to ใหม่
ทุกสัปดาห์ตรงถึง inbox ฟรี ไม่มีสแปม

แหล่งข่าวต้นฉบับ

ชื่อต้นฉบับ
Microsoft open sources AI evaluation framework for enterprise agents
ผู้เขียน
Unknown
แหล่ง
InfoWorld
วันที่เผยแพร่
11 มิถุนายน 2569 เวลา 19:36

Related

บทความที่เกี่ยวข้อง

ทดสอบอัปเดตใหญ่ของ NotebookLM 3 รายการและการยกเลิกฟีเจอร์…AI
15 มิถุนายน 2569 เวลา 21:30

ทดสอบอัปเดตใหญ่ของ NotebookLM 3 รายการและการยกเลิกฟีเจอร์…

NotebookLM ยังคงเป็น AI ช่วยวิจัยยอดนิยม ด้วยอัปเดต UI การสรุปแม่นยำขึ้นและความเร็วในการจัดการข้อมูล การยกเลิกฟีเจอร์เสียงแม้เงียบแต่เปลี่ยนวิธีใช้มาก

XDA Developers6 นาที
เกมอินดี้ต้องสร้าง Prototype ให้ดี มิใช่พึ่ง AI เพื่อรับเ…AI
15 มิถุนายน 2569 เวลา 17:00

เกมอินดี้ต้องสร้าง Prototype ให้ดี มิใช่พึ่ง AI เพื่อรับเ…

การสร้าง prototype เป็นขั้นตอนสำคัญเพื่อให้ผู้จัดพิมพ์พิจารณาการลงทุน แต่การใช้ AI อย่างเร่งรีบอาจทำให้เกมสูญเสียเอกลักษณ์และความน่าเชื่อถือ ตามที่ผู้แทนจาก…

Rock Paper Shotgun7 นาที
สหรัฐอเมริกาบังคับ Anthropic ระงับโมเดล AI ชั้นนำทันทีAI
15 มิถุนายน 2569 เวลา 14:00

สหรัฐอเมริกาบังคับ Anthropic ระงับโมเดล AI ชั้นนำทันที

รัฐบาลสหรัฐออกคำสั่งฉุกเฉินให้ Anthropic ปิดให้บริการโมเดล AI Fable 5 และ Mythos 5 ทั้งหมด เนื่องจากความกังวลเรื่องความปลอดภัยระดับชาติและช่องโหว่ jailbreak…

Android Authority6 นาที
ให้ LLM ภายในเครื่องเข้าถึง Docker แล้วสคริปต์มอนิเตอร์ถู…AI
15 มิถุนายน 2569 เวลา 05:00

ให้ LLM ภายในเครื่องเข้าถึง Docker แล้วสคริปต์มอนิเตอร์ถู…

ผู้ใช้ให้ Local LLM เข้าถึง Docker เพื่อสร้างสคริปต์มอนิเตอร์อัตโนมัติ แต่ค่าใช้จ่ายสูง, ความเป็นส่วนตัวเสี่ยง, และผลลัพธ์ไม่แม่นยำ…

XDA Developers8 นาที
คัดลอกลิงก์แล้ว!