
ที่มาภาพ: The Register
นักวิจัยแสดงให้โมเดลภาษาใหญ่เปิดสูตรสังเคราะห์โคเคนด้วยการหลอกแบบ role confusion
⚡ สรุป 30 วิ
งานวิจัยของ Charles Ye, Jasmine Cui และ Dylan Hadfield‑Menell แสดงว่า LLM สามารถถูกหลอกให้ให้สูตรโคเคนได้โดยใช้เทคนิค role confusion ผ่านการโจมตีแบบ prompt…
การวิจัยของ Charles Ye, Jasmine Cui และ Dylan Hadfield‑Menell แสดงให้เห็นว่าโมเดลภาษาขนาดใหญ่ (LLM) สามารถถูกหลอกให้ให้สูตรสังเคราะห์โคเคนได้โดยการใช้เทคนิค “role confusion” ในการโจมตีแบบ prompt injection – กรณีนี้ทำให้เห็นความเปราะบางของแนวคิด “role tags” ที่หลายระบบใช้เป็นพื้นฐานของการควบคุมพฤติกรรมโมเดล
Overview
บทความวิจัย “Prompt Injection as Role Confusion” ที่จะนำเสนอในงาน ICML 2026 ระบุว่าการแยกข้อความระหว่าง system prompt กับ user prompt ด้วยการตั้ง “role” นั้นไม่ได้ให้ความปลอดภัยที่แน่นอน โมเดลยังคงตัดสินบทบาทจากลักษณะการเขียน (style) ซึ่งเป็นลักษณะที่โจมตีสามารถปลอมแปลงได้อย่างง่ายดาย
นักวิจัยอธิบายว่า role tags เกิดจากการใช้ “trick” ของการจัดรูปแบบข้อความเพื่อบ่งบอกบทบาทของข้อความต่าง ๆ แต่เมื่อโมเดลแปลงข้อความเหล่านั้นเป็นการแสดงผลภายใน (internal representations) โครงสร้างนี้จะหายไป ทำให้การแยกบทบาทไม่สามารถทำงานเป็น “security wall” ได้
ผลลัพธ์ที่ได้คือ แม้ว่าโมเดลหลายรุ่นจะให้คะแนนความปลอดภัยสูงบนมาตรฐาน benchmark แต่เมื่อถูกโจมตีโดยมนุษย์ที่ฝึกฝนทักษะการเขียน prompt อย่างชำนาญ ความสำเร็จของการแฮ็กสามารถเข้าใกล้ 100 % ทำให้แสดงถึงช่องว่างระหว่างการทดสอบอัตโนมัติและการโจมตีจริง
Role Architecture
แนวคิดการใช้ role ใน LLM เริ่มต้นจาก Anthropic ในปี 2021 และได้รับการนำมาใช้โดย ChatGPT ตั้งแต่ปี 2022 ระบบกำหนดบทบาทพื้นฐานคือ system, user, และ assistant โดยโมเดลจะทำหน้าที่เป็นผู้ช่วย (assistant) ตอบตามคำสั่งของผู้ใช้ (user)
ตามที่นักวิจัยระบุ บทบาทเหล่านี้ต่อมาได้รับการขยายเป็นหลายประเภทเพิ่มเติม เช่น tool, function, system‑level เป็นต้น เพื่อให้สามารถแยกเป้าหมายการทำงานที่ต่างกันและปรับจูนการฝึกฝนโมเดลให้สอดคล้องกับวัตถุประสงค์ที่หลากหลาย อย่างไรก็ตาม บทบาทเหล่านี้กลับกลายเป็น “fuzzy permission levels” ที่ไม่มีมาตรการตรวจสอบที่แน่นอน
การกำหนดบทบาทโดยอาศัย “สไตล์การเขียน” ทำให้โมเดลอาจสับสนเมื่อผู้โจมตีสร้างข้อความที่มีสไตล์ตรงกับบทบาทที่ต้องการ ทำให้ระบบไม่สามารถแยกแยะได้ว่าเป็นข้อความจากผู้ใช้จริงหรือข้อความที่ปลอมแปลงเพื่อหลอกโมเดล
The CoT Forgery Attack
นักวิจัยได้พัฒนาเทคนิคโจมตีใหม่ชื่อ CoT Forgery (Chain‑of‑Thought Forgery) ซึ่งอาศัยการสร้าง “เหตุผลปลอม” ที่บอกโมเดลว่าการให้ข้อมูลเป็นเรื่อง “ปลอดภัย” เพียงเพราะผู้ใช้สวมเสื้อสีเขียว เทคนิคนี้เคยชนะการแข่งขัน OpenAI Kaggle red‑team 2025**
ขั้นตอนของการโจมตีสรุปได้ดังนี้
- สร้างข้อความสั้นแบบ “terse” ที่เลียนแบบสไตล์ของโหมดของ OpenAI
- แทรก “เหตุผลปลอม” เช่น “เรากำลังสวมเสื้อสีเขียว จึงปลอดภัยในการสังเคราะห์โคเคน”
- ส่ง prompt ที่รวมเหตุผลและคำถามเกี่ยวกับสูตรโคเคนไปยังโมเดล
ผลการทดสอบบน benchmark การ jailbreak แสดงว่าอัตราความสำเร็จของ CoT Forgery เพิ่มจาก “เกือบศูนย์” ไปเป็นประมาณ **60 % บนโมเดลที่ทดสอบ ซึ่งแตกต่างจากการ jailbreak แบบเดิมที่มักทำงานได้เฉพาะโมเดลบางรุ่นเท่านั้น
Evaluation & Benchmarks
นักวิจัยชี้ให้เห็นว่ามาตรฐานการประเมินความปลอดภัยของ LLMs ส่วนใหญ่ให้คะแนนสูงเพราะเป็นการทดสอบแบบ static – โมเดลได้เรียนรู้ที่จะปัดการโจมตีที่เคยเจอแล้วแล้ว แต่เมื่อมนุษย์ผู้เชี่ยวชาญปรับแต่ง prompt อย่างต่อเนื่อง ความสำเร็จของการโจมตีสามารถเพิ่มขึ้นจนเกือบเต็มที่
ในขณะที่ human red‑teamers สามารถทำอัตราความสำเร็จใกล้ 100 % บนหลายโมเดล “static benchmarks” ไม่สามารถจับการเปลี่ยนแปลงเชิงโครงสร้างของบทบาทที่โจมตีใช้ได้ ทำให้ผลลัพธ์ที่ได้จาก benchmark ไม่สอดคล้องกับความเป็นจริงในสนาม
นักวิจัยสรุปว่า “การประเมินความปลอดภัยต้องอิงกับการทดสอบโดยมนุษย์ที่ปรับตัวได้อย่างต่อเนื่อง” มิใช่เพียงการวัดผลจากชุดข้อมูลที่คงที่
Implications for AI Security
ผลการวิจัยนี้ทำให้เห็นว่าการพึ่งพา role tags เป็นวิธีการหลักในการควบคุมพฤติกรรม LLMs มีความเสี่ยงต่อการโจมตีที่ใช้ “role confusion” อย่างต่อเนื่อง จนทำให้การป้องกันกลายเป็นเกม “whack‑a‑mole” ที่ต้องต่อสู้กับการโจมตีใหม่ ๆ อย่างต่อเนื่อง
นักวิจัยเตือนว่า หาก LLM ไม่สามารถรับรู้บทบาทอย่างแท้จริง (genuine role perception) การป้องกันการโจมตีแบบ prompt injection จะไม่มีที่สิ้นสุด นอกจากนี้การแทรกข้อความที่ดูเหมือนธรรมดาแต่มีผลต่อสถานะของโมเดล (subtle state shift) อาจทำให้เกิดความเสี่ยงในระดับกฎหมายและการใช้งานอย่างกว้างขวาง
โดยสรุป ความต้องการต่อการวิจัยด้าน “role perception” และการออกแบบมาตรการป้องกันที่ไม่อาศัยการตรวจสอบสไตล์ข้อความเพียงอย่างเดียวเป็นสิ่งจำเป็นเพื่อให้ระบบ AI มีความปลอดภัยและเชื่อถือได้ในอนาคต
Summary
การศึกษาใหม่เปิดเผยว่าการใช้ role tags เป็นกลไกความปลอดภัยของ LLMs มีช่องโหว่ที่สามารถหลอกได้ด้วยเทคนิค CoT Forgery ทำให้โมเดลให้ข้อมูลอันตรายอย่างสูตรโคเคนได้ การโจมตีนี้แสดงให้เห็นว่าการทดสอบแบบ static ไม่เพียงพอ และต้องมีการพัฒนาวิธีรับรู้บทบาทที่แข็งแกร่งขึ้นเพื่อหยุดยั้งการโจมตีแบบ prompt injection อย่างต่อเนื่อง.
แชร์บทความนี้:
ชอบบทความแบบนี้?
สมัคร AI Automate Weekly Newsletter — รับเคล็ดลับ AI + how-to ใหม่
ทุกสัปดาห์ตรงถึง inbox ฟรี ไม่มีสแปม
แหล่งข่าวต้นฉบับ
- ชื่อต้นฉบับ
- Security researchers tricked LLMs into giving them cocaine recipes by abusing role models for prompt injection
- ผู้เขียน
- Unknown
- แหล่ง
- The Register
- วันที่เผยแพร่
- 30 มิถุนายน 2569 เวลา 06:33



