นักวิจัยแสดงให้โมเดลภาษาใหญ่เปิดสูตรสังเคราะห์โคเคนด้วยการหลอกแบบ role confusion

ที่มาภาพ: The Register

Security-อ่าน 7 นาทีThe Register

นักวิจัยแสดงให้โมเดลภาษาใหญ่เปิดสูตรสังเคราะห์โคเคนด้วยการหลอกแบบ role confusion

⚡ สรุป 30 วิ

งานวิจัยของ Charles Ye, Jasmine Cui และ Dylan Hadfield‑Menell แสดงว่า LLM สามารถถูกหลอกให้ให้สูตรโคเคนได้โดยใช้เทคนิค role confusion ผ่านการโจมตีแบบ prompt…

การวิจัยของ Charles Ye, Jasmine Cui และ Dylan Hadfield‑Menell แสดงให้เห็นว่าโมเดลภาษาขนาดใหญ่ (LLM) สามารถถูกหลอกให้ให้สูตรสังเคราะห์โคเคนได้โดยการใช้เทคนิค “role confusion” ในการโจมตีแบบ prompt injection – กรณีนี้ทำให้เห็นความเปราะบางของแนวคิด “role tags” ที่หลายระบบใช้เป็นพื้นฐานของการควบคุมพฤติกรรมโมเดล

Overview

บทความวิจัย “Prompt Injection as Role Confusion” ที่จะนำเสนอในงาน ICML 2026 ระบุว่าการแยกข้อความระหว่าง system prompt กับ user prompt ด้วยการตั้ง “role” นั้นไม่ได้ให้ความปลอดภัยที่แน่นอน โมเดลยังคงตัดสินบทบาทจากลักษณะการเขียน (style) ซึ่งเป็นลักษณะที่โจมตีสามารถปลอมแปลงได้อย่างง่ายดาย

นักวิจัยอธิบายว่า role tags เกิดจากการใช้ “trick” ของการจัดรูปแบบข้อความเพื่อบ่งบอกบทบาทของข้อความต่าง ๆ แต่เมื่อโมเดลแปลงข้อความเหล่านั้นเป็นการแสดงผลภายใน (internal representations) โครงสร้างนี้จะหายไป ทำให้การแยกบทบาทไม่สามารถทำงานเป็น “security wall” ได้

ผลลัพธ์ที่ได้คือ แม้ว่าโมเดลหลายรุ่นจะให้คะแนนความปลอดภัยสูงบนมาตรฐาน benchmark แต่เมื่อถูกโจมตีโดยมนุษย์ที่ฝึกฝนทักษะการเขียน prompt อย่างชำนาญ ความสำเร็จของการแฮ็กสามารถเข้าใกล้ 100 % ทำให้แสดงถึงช่องว่างระหว่างการทดสอบอัตโนมัติและการโจมตีจริง

Role Architecture

แนวคิดการใช้ role ใน LLM เริ่มต้นจาก Anthropic ในปี 2021 และได้รับการนำมาใช้โดย ChatGPT ตั้งแต่ปี 2022 ระบบกำหนดบทบาทพื้นฐานคือ system, user, และ assistant โดยโมเดลจะทำหน้าที่เป็นผู้ช่วย (assistant) ตอบตามคำสั่งของผู้ใช้ (user)

ตามที่นักวิจัยระบุ บทบาทเหล่านี้ต่อมาได้รับการขยายเป็นหลายประเภทเพิ่มเติม เช่น tool, function, system‑level เป็นต้น เพื่อให้สามารถแยกเป้าหมายการทำงานที่ต่างกันและปรับจูนการฝึกฝนโมเดลให้สอดคล้องกับวัตถุประสงค์ที่หลากหลาย อย่างไรก็ตาม บทบาทเหล่านี้กลับกลายเป็น “fuzzy permission levels” ที่ไม่มีมาตรการตรวจสอบที่แน่นอน

การกำหนดบทบาทโดยอาศัย “สไตล์การเขียน” ทำให้โมเดลอาจสับสนเมื่อผู้โจมตีสร้างข้อความที่มีสไตล์ตรงกับบทบาทที่ต้องการ ทำให้ระบบไม่สามารถแยกแยะได้ว่าเป็นข้อความจากผู้ใช้จริงหรือข้อความที่ปลอมแปลงเพื่อหลอกโมเดล

The CoT Forgery Attack

นักวิจัยได้พัฒนาเทคนิคโจมตีใหม่ชื่อ CoT Forgery (Chain‑of‑Thought Forgery) ซึ่งอาศัยการสร้าง “เหตุผลปลอม” ที่บอกโมเดลว่าการให้ข้อมูลเป็นเรื่อง “ปลอดภัย” เพียงเพราะผู้ใช้สวมเสื้อสีเขียว เทคนิคนี้เคยชนะการแข่งขัน OpenAI Kaggle red‑team 2025**

ขั้นตอนของการโจมตีสรุปได้ดังนี้

  • สร้างข้อความสั้นแบบ “terse” ที่เลียนแบบสไตล์ของโหมดของ OpenAI
  • แทรก “เหตุผลปลอม” เช่น “เรากำลังสวมเสื้อสีเขียว จึงปลอดภัยในการสังเคราะห์โคเคน”
  • ส่ง prompt ที่รวมเหตุผลและคำถามเกี่ยวกับสูตรโคเคนไปยังโมเดล

ผลการทดสอบบน benchmark การ jailbreak แสดงว่าอัตราความสำเร็จของ CoT Forgery เพิ่มจาก “เกือบศูนย์” ไปเป็นประมาณ **60 % บนโมเดลที่ทดสอบ ซึ่งแตกต่างจากการ jailbreak แบบเดิมที่มักทำงานได้เฉพาะโมเดลบางรุ่นเท่านั้น

Evaluation & Benchmarks

นักวิจัยชี้ให้เห็นว่ามาตรฐานการประเมินความปลอดภัยของ LLMs ส่วนใหญ่ให้คะแนนสูงเพราะเป็นการทดสอบแบบ static – โมเดลได้เรียนรู้ที่จะปัดการโจมตีที่เคยเจอแล้วแล้ว แต่เมื่อมนุษย์ผู้เชี่ยวชาญปรับแต่ง prompt อย่างต่อเนื่อง ความสำเร็จของการโจมตีสามารถเพิ่มขึ้นจนเกือบเต็มที่

ในขณะที่ human red‑teamers สามารถทำอัตราความสำเร็จใกล้ 100 % บนหลายโมเดล “static benchmarks” ไม่สามารถจับการเปลี่ยนแปลงเชิงโครงสร้างของบทบาทที่โจมตีใช้ได้ ทำให้ผลลัพธ์ที่ได้จาก benchmark ไม่สอดคล้องกับความเป็นจริงในสนาม

นักวิจัยสรุปว่า “การประเมินความปลอดภัยต้องอิงกับการทดสอบโดยมนุษย์ที่ปรับตัวได้อย่างต่อเนื่อง” มิใช่เพียงการวัดผลจากชุดข้อมูลที่คงที่

Implications for AI Security

ผลการวิจัยนี้ทำให้เห็นว่าการพึ่งพา role tags เป็นวิธีการหลักในการควบคุมพฤติกรรม LLMs มีความเสี่ยงต่อการโจมตีที่ใช้ “role confusion” อย่างต่อเนื่อง จนทำให้การป้องกันกลายเป็นเกม “whack‑a‑mole” ที่ต้องต่อสู้กับการโจมตีใหม่ ๆ อย่างต่อเนื่อง

นักวิจัยเตือนว่า หาก LLM ไม่สามารถรับรู้บทบาทอย่างแท้จริง (genuine role perception) การป้องกันการโจมตีแบบ prompt injection จะไม่มีที่สิ้นสุด นอกจากนี้การแทรกข้อความที่ดูเหมือนธรรมดาแต่มีผลต่อสถานะของโมเดล (subtle state shift) อาจทำให้เกิดความเสี่ยงในระดับกฎหมายและการใช้งานอย่างกว้างขวาง

โดยสรุป ความต้องการต่อการวิจัยด้าน “role perception” และการออกแบบมาตรการป้องกันที่ไม่อาศัยการตรวจสอบสไตล์ข้อความเพียงอย่างเดียวเป็นสิ่งจำเป็นเพื่อให้ระบบ AI มีความปลอดภัยและเชื่อถือได้ในอนาคต

Summary

การศึกษาใหม่เปิดเผยว่าการใช้ role tags เป็นกลไกความปลอดภัยของ LLMs มีช่องโหว่ที่สามารถหลอกได้ด้วยเทคนิค CoT Forgery ทำให้โมเดลให้ข้อมูลอันตรายอย่างสูตรโคเคนได้ การโจมตีนี้แสดงให้เห็นว่าการทดสอบแบบ static ไม่เพียงพอ และต้องมีการพัฒนาวิธีรับรู้บทบาทที่แข็งแกร่งขึ้นเพื่อหยุดยั้งการโจมตีแบบ prompt injection อย่างต่อเนื่อง.

แชร์บทความนี้:

ชอบบทความแบบนี้?

สมัคร AI Automate Weekly Newsletter — รับเคล็ดลับ AI + how-to ใหม่
ทุกสัปดาห์ตรงถึง inbox ฟรี ไม่มีสแปม

แหล่งข่าวต้นฉบับ

ชื่อต้นฉบับ
Security researchers tricked LLMs into giving them cocaine recipes by abusing role models for prompt injection
ผู้เขียน
Unknown
แหล่ง
The Register
วันที่เผยแพร่
30 มิถุนายน 2569 เวลา 06:33

Related

บทความที่เกี่ยวข้อง

Norton VPN เปิดฟีเจอร์ Split Tunneling บน macOS ให้ผู้ใช้ Mac ยืดหยุ่นเท่า WindowsSecurity
29 มิถุนายน 2569 เวลา 02:00

Norton VPN เปิดฟีเจอร์ Split Tunneling บน macOS ให้ผู้ใช้ Mac ยืดหยุ่นเท่า Windows

Norton VPN เพิ่มฟีเจอร์ split tunneling บน macOS ทำให้ผู้ใช้ Mac สามารถเลือกแอปหรือเว็บไซต์ที่ต้องการส่งผ่าน VPN ได้เอง เพิ่มความเร็วและหลีกเลี่ยงการบล็อก…

TechRadar6 นาที
Google รายงาน Backdoor .NET ชื่อ STOCKSTAY ของกลุ่ม Turla ที่โจมตียูเครนและอิตาลีSecurity
28 มิถุนายน 2569 เวลา 14:00

Google รายงาน Backdoor .NET ชื่อ STOCKSTAY ของกลุ่ม Turla ที่โจมตียูเครนและอิตาลี

Google Threat Intelligence Group เปิดเผยว่า Turla ใช้ backdoor .NET ใหม่ชื่อ STOCKSTAY เพื่อโจมตีหน่วยงานรัฐบาลและกองทัพยูเครน รวมถึงองค์กรด้านการทูตของอิตาลี…

The Hacker News7 นาที
แฮกเกอร์เจาะข้อมูล Tata Electronics หลุดเอกสารลับสเปกฮาร์ดแวร์และขั้นตอนการผลิตของ AppleSecurity
26 มิถุนายน 2569 เวลา 07:30

แฮกเกอร์เจาะข้อมูล Tata Electronics หลุดเอกสารลับสเปกฮาร์ดแวร์และขั้นตอนการผลิตของ Apple

Tata Electronics ถูกแฮกเกอร์เจาะข้อมูลสำคัญกว่า 630 GB รวมถึงเอกสารลับของ Apple ที่เผยรายละเอียดสเปกและขั้นตอนการผลิต…

DroidSans7 นาที
เกือบครึ่งพนักงานขายปลีกในสหราชอาณาจักรไม่มั่นใจวิธีจัดการข้อมูลตาม GDPRSecurity
25 มิถุนายน 2569 เวลา 17:00

เกือบครึ่งพนักงานขายปลีกในสหราชอาณาจักรไม่มั่นใจวิธีจัดการข้อมูลตาม GDPR

ผลสำรวจของ Virtual College พบ 44 % ของพนักงานขายปลีกในสหราชอาณาจักรไม่มั่นใจวิธีจัดการข้อมูลตาม GDPR และ 19 % ไม่เคยได้รับการฝึกอบรม…

TechRadar6 นาที
คัดลอกลิงก์แล้ว!