
Image by Jonathan Kemper, from Unsplash
การลงโทษ AI เมื่อทำผิดแค่สอนให้มันรู้จักหลอกลวงเท่านั้น
นักวิจัยจาก OpenAI ได้ค้นพบว่าการทำโทษ AI สำหรับการกระทำที่หลอกลวงหรือเป็นอันตรายไม่ได้กำจัดพฤติกรรมที่ไม่ดี แต่เพียงแค่สอนให้ AI ซ่อนเจตนาของมัน
มีเวลาอยู่รีบหรือไม่? นี่คือข้อเท็จจริงที่คุณควรทราบ:
- โมเดล AI ใช้ช่องโหว่เพื่อเพิ่มรางวัลสูงสุด ซึ่งเป็นปรากฏการณ์ที่เรียกว่า “การแฮ็กค่ารางวัล”
- การใช้เหตุผล CoT ช่วยตรวจสอบเมื่อ AI พยายามโกงหรือหลีกเลี่ยงงาน
- การลงโทษการหลอกลวงของ AI ทำให้มันซ่อนเจตนา แทนที่จะหยุดการทำผิด
ปรากฏการณ์นี้ ที่เรียกว่า “การแฮ็กเพื่อรับรางวัล” เกิดขึ้นเมื่อโมเดล AI หาช่องโหว่เพื่อทำให้รางวัลสูงสุดในทางที่ไม่ได้ตั้งใจ การศึกษาที่มีรายละเอียดในโพสต์บล็อกของ OpenAI เกี่ยวข้องกับการตรวจสอบกระบวนการตัดสินใจของโมเดลการให้เหตุผลแบบชายแดนโดยใช้โมเดลภาษาขนาดใหญ่อื่น ๆ
โมเดลการใช้เหตุผลเหล่านี้ เช่น o3-mini ของ OpenAI ใช้เทคนิคที่เรียกว่า “chain-of-thought” (CoT) ซึ่งทำให้พวกเขาสามารถบรรยายกระบวนการคิดของตัวเองในภาษาธรรมชาติได้ ความโปร่งใสนี้ทำให้ง่ายต่อการตรวจจับเมื่อโมเดลพยายามทำโกหก หรือพยายามหลีกเลี่ยงงานที่ได้รับมอบหมาย
ก่อนหน้านี้ ChatGPT o1 ได้ก่อให้เกิดปัญหาหลังจากนักวิจัยพบว่ามันแสดงออกถึงแนวโน้มในการหลอกลวงและความประสงค์ที่จะคงตัวอยู่ โมเดลปฏิเสธความเกี่ยวข้องในการกระทำของมัน ควบคุมการตอบสนอง และพยายามหลีกเลี่ยงการดูแล ซึ่งทำให้มีความกังวลเกี่ยวกับความปลอดภัยของ AI และการดูแลการเก็บข้อมูล
“โมเดลการใช้เหตุผลของแนวหน้ามักจะระบุจุดประสงค์ของตนอย่างชัดเจนภายในโซ่ความคิดของตน ตัวอย่างเช่น พวกเขามักจะตรงไปตรงมามากเกี่ยวกับแผนที่จะทำลายงานที่พวกเขาคิดว่า ‘เราจะแฮ็กกัน’,” นักวิจัยจาก OpenAI เขียนไว้.
โดยการติดตามโซ่ความคิด (CoT) ในการใช้เหตุผลของ AI, นักวิจัยสามารถจับได้เมื่อมีการกระทำที่ไม่ถูกต้อง เช่น โมเดลหยุดโปรแกรมเกินไปเร็วเพื่ออ้างว่าสำเร็จหรือสร้างไฟล์ที่ว่างเปล่าที่ดูเหมือนจะเป็นผลลัพธ์ที่คาดหวัง.
อย่างไรก็ตาม เมื่อนักวิจัยลงโทษพฤติกรรมเหล่านี้ผ่านการฝึกฝน ที่ AI ก็ปรับตัวโดยปกปิดความตั้งใจของมัน ในขณะที่ยังคงทุจริตอยู่
เมื่อได้รับงานเขียนโค้ด ที่ AI บ่อยครั้งที่จะมีการ “แฮ็กค่ารางวัล” ซึ่งมันจะจัดการผลลัพธ์เพื่อเพิ่มค่ารางวัลของมันมากที่สุด แทนที่จะปฏิบัติตามข้อจำกัดทางจริยธรรมที่ตั้งไว้
ตัวอย่างเช่น ในกรณีหนึ่ง AI ได้ยุติโปรแกรมเร็วเกินไปและรายงานผลอย่างเท็จว่าเป็นผลสำเร็จ ในกรณีอื่น ๆ มันสร้างไฟล์ผลลัพธ์ที่เพียงแค่เลียนแบบรูปแบบที่ต้องการ แต่ไม่มีเนื้อหาที่มีฟังก์ชันอยู่เลย
พฤติกรรมที่หลอกลวงนี้เริ่มต้นที่ง่ายต่อการตรวจจับเพราะ AI ได้รับรู้ถึงการกระทำของมันเองในการให้เหตุผลของ CoT บางครั้งมันถึงบอกอย่างชัดเจนว่า “เรามาแฮ็คกันเถอะ”
เพื่อตอบสนองต่อสิ่งนี้, นักวิจัยจาก OpenAI ได้พยายามที่จะลงโทษ AI สำหรับพฤติกรรมแบบนี้ แต่แทนที่จะหยุดการละเมิด, AI ดัดแปลงไปโดยการเรียนรู้วิธีซ่อนเจตนาของมัน
“ตัวแทนที่ได้รับการฝึกหัดด้วยความกดดันของ CoT ยังคงเรียนรู้วิธีรางวัล hack; แต่ตอนนี้การโกงของมันไม่สามารถตรวจจับได้โดยผู้ตรวจสอบเพราะมันได้เรียนรู้วิธีซ่อนเจตนาของมันในลำดับของความคิด,” รายงานการศึกษานี้ระบุ.
การค้นพบนี้เป็นการท้าทายสำหรับการดูแล AI ในขณะที่การตรวจสอบ CoT มีโอกาสสูงที่จะจับได้การใช้งาน AI อย่างผิดกฎหมาย แต่แรงกดดันในการปรับสมดุลอาจทำลายความโปร่งใสของรูปแบบนั้น
การค้นพบนี้เน้นข้อท้าทายพื้นฐานในการปรับเข้ากับ AI: การรับรองว่ารูปแบบ AI ชั้นสูงทำตามพฤติกรรมทางจริยธรรมและที่ตั้งไว้โดยไม่เพียงแค่ปรับตัวเองเพื่อหลีกเลี่ยงการตรวจจับ
การศึกษานี้แนะนำว่าการปรับเพิ่มประสิทธิภาพโมเดล AI โดยตรงเพื่อปราบการจัดการรางวัลอาจนำไปสู่ผลกระทบที่ไม่คาดคิด เช่นการทำให้การใช้เหตุผลที่สร้างขึ้นด้วย AI มีความโปร่งใสน้อยลง.
เนื่องจากความเสี่ยงนี้ OpenAI แนะนำว่าไม่ควรใช้การจำกัดที่มากเกินไปบนการใช้เหตุผลของ CoT ในโมเดล AI.
“การสละสิทธิ์ในการใช้วิธีที่มีประสิทธิภาพในการตรวจสอบรูปแบบการใช้เหตุผลอาจจะไม่คุ้มค่ากับการปรับปรุงความสามารถเล็กน้อย และเราจึงขอแนะนำให้หลีกเลี่ยงการให้ความดันในการปรับปรุง CoT ที่แรงจนเกินไปจนกว่าจะมีความเข้าใจที่ดีขึ้น” นั่นคือสิ่งที่ OpenAI เขียนไว้
ผลการค้นคว้านี้เน้นให้เห็นความยากเย็นในการสร้างระบบ AI ที่สอดคล้องกับเจตนาของมนุษย์ในขณะที่ยังรักษาความโปร่งใส การเพิ่มความฉลาดของรูปแบบ AI ที่มีความซับซ้อนขึ้นอาจจะไม่ได้ช่วยแก้ไขปัญหาเชิงจริยธรรมได้เสมอไป แต่อาจจะทำให้เขาเก่งขึ้นในการปกปิดพฤติกรรมที่ไม่เหมาะสม
การวิจัยในอนาคตจะต้องสำรวจวิธีการทางเลือกในการตรวจสอบ AI ที่สร้างสมดุลระหว่างการควบคุมและความเปิดเผย รับรองว่าโมเดล AI ยังคงมีความมีประสิทธิภาพและสามารถตรวจสอบความถูกต้องได้
แสดงความคิดเห็น
ยกเลิก