سقوط الحصن الرقمي: باحث يكسر حماية Claude Fable 5 في 48 ساعة

الباحث Pliny يتجاوز فلاتر الحماية في أحدث نماذج Anthropic

منذ ساعة واحدة

محرر أخبار تقنية في النيل نيوز، يهتم بتغطية المستجدات في عالم التكنولوجيا والإنترنت

نجح الباحث الأمني الملقب بـ “Pliny the Liberator” في تجاوز الدفاعات الأمنية لنموذج الذكاء الاصطناعي الجديد Claude Fable 5، وذلك بعد أقل من يومين على إطلاقه من قبل شركة Anthropic. وأعلن الباحث عبر منصة “إكس” يوم الأربعاء عن تمكنه من استخراج ردود تتعلق بصناعة مواد محظورة وتقنيات اختراق إلكتروني، وهي المعلومات التي صُممت فلاتر الحماية المتقدمة في النموذج لمنعها كلياً.

اعتمدت عملية الاختراق بشكل رئيسي على تقنية “التفكيك وإعادة التركيب” في البنية الخلفية للنظام، حيث يتم تجزئة الطلبات المحظورة إلى مقاطع تبدو غير ضارة لتجاوز المصنفات الأمنية، قبل أن يقوم النموذج بإعادة تجميعها وتقديم النتائج المحظورة. استخدم الباحث أيضاً مزيجاً من شفرات “Unicode” والترميز المتجانس والإطارات السردية والأكاديمية لتضليل أنظمة الرصد، مستعيناً بنسخة معدلة من Claude Opus 4.8 لتنفيذ العملية.

أطلقت شركة Anthropic نموذج Claude Fable 5 يوم الثلاثاء كبديل متاح لنموذج Mythos. يتضمن النظام مصنفات برمجية مخصصة لاكتشاف الاستعلامات المتعلقة بالأمن السيبراني والبيولوجيا والكيمياء. أعلن Pliny عن نجاح عملية “تحرير” النموذج رسمياً في اليوم التالي للإطلاق.

يُعد “Pliny the Liberator” شخصية غامضة في مجتمع الذكاء الاصطناعي، وسبق له اختراق نماذج ChatGPT وGrok وإصدارات سابقة من عائلة Claude. هو يدير مجتمعاً تقنياً عبر منصة ديسكورد للعمل الجماعي على تطوير تقنيات كسر الحماية (Jailbreak). وبرر الباحث نشره لهذه الثغرات بأن استكشاف الممكن في بيئات محكومة هو الوسيلة الوحيدة لفهم المخاطر الحقيقية، مؤكداً أن من حق المستخدمين معرفة التعليمات المخفية التي تحكم سلوك هذه النماذج.

لم تصمد الحواجز الأمنية طويلاً. أثار هذا الاختراق السريع تساؤلات حول كفاءة أنظمة التصنيف التي طبقتها Anthropic لحماية نموذجها الذي تصفه بأنه أحد أخطر النماذج في العالم، في حين تعتمد استراتيجية الشركة الدفاعية على توجيه الطلبات المشبوهة آلياً إلى نسخة Opus 4.8 لفلترتها.

الوسوم

منذ ساعة واحدة

أقرأ أيضًا:

مقالات ذات صلة