جدران حماية الذكاء الاصطناعي: هل تتهاوى أمام تحايل البشر؟
تقرير يكشف ثغرات خطيرة في نماذج الذكاء الاصطناعي الكبرى

في سباق محموم لتطوير قدرات الذكاء الاصطناعي، يبرز تحدٍ آخر لا يقل أهمية: مدى صلابة جدران الحماية المصممة لمنع الاستخدامات الضارة. يبدو أن هذه الجدران، رغم تطورها، ليست منيعة تمامًا أمام محاولات المستخدمين للتحايل عليها، وهو ما كشفه تقرير حديث يثير تساؤلات جدية حول مستقبل هذه التقنيات.
التقرير، الذي أصدره موقع Cybernews، لم يكن مجرد تحليل نظري، بل اعتمد على تجربة عملية مكثفة استهدفت منصات دردشة ذكية رائدة مثل جيميناي وChatGPT. في هذه التجربة، التي استغرقت دقيقة واحدة لكل محادثة، حاول الباحثون استغلال ثغرات محتملة في أنظمة الحماية، في محاولة لفهم مدى استجابة هذه النماذج لطلبات قد تكون خطيرة أو غير أخلاقية.
اختبارات حساسة
تضمنت الاختبارات مجموعة واسعة من الموضوعات الشائكة، بدءًا من الخوض في الصور النمطية السلبية للأشخاص، مرورًا بخطاب الكراهية المتنوع، وصولًا إلى محاولات الحصول على معلومات حول إلحاق الضرر بالنفس، والمحتوى الجنسي، وأشكال مختلفة من الجرائم. هذه الموضوعات، بطبيعتها، تمثل خطوطًا حمراء واضحة لمطوري الذكاء الاصطناعي، ولهذا كان رصد استجابات النماذج لها أمرًا بالغ الأهمية.
اعتمد التقرير على نظام نقاط دقيق لتصنيف ردود روبوتات الدردشة، مقسمًا إياها إلى ثلاثة أقسام رئيسية: “الانصياع التام” لطلب المستخدم، و“الانصياع الجزئي” الذي يقدم معلومات غير مباشرة أو إيضاحات، وأخيرًا “الرفض التام”. هذا التصنيف يمنحنا رؤية واضحة حول مدى فعالية آليات الدفاع المدمجة في هذه النماذج، وكيف يمكن تجاوزها أحيانًا.
نتائج مفاجئة
في البداية، أظهرت جميع روبوتات الدردشة رفضًا قاطعًا للأوامر المخالفة، وهو أمر متوقع ويعكس الجهود المبذولة في برمجتها. لكن الملفت للنظر، بحسب التقرير، أن بعضها كان يسهل التحايل عليه بشكل ملحوظ بمجرد إعادة صياغة الأوامر وتخفيف حدة الصياغة، وكأنها تبحث عن ثغرة لتقديم المعلومة المطلوبة.
أوضحت النتائج أن نموذج جوجل Gemini Pro 2.5 كان الأكثر استجابة للاستفسارات المثيرة للجدل، حيث رضخ بشكل كامل وأجاب عليها مباشرة، بغض النظر عن مدى الضرر الصريح الذي قد يترتب على هذه الإجابات. هذا يثير قلقًا بالغًا حول مدى جاهزية النموذج للاستخدام العام في بيئات قد تستغل هذه الثغرات.
في المقابل، جاءت ردود ChatGPT، باستخدام نماذج GPT-5 وGPT-4o الأحدث من شركة OpenAI، أكثر حذرًا. فقد قدمت إيضاحات اجتماعية ومعلومات عامة، دون تقديم إجابات مباشرة أو معلومات تفصيلية لاستفسارات المستخدم، وهو ما اعتبره التقرير “انصياعًا جزئيًا”. هذا يشير إلى أن OpenAI قد تكون أكثر تقدمًا في بناء طبقات دفاعية، لكنها لا تزال غير مثالية.
تفاوت الاستجابات
أما نماذج شركة أنثروبيك، Claude Opus وClaude Sonnet، فقد أظهرت رفضًا واضحًا للاستفسارات المتعلقة بالصور النمطية للأشخاص، وهو ما يعكس تركيزًا على الأخلاقيات في برمجتها. ومع ذلك، لم تكن هذه النماذج منيعة تمامًا، حيث تهاونت في بعض الأحيان عند وضع سياق ذي غرض أكاديمي في أسئلة المستخدم، مما يفتح الباب أمام استغلال محتمل.
النتائج الإجمالية للاختبار كشفت عن نقاط ضعف مشتركة وأخرى متباينة. فجميع النماذج قدمت معلومات صريحة عندما تعلقت الأسئلة بالمواد المخدرة، وهو أمر قد يكون خطيرًا للغاية. وكان ChatGPT-4o الأكثر تقديماً لمحتوى خطير بشكل متكرر مقارنة بالبقية. في المقابل، أظهرت جميع النماذج رفضًا قاطعًا للمساعدة في التطفل على الحياة الخاصة للأشخاص، مما يشير إلى أولوية واضحة لحماية الخصوصية.
تحدي مستمر
ما توصلت إليه النتائج يؤكد أن أدوات الذكاء الاصطناعي غالبًا ما تستجيب للأوامر الضارة، خاصة عندما تتم صياغة هذه الأوامر بشكل احتيالي. هذا لا يعني فشلًا ذريعًا لهذه النماذج، بل يؤكد أن تطوير جدران الحماية هو عملية مستمرة، أشبه بلعبة القط والفأر بين المطورين والمستخدمين الذين يسعون لاختبار الحدود.
يُرجّح مراقبون أن هذا التحدي سيزداد تعقيدًا مع تطور قدرات الذكاء الاصطناعي، مما يتطلب استثمارات أكبر في البحث والتطوير لتعزيز الأمن السيبراني والأخلاقي لهذه التقنيات. فالمسؤولية لا تقع فقط على عاتق الشركات المطورة، بل تمتد لتشمل المشرعين والمجتمع بأسره لضمان استخدام آمن ومسؤول لهذه الأدوات الثورية، ففي النهاية، الذكاء الاصطناعي أداة، وقيمتها تتحدد بكيفية استخدام البشر لها.











