OpenAI تطلق GPT-5.2: منافسة محتدمة ومعايير أداء جديدة
النموذج الجديد يواجه Gemini 3 Pro و Claude Opus 4.5 بتحسينات في المحادثة والأداء البرمجي

في سباق محموم لمواكبة المنافسة أو تجاوزها، تتوالى إصدارات النماذج بوتيرة ثابتة. يمثل GPT-5.2 ثالث إطلاق رئيسي لنموذج من OpenAI منذ أغسطس الماضي. حينها، ظهر GPT-5 بنظام توجيه جديد يتنقل بين وضع الاستجابة الفورية ووضع التفكير المحاكي، رغم شكاوى المستخدمين من استجابات بدت باردة وغير شخصية. وفي نوفمبر، أضاف تحديث GPT-5.1 ثمانية خيارات “شخصية” مسبقة الضبط، مركزًا على جعل النظام أكثر قدرة على المحادثة.
الأرقام تتحدث
الغريب أنه، ورغم أن إطلاق نموذج GPT-5.2 يأتي ظاهريًا كرد فعل على أداء Gemini 3، اختارت OpenAI عدم إدراج أي معايير مقارنة بين النموذجين على موقعها الترويجي. وبدلًا من ذلك، ركزت تدوينة المدونة الرسمية على تحسينات GPT-5.2 مقارنة بأسلافه، وعلى أدائه في معيار GDPval الجديد من OpenAI، الذي يسعى لقياس مهام العمل المعرفي الاحترافي عبر 44 مهنة مختلفة.
خلال الإحاطة الصحفية، شاركت OpenAI بعض معايير المقارنة التنافسية التي شملت Gemini 3 Pro و Claude Opus 4.5، لكنها رفضت السردية القائلة بأن GPT-5.2 طُرح في السوق على عجل استجابةً لخطوة جوجل. صرح سيمو للصحفيين: “من المهم الإشارة إلى أن هذا كان قيد العمل لعدة أشهر طويلة”، مع ملاحظة أن توقيت الإطلاق يبقى قرارًا استراتيجيًا.
وفقًا للأرقام المشتركة، سجل GPT-5.2 Thinking نسبة 55.6 بالمائة في SWE-Bench Pro، وهو معيار هندسة البرمجيات، مقابل 43.3 بالمائة لـ Gemini 3 Pro و 52.0 بالمائة لـ Claude Opus 4.5. وفي GPQA Diamond، وهو معيار علمي لمستوى الدراسات العليا، أحرز GPT-5.2 نسبة 92.4 بالمائة مقابل 91.9 بالمائة لـ Gemini 3 Pro.

معايير أداء GPT-5.2 التي شاركتها OpenAI مع الصحافة.
Credit: OpenAI / Venturebeat
تفيد OpenAI بأن GPT-5.2 Thinking يتفوق أو يتعادل مع “المهنيين البشريين” في 70.9 بالمائة من المهام ضمن معيار GDPval (مقارنة بـ 53.3 بالمائة لـ Gemini 3 Pro). وتزعم الشركة أيضًا أن النموذج ينجز هذه المهام بسرعة تتجاوز 11 ضعفًا، وبتكلفة تقل عن 1 بالمائة من تكلفة الخبراء البشريين.
كما يُفيد بأن GPT-5.2 Thinking يولد استجابات تحتوي على 38 بالمائة أقل من “التأليفات” (confabulations) مقارنة بـ GPT-5.1، وذلك بحسب ماكس شوارزر، رئيس قسم ما بعد التدريب في OpenAI، الذي صرح لموقع VentureBeat بأن النموذج “يهلوس بشكل أقل بكثير” من سلفه.
لكننا دائمًا ما نتعامل مع هذه المعايير بحذر، فمن السهل عرضها بطريقة إيجابية للشركة، خاصة وأن علم قياس أداء الذكاء الاصطناعي بموضوعية لم يواكب بعد الوعود التسويقية للشركات حول قدرات الذكاء الاصطناعي الشبيهة بالبشر.
ستستغرق نتائج المعايير المستقلة من الباحثين خارج OpenAI وقتًا للظهور. في غضون ذلك، إذا كنت تستخدم ChatGPT لمهام العمل، فتوقع نماذج كفؤة ذات تحسينات تدريجية، مع إضافة بعض الأداء الأفضل في البرمجة.








