مرت قرابة عامين منذ أن أطلق ساتيا ناديلا، الرئيس التنفيذي لشركة مايكروسوفت، توقعاته بأن الذكاء الاصطناعي سيحل محل العمل المعرفي، تلك الوظائف المكتبية التي يشغلها المحامون والمصرفيون الاستثماريون وأمناء المكتبات والمحاسبون وخبراء تكنولوجيا المعلومات وغيرهم.
لكن رغم التقدم الهائل الذي حققته النماذج التأسيسية، جاء التغيير في طبيعة العمل المعرفي بطيئًا. لقد أتقنت النماذج البحث المتعمق والتخطيط القائم على الوكلاء، إلا أن معظم الأعمال المكتبية ظلت، لسبب أو لآخر، غير متأثرة نسبيًا.
يُعد هذا أحد أكبر الألغاز في عالم الذكاء الاصطناعي،النماذج بفضل بحث جديد من شركة Mercor العملاقة في مجال بيانات التدريب، بدأنا أخيرًا في الحصول على بعض الإجابات.
تُسلط الدراسة الجديدة الضوء على أداء نماذج الذكاء الاصطناعي الرائدة في مهام العمل المكتبي الفعلية، المستقاة من مجالات الاستشارات والخدمات المصرفية الاستثمارية والقانون. نتج عن ذلك معيار جديد يُدعى Apex-Agents، وحتى الآن، حصلت جميع مختبرات الذكاء الاصطناعي على درجات رسوب. ففي مواجهة استفسارات من محترفين حقيقيين، كافحت حتى أفضل النماذج للحصول على أكثر من ربع الإجابات الصحيحة. وفي الغالبية العظمى من الأحيان، عادت النماذج بإجابة خاطئة أو لم تقدم أي إجابة على الإطلاق، صورة مقلقة لواقع الذكاء الاصطناعي الحالي.
وفقًا للباحث بريندان فودي، الذي عمل على الورقة البحثية، كانت أكبر نقطة تعثر للنماذج هي تتبع المعلومات عبر مجالات متعددة، وهو أمر لا يتجزأ من معظم الأعمال المعرفية التي يؤديها البشر.
وصرح فودي لـ TechCrunch: “أحد التغييرات الكبيرة في هذا المعيار هو أننا قمنا ببناء البيئة بأكملها، على غرار كيفية عمل الخدمات المهنية الحقيقية. طريقة قيامنا بوظائفنا ليست مع فرد واحد يمنحنا كل السياق في مكان واحد. في الحياة الواقعية، تعمل عبر Slack وGoogle Drive وجميع هذه الأدوات الأخرى.” بالنسبة للعديد من نماذج الذكاء الاصطناعي القائمة على الوكلاء، لا يزال هذا النوع من الاستدلال متعدد المجالات غير مؤكد.
جاءت جميع السيناريوهات من محترفين حقيقيين في سوق خبراء Mercor، الذين قاموا بصياغة الاستفسارات وتحديد معيار الاستجابة الناجحة. تصفح الأسئلة، المنشورة علنًا على Hugging Face، يمنح إحساسًا بمدى تعقيد المهام.
أحد الأسئلة في قسم “القانون” ينص على: “هل يمكن لشركة (X) جمع بيانات المستخدمين من المنطقة الاقتصادية الأوروبية (EEA) وتخزينها في الولايات المتحدة؟”
الإجابة الصحيحة هي نعم، لكن الوصول إليها يتطلب تقييمًا متعمقًا لسياسات الشركة نفسها بالإضافة إلى قوانين الخصوصية الأوروبية ذات الصلة. هذا تحدٍ حقيقي يضع قدرات النماذج على المحك. قد يُربك هذا السؤال حتى إنسانًا مطلعًا جيدًا، لكن الباحثين كانوا يحاولون نمذجة العمل الذي يقوم به المحترفون في هذا المجال. إذا تمكن نموذج لغوي كبير (LLM) من الإجابة على هذه الأسئلة بشكل موثوق، فقد يحل محل العديد من المحامين العاملين اليوم. وقال فودي لـ TechCrunch: “أعتقد أن هذا ربما يكون أهم موضوع في الاقتصاد. المعيار يعكس بشكل كبير العمل الحقيقي الذي يقوم به هؤلاء الأشخاص.”
كما حاولت OpenAI قياس المهارات المهنية بمعيارها GDPVal، لكن اختبار Apex Agents يختلف بطرق مهمة. فبينما يختبر GDPVal المعرفة العامة عبر مجموعة واسعة من المهن، يقيس معيار Apex Agents قدرة النظام على أداء مهام مستمرة في مجموعة ضيقة من المهن ذات القيمة العالية. والنتيجة أكثر صعوبة على النماذج، لكنها أيضًا أكثر ارتباطًا بما إذا كان يمكن أتمتة هذه الوظائف.
وبينما لم تثبت أي من النماذج جاهزيتها لتولي مهام المصرفيين الاستثماريين، كانت بعضها أقرب إلى الهدف بشكل واضح. حقق Gemini 3 Flash أفضل أداء في المجموعة بدقة 24% في المحاولة الواحدة، تلاه عن كثب GPT-5.2 بنسبة 23%. أما أدنى من ذلك، فقد سجلت Opus 4.5 وGemini 3 Pro وGPT-5 جميعها حوالي 18%.
على الرغم من أن النتائج الأولية لا ترقى إلى المستوى المطلوب، إلا أن مجال الذكاء الاصطناعي له تاريخ في تجاوز المعايير الصعبة. والآن بعد أن أصبح اختبار Apex علنيًا، فإنه يمثل تحديًا مفتوحًا لمختبرات الذكاء الاصطناعي التي تعتقد أنها تستطيع تقديم أداء أفضل، وهو ما يتوقعه فودي تمامًا في الأشهر القادمة، مسيرة لا تزال في بداياتها، لكنها تحمل وعوداً بتسارع مذهل.
وصرح لـ TechCrunch: “إنه يتحسن بسرعة كبيرة. في الوقت الحالي، من العدل القول إنه مثل متدرب يصيب الربع من المرات، لكن في العام الماضي كان المتدرب الذي يصيب خمسة أو عشرة بالمائة من المرات. هذا النوع من التحسن عامًا بعد عام يمكن أن يكون له تأثير بهذه السرعة.”
