جوجل تطلق DiffusionGemma: سرعة تتجاوز GPT بـ 10 أضعاف وتغيير جذري في معالجة النصوص
نموذج جوجل الجديد يحطم أرقام السرعة القياسية في معالجة النصوص محلياً

أطلقت شركة جوجل نموذج DiffusionGemma التجريبي للذكاء الاصطناعي، معلنةً عن تقنية توليد نصوص تعتمد على نظام “الكتل الكاملة” بدلاً من الأسلوب التقليدي الذي يبني الإجابات كلمة بكلمة. أظهرت بيانات الشركة أن النموذج يحقق سرعة استنتاج تتجاوز أربعة أضعاف سرعة Gemma 4، ويصل إلى معالجة أكثر من 1000 توكن في الثانية عند تشغيله على معالج NVIDIA H100، وهو ما يمثل عشرة أضعاف سرعة نموذج GPT-5.4 mini.
يعمل DiffusionGemma بمعمارية Mixture of Experts تضم 26 مليار بارامتر، ينشط منها 3.8 مليار فقط أثناء التشغيل الفعلي. يتخلى النموذج عن نظام “الآلة الكاتبة” السائد في النماذج اللغوية الكبيرة، حيث يقوم بصياغة كتلة كاملة مكونة من 256 توكن في وقت واحد، مما يتيح استهلاك كامل قدرة المعالجة في البطاقات الرسومية الشخصية. أوضحت جوجل أن هذا الأسلوب ينهي فترات انتظار المعالج بين الكلمات، وهو ما يجعل النموذج مناسباً للعمل على بطاقات مثل RTX 4090 وRTX 5090 بذاكرة VRAM تبدأ من 18 جيجابايت.
يعتمد النموذج عملية “تحسين متكرر” مشابهة لآلية عمل نماذج الصور مثل DALL-E 3، حيث يبدأ بكتلة نصية عشوائية ويقوم بتنقيتها تدريجياً. أضافت الشركة أن ميزة “الانتباه ثنائي الاتجاه” تسمح للنموذج بربط جميع الكلمات في الكتلة الواحدة ببعضها البعض فوراً، وهو ما يخدم مهام تحرير الأكواد البرمجية وسد الفجوات النصية التي تعجز عنها النماذج التقليدية.
أتاحت جوجل النموذج للتحميل عبر منصة Hugging Face بموجب رخصة Apache 2.0 المفتوحة. اعترفت الشركة بوجود فجوة في الجودة لصالح نماذج Gemma 4 التقليدية، مؤكدة أن DiffusionGemma يمنح الأولوية للسرعة والتشغيل المحلي على الأجهزة الشخصية دون الحاجة إلى بنية تحتية للسحابة، مع استمرار العمل على توفير الدعم الرسمي لمكتبة llama.cpp قريباً.









