أوبن إيه آي تطلق GPT Image 1.5: ثورة في تعديل الصور بالذكاء الاصطناعي بلمسة نصية
نموذج جديد يسرّع معالجة الصور ويخفض التكلفة، ويجعل التعديل الواقعي متاحًا للجميع

لطالما تطلب تعديل الصور بشكل مقنع على مدار قرنين من تاريخ التصوير الفوتوغرافي، إما غرفة مظلمة، أو خبرة في برامج مثل فوتوشوب، أو على الأقل يدًا ثابتة بالمقص والغراء. لكن يوم الثلاثاء، كشفت شركة “أوبن إيه آي” عن أداة جديدة تختزل هذه العملية برمتها إلى مجرد كتابة جملة.
لم تكن “أوبن إيه آي” الشركة الأولى في هذا المجال. فبينما كانت تعمل على نموذج محادثة لتعديل الصور منذ إطلاق GPT-4o في عام 2024، سبقتها “جوجل” إلى السوق في مارس بنموذج أولي عام، ثم طورته إلى نموذج شهير يُعرف باسم “نانو بانانا” (ونانو بانانا برو). وقد لقى هذا النموذج من “جوجل” استجابة حماسية في مجتمع الذكاء الاصطناعي، مما لفت انتباه “أوبن إيه آي”.
ويُعد نموذج “GPT Image 1.5” الجديد من “أوبن إيه آي” نموذجًا لتوليد الصور بالذكاء الاصطناعي، ويُفيد أنه يولد الصور أسرع بأربع مرات من سابقه، وبتكلفة أقل بنحو 20 بالمئة عبر واجهة برمجة التطبيقات (API). وقد طُرح النموذج لجميع مستخدمي “تشات جي بي تي” يوم الثلاثاء، ويمثل خطوة إضافية نحو جعل معالجة الصور الواقعية عملية سهلة لا تتطلب مهارات بصرية خاصة.
يتميز “GPT Image 1.5” بكونه نموذج صور “متعدد الوسائط أصيل” (native multimodal)، ما يعني أن توليد الصور يحدث داخل نفس الشبكة العصبية التي تعالج المطالبات اللغوية. على النقيض، استخدم “دال-إي 3” (DALL-E 3)، وهو مولد صور سابق من “أوبن إيه آي” كان مدمجًا في “تشات جي بي تي”، تقنية مختلفة تُعرف بالانتشار (diffusion) لتوليد الصور.
هذا النوع الأحدث من النماذج يتعامل مع الصور والنصوص كشيء واحد: كتل من البيانات تُسمى “رموزًا” (tokens) يتم التنبؤ بها، وأنماط يجب إكمالها. فإذا قمت بتحميل صورة لوالدك وكتبت “ضعه مرتديًا بدلة سهرة في حفل زفاف”، يقوم النموذج بمعالجة كلماتك وبكسلات الصورة في مساحة موحدة، ثم يُخرج بكسلات جديدة بنفس الطريقة التي يُخرج بها الكلمة التالية في جملة.
باستخدام هذه التقنية، يستطيع “GPT Image 1.5” تغيير الواقع البصري بسهولة أكبر من نماذج الذكاء الاصطناعي السابقة لتعديل الصور، فيمكنه تغيير وضعية أو مكان شخص، أو عرض مشهد من زاوية مختلفة قليلاً، بدرجات متفاوتة من النجاح. كما يمكنه إزالة الكائنات، وتغيير الأنماط البصرية، وتعديل الملابس، وصقل مناطق محددة مع الحفاظ على ملامح الوجه عبر التعديلات المتتالية. ويمكنك التحدث مع نموذج الذكاء الاصطناعي حول صورة، لتنقيحها ومراجعتها، بنفس الطريقة التي قد تعدل بها مسودة بريد إلكتروني في “تشات جي بي تي”.









