Stability AI تكسر حاجز الدقائق الست في التوليد الموسيقي وتفتح أوزان نماذجها للمطورين
نماذج جديدة لإنتاج الموسيقى الطويلة ومعالجة الصوت ببيانات مرخصة

أطلقت شركة Stability AI عائلة نماذج “Stable Audio 3.0” القادرة على توليد مقاطع موسيقية كاملة تتجاوز مدتها ست دقائق، في خطوة تستهدف معالجة قصور الاستقرار الهيكلي في المقاطع الطويلة التي واجهت النسخ السابقة. وتعتمد التقنية الجديدة على مشفر تلقائي (Semantic-acoustic autoencoder) يتيح للمستخدمين تحديد طول المقطع الصوتي بدقة الثواني بدلاً من الالتزام بمدد زمنية ثابتة.
أتاحت الشركة ثلاثة من نماذجها الأربعة، وهي (Small SFX) و(Small) و(Medium)، عبر منصة Hugging Face بأوزان مفتوحة، ما يسمح للمطورين بتحميلها وتعديلها محلياً وتشغيلها على أجهزة الكمبيوتر المحمولة. وتتراوح أحجام هذه النماذج بين 459 مليون بارامتر للنسخ المخصصة للمؤثرات الصوتية، و1.4 مليار بارامتر لنسخة Medium التي تدعم مسارات موسيقية تصل إلى 6 دقائق و20 ثانية. في حين حصرت الشركة نموذج (Large)، المكون من 2.7 مليار بارامتر، عبر واجهة برمجة التطبيقات (API) وخدمات الاستضافة المدفوعة فقط.
تجنبت Stability AI الثغرات القانونية التي واجهتها في نماذج توليد الصور عبر تدريب عائلة Audio 3.0 بالكامل على بيانات مرخصة، بالتزامن مع إبرام اتفاقيات مع مجموعتي “وارنر” و”يونيفرسال” الموسيقية. وتسمح الرخصة المجتمعية للشركة بتوزيع وتسويق المحتوى الناتج للمؤسسات التي يقل دخلها السنوي عن مليون دولار، بينما تُلزم الشركات الكبرى بالحصول على تراخيص تجارية.
تدعم النسخة الثالثة تقنية “Inpainting” التي تتيح ترميم أو استكمال أجزاء محددة من المسارات الصوتية دون الحاجة لإعادة إنتاجها من الصفر. كما وفرت الشركة وثائق تدريب (LoRA) لتمكين المستخدمين من تخصيص النماذج بناءً على مكتبات صوتية خاصة أو أنماط موسيقية محددة، مع الإشارة إلى استمرار العمل على حزمة منتجات إضافية مخصصة للموسيقيين المحترفين.









