كوهير تُطلق ‘ترانسكرايب’: ثورة مفتوحة المصدر في التعرف على الكلام

نموذج كوهير الجديد يقلب موازين دقة التعرف على الصوت عالمياً ويدعم اللغة العربية

منذ ساعتين

ترانسكرايب: قمة ASR

صحفي في قسم التكنولوجيا بمنصة النيل نيوز، يتابع أحدث الأخبار التقنية

كوهير تُعلن عن ‘ترانسكرايب’. نموذج التعرف التلقائي على الكلام (ASR) الذي يعيد تعريف المعايير. متوفر الآن، مفتوح المصدر، وجاهز للتحميل.

النموذج الجديد لا يمثل مجرد إنجاز تقني. بل هو تحول جذري في كيفية دمج قدرات الكلام بالذكاء الاصطناعي. من تحويل الاجتماعات إلى نصوص، وحتى عملاء الدعم الفني الفوري. الصوت أصبح محورياً في بيئة الذكاء الاصطناعي المعاصرة.

‘ترانسكرايب’ يتصدر حالياً قائمة Hugging Face لأداء ASR المفتوح. وضع بذلك معياراً جديداً لدقة النسخ في البيئات الواقعية. هذا التفوق ليس محض صدفة. النموذج صُمم لتقليل معدل الخطأ في الكلمات (WER) بشكل حاسم. التركيز كان منصباً على الجاهزية للإنتاج الفعلي. ليس مجرد بحث أكاديمي.

يعتمد ‘ترانسكرايب’ بنية مشفر-مفكك تشفير قائمة على ‘كونفورمر’. حجم النموذج يبلغ 2 مليار معلمة. يحول الموجات الصوتية مباشرة إلى نص مكتوب. دُرّب على 14 لغة. تشمل الإنجليزية والفرنسية والألمانية، وصولاً إلى الصينية واليابانية والكورية، وبالطبع اللغة العربية. هذا يوسع نطاق تأثيره عالمياً بشكل كبير.

بالأرقام، يحقق ‘ترانسكرايب’ معدل خطأ في الكلمات يبلغ 5.42% على الإنجليزية. يتفوق بذلك على كل البدائل المفتوحة والمغلقة، بما في ذلك Whisper Large v3 وElevenLabs Scribe v2. هذه الدقة تمتد لتشمل بيئات معقدة. مثل الاجتماعات متعددة المتحدثين (مجموعة بيانات AMI) واللهجات المتنوعة (مجموعة بيانات Voxpopuli). هذا يعني أداءً موثوقاً في أصعب الظروف.

الدقة لا تقتصر على معايير الاختبار. التقييمات البشرية تؤكد جودته الاستثنائية. المراجعون المدربون يقيمون جودة النسخ عبر تسجيلات صوتية واقعية. يركزون على الدقة والاتساق وسهولة الاستخدام. ‘ترانسكرايب’ يفضل في أكثر من 78% من مقارنات الأداء البشري، متفوقًا على منافسيه بشكل واضح. وهذا مؤشر حاسم على قابليته للاستخدام المؤسسي.

الإنتاجية تمثل تحدياً آخر في بيئات العمل. أنظمة ASR يجب أن تعمل ضمن قيود زمنية وموارد صارمة. ‘ترانسكرايب’ يحقق أعلى مستويات الدقة (WER منخفض) مع الحفاظ على إنتاجية عالية (RTFx) ضمن فئة النماذج التي تتجاوز مليار معلمة. يكسر بذلك حاجز التوازن التقليدي بين السرعة والدقة.

تخطط كوهير لدمج ‘ترانسكرايب’ بشكل أعمق مع منصتها ‘نورث’ لتنسيق وكلاء الذكاء الاصطناعي. هذا التطور سيحول النموذج من أداة نسخ عالية الدقة إلى أساس أوسع لذكاء الكلام المؤسسي. رؤية تتجاوز مجرد تحويل الصوت إلى نص.

لبدء الاستخدام، ‘ترانسكرايب’ متاح للتحميل عبر Hugging Face. يمكن تشغيله محلياً أو في بيئات الحافة. يمكن أيضاً الوصول إليه عبر واجهة برمجة التطبيقات (API) الخاصة بكوهير. يوفر ذلك تجربة مجانية خاضعة لقيود الاستخدام. للاستخدام المؤسسي دون قيود، توفر كوهير منصة ‘Model Vault’ المخصصة. تضمن هذه المنصة استنتاجاً منخفض التأخير في السحابة الخاصة. دون الحاجة لإدارة البنية التحتية. تواصل مع فريق كوهير لمناقشة المتطلبات.

ساهم في هذا الإنجاز: جوليان ماك، إيتاجرا رانجان، كاسي كاو، بهارات فينكيش، بيير هارفي ريتشموند.