“إعادة كتابة المخطط، وليس إزالة الطوب”: تقول شركة Multiverse Computing إنها تستطيع تقليص نماذج الذكاء الاصطناعي الكبيرة وتقليل استخدام الذاكرة إلى النصف

(حقوق الصورة: الحوسبة متعددة الأكوان)

أصدرت شركة الحوسبة متعددة الأكوان الإسبانية HyperNova 60B 2602، وهي نسخة مضغوطة من gpt-oss-120B من OpenAI، وقدمتها مجانًا على Hugging Face.

تقلل النسخة الجديدة احتياجات النموذج الأصلي من الذاكرة من 61 غيغابايت إلى 32 غيغابايت، وتقول الحوسبة متعددة الأكوان إنها تحتفظ بأداء مماثل في استدعاء الأدوات بالرغم من تقليل الحجم بنسبة 50٪.

من الناحية النظرية، يعني هذا أن نموذجًا يحتاج قبلًا إلى بنية تحتية ثقيلة يمكن تشغيله على أجهزة أقل بكثير. بالنسبة للمطورين الذين يعانون من ميزانيات ضيقة أو قيود طاقة، فإن ذلك يتيح لهم ميزة كبيرة.

أداء الحوسبة متعددة الأكوان HyperNova 60B 2602 — (حقوق الصورة: الحوسبة متعددة الأكوان)

تقنية CompactifAI

تدعي الحوسبة متعددة الأكوان تحقيق مكاسب في المعايير المركزة على الوكيل مقارنة بإصدارها المضغوط السابق. وتقول إن HyperNova 60B 2602 تحقق تحسنًا بمقدار 5x في Tau2-Bench و2x في Terminal Bench Hard.

تلك الاختبارات تقيس استخدام الأدوات وسير عمل الترميز بدلاً من الردود النصية البسيطة.

تقنية CompactifAI الخاصة بالشركة تعيد هيكلة مصفوفات وزن المحولات باستخدام الشبكات التنسورية المستوحاة من الكم.

تؤمن الحوسبة متعددة الأكوان بأن الضغط الفعال يوفر بديلاً عن بناء نماذج أكبر وأكبر، وترتبط هذه الرؤية بالنقاشات الأوروبية المستمرة حول الذكاء الاصطناعي السيادي، وقيود البنية التحتية، واستخدام الطاقة – لذا لمعرفة المزيد، تحدثت مع الشركة حول تقنيتها في الضغط.

كيف يمكنك ضغط LLM؟

تقوم الحوسبة متعددة الأكوان بضغط نماذج اللغة الكبيرة باستخدام تقنية CompactifAI الخاصة بها، المستندة إلى الشبكات التنسورية المستوحاة من الكم.

بدلاً من حذف المعاملات ببساطة، تقوم CompactifAI بإعادة هيكلة مصفوفات الوزن الداخلية لنماذج المحولات إلى تمثيلات لشبكات تنسورية عالية الكفاءة. هذه إعادة الصياغة الرياضية تلتقط العلاقات بين المعاملات وتزيل التكدس الهيكلي.

تُطبق العملية بعد التدريب، مما يعني أن النموذج الأصلي لا يحتاج إلى إعادة التدريب ولا يحتاج الوصول إلى بيانات التدريب الأصلية.

باستخدام هذا النهج، يمكن أن تقلل CompactifAI استخدام الذاكرة بنسبة تصل إلى حوالي 93٪ وتقلل بشكل كبير من عدد المعاملات، مع الحفاظ على أداء قوي عبر المهام.

الأنماط المضغوطة الناتجة أصغر وأسرع وأكثر كفاءة في استخدام الطاقة، وأسهل في النشر عبر السحابة والأنظمة المحلية والبيئات الحافة.

هل يمكنك تطبيقها على كل LLM؟

تعمل على نماذج اللغة الكبيرة المستندة إلى المحول، بما في ذلك نماذج الأساس الكثيفة، شريطة توفر الوصول إلى أوزان النموذج.

التقنية معمارية غير محددة ضمن عائلة المحولات ولا تتطلب تغييرات على سلوك النموذج الخارجي أو واجهات برمجة التطبيقات.

تعتمد فعالية الضغط على مستوى التكرار في النموذج. عادة ما توفر النماذج الكبيرة ذات المعاملات الزائدة أكبر إمكانات الضغط.

ما هي التحديات؟

التحدي الفني الرئيسي هو الحفاظ على دقة النموذج أثناء تحقيق نسب ضغط عالية. يتم معالجة ذلك عن طريق التحكم بعناية في معلمات تحليل التنسور من أجل تحقيق توازن بين تقليل الحجم واستقرار الأداء.

تحدي آخر هو ضمان أن النماذج المضغوطة تحافظ على القوة عبر مهام مختلفة، بما في ذلك التفكير، والأداء متعدد اللغات، وحالات الاستخدام الخاصة بالمجال.

أخيرًا، تختلف بيئات النشر بشكل كبير. يجب تحسين الضغط لأهداف الأجهزة المختلفة، ومتطلبات التأخير، والقيود التشغيلية.

ما هي الفكرة الجيدة التي يمكن اعتبارها تشبيهاً؟

إعادة كتابة المخطط، وليس إزالة الطوب: لا تقوم CompactifAI ببساطة بإزالة أجزاء من النموذج. بدلاً من ذلك، تعيد كتابة المخطط الرياضي بحيث يتم تمثيل نفس الهيكل بشكل أكثر كفاءة.

إنها مثل إعادة تصميم الهيكل الداخلي لمبنى بحيث يستخدم مواد أقل بكثير مع الحفاظ على القوة والوظائف.

تشبيه آخر هو إعادة تنظيم أرشيف ضخم إلى نظام منظم للغاية يقضي على التكرار. المعرفة تبقى متكاملة، ولكن يتم تشفيرها بشكل أكثر كفاءة بكثير.

كيف تحدد فقدان الدقة؟

يتم تحديد فقدان الدقة من خلال قياس النماذج المضغوطة مقابل الأصل على نفس المهام ومعايير القياس، ثم قياس التغيير.

في الممارسة العملية، يتضمن ذلك تقييمات استدعاء الأدوات. تقليل فقدان القدرة هنا يمكّن من تحقيق سير عمل مستند إلى الوكالة وتطبيقات البرمجة الأكثر تقدماً.

ما الشركات الأخرى (ربما المنافسة) التي تعمل على نفس التقنية؟

تعتبر تقنية ضغط الحوسبة متعددة الأكوان فريدة تمامًا، إذ تستند إلى أبحاث في الشبكات التنسورية المستوحاة من الكم من قبل المؤسس المشارك والرئيس التنفيذي رومان أورس.

على الرغم من وجود تقنيات أخرى متاحة لضغط نماذج الذكاء الاصطناعي، إلا أنها تأتي مع المقايضة بفقدان دقة أكبر بكثير.

بالنظر إلى أن نماذج اللغة الكبيرة تتطور بشكل عضوي بمرور الوقت، ما هو مستقبل ضغطكم (ربما تطبيقات الأجهزة) أو شيء آخر؟

يمكن تطبيق هذه التقنية الضاغطة على نماذج اللغة الكبيرة القادمة، مما يعني أنه في المستقبل، ستكون الأجهزة مثل السيارات والهواتف المحمولة وأجهزة الكمبيوتر المحمولة وغيرها قادرة على تشغيل نماذج الذكاء الاصطناعي الصغيرة أو النانوية المثبتة مسبقًا على أجهزة الاتصال الخاصة بها.

هل هي غير مرتبطة بالأجهزة؟ هل تعمل بشكل أفضل مع أجهزة معينة (ASIC) أكثر من غيرها؟

نعم، إنها غير مرتبطة بالأجهزة على مستوى النموذج: CompactifAI تضغط أوزان النموذج بعد التدريب، لذا يمكن نشر النموذج الناتج عبر السحابة والمحلية والبيئات الحافة دون تغيير واجهة النموذج الخارجية.

تسريع الاستدلال يعتمد على ما كان يحدك قبل ذلك: إذا كنت مقيدًا بالذاكرة، فإن النموذج الأصغر غالبًا ما يعمل بشكل أسرع بكثير وأرخص على نفس الأجهزة.

لا تتطلب ASIC، ولكن عادة ما توفر وحدات معالجة الرسوميات/المسرعات الذكاء الاصطناعي أعلى إنتاجية لاستدلال المحولات بمجرد أن يناسب النموذج الذاكرة بشكل مريح.

على ماذا يعتمد الضغط؟

يعتمد CompactifAI على التكرار في مصفوفات وزن المحولات المدربة: غالبًا ما تكون النماذج الكبيرة مفرطة المعلمات، لذا يمكن تمثيل نفس السلوكيات بعدد أقل من المعلمات الفعالة.

بدلاً من الضغط العام “بطريقة الضغط”، تستخدم إعادة تشكيل واعية للنموذج (الشبكات التنسورية المستوحاة من الكم) لإعادة كتابة المصفوفات الكبيرة في شكل منظم وصغير بينما تخفف من فقدان الدقة.

ما الذي يمنع الآخرين من نسخ تقنياتك/عملياتك؟ مشابه للتقنيات المختلفة للضغط المتاحة (مثل zip و rar و 7z وما إلى ذلك)

تعتبر تقنية CompactifAI الخاصة بالحوسبة متعددة الأكوان نهجًا فريدًا لضغط نماذج الذكاء الاصطناعي، استنادًا إلى الأبحاث في الشبكات التنسورية المستوحاة من الكم من قبل المؤسس المشارك والرئيس التنفيذي رومان أورس، وفريق البحث الخاص بالشركة.

ما يمنع تقنيات النسخ هو المعرفة الفنية اللازمة لتحقيق معدلات ضغط عالية جدًا دون التضحية بالدقة.

يمكن أن تقلل CompactifAI حجم النموذج بنسبة تصل إلى 95٪ مع فقدان دقة يتراوح بين 2-3٪، مقارنة بالمعيار الصناعي لفقدان دقة يتراوح بين 20-30٪ بعد ضغط بنسبة 50-60٪ فقط.

CompactifAI – ضاغط نماذج الذكاء الاصطناعي – يوتيوب
CompactifAI - ضاغط نماذج الذكاء الاصطناعي - يوتيوب

مشاهدة على

تابع TechRadar على Google News و أضفنا كمصدر مفضل للحصول على أخبارنا وآرائنا وخلاصاتنا على حساباتك. تأكد من النقر على زر المتابعة!

وبالطبع يمكنك أيضًا متابعة TechRadar على TikTok للحصول على أخبار ومراجعات وفيديوهات تفريغ، واحصل على تحديثات منتظمة منا على واتساب أيضًا.

كان ديزير يكتب ويتأمل في التكنولوجيا خلال مسيرة تمتد لأربعة عقود. وقد خاض في منشئي المواقع واستضافة المواقع عندما كانت DHTML والأطر شائعة، وبدأ في سرد تأثير التكنولوجيا على المجتمع قبل بدء هوس Y2K في بداية الألفية الأخيرة.

بمساهمات من

تقنية CompactifAI

Related Posts

تجربة ضد ميتا في نيو مكسيكو تسلط الضوء على إيداعات الفيديو من قبل كبار التنفيذيين

ماذا يمكننا أن نتعلمه من التحليل العلمي لوصفات النهضة

أمازون تقول إن الطائرات غير المأهولة تسببت في أضرار لثلاث منشآت في الإمارات العربية المتحدة والبحرين

About لينا الصقّار