SparseGPT مقابل Wanda: تقليص نماذج اللغة الكبيرة بضربة واحدة دون إعادة تدريب

أبرز النقاط
- تقنيتا SparseGPT وWanda تتيحان تقليص نماذج اللغة الكبيرة بنسبة 50-60% دون إعادة تدريب مكلفة
- Wanda أبسط وأسرع (10-15 دقيقة لنموذج 7 مليار معامل)، بينما SparseGPT أدق في الحفاظ على الجودة
- الاستفادة الفعلية من التقليص تتطلب بنية تحتية داعمة للمصفوفات المتفرقة وليس مجرد تصفير الأوزان
تشغيل نماذج اللغة الكبيرة (LLM) بات يشكّل عبئاً اقتصادياً متصاعداً على الفرق التقنية في المنطقة والعالم. ففي حين تُنفق الملايين على تدريب هذه النماذج، تبقى تكلفة الاستدلال اليومية هي المصروف التشغيلي الحقيقي: ذاكرة GPU، عرض النطاق، دورات الحوسبة، وسعة الخدمة المتزامنة. من هنا برزت تقنيات ضغط نماذج اللغة الكبيرة كحل جوهري، وفي مقدمتها SparseGPT وWanda اللتان تقلّصان النماذج بضربة واحدة دون الحاجة لإعادة التدريب المكلفة.
لماذا أصبح ضغط نماذج اللغة الكبيرة ضرورة وليس رفاهية؟
المعادلة بسيطة: حجم الذاكرة المطلوب يساوي عدد المعاملات مضروباً في حجم كل معامل بالبايت. نموذج بسبعة مليارات معامل بدقة FP16 يستهلك نحو 14 جيجابايت لتخزين الأوزان وحدها. أضف إلى ذلك ذاكرة التنشيط (activation buffers)، وذاكرة KV cache التي قد تتجاوز حجم الأوزان ذاتها أثناء التوليد الطويل، لتجد أن النماذج الكبيرة تتخطى سريعاً سعة بطاقات GPU الشائعة.
شراء بطاقات أكبر ليس حلاً مستداماً. بدلاً من ذلك، تتجه الفرق نحو أربع تقنيات رئيسية للضغط: التكميم (Quantization)، والتقطير (Distillation)، والتقريب منخفض الرتبة (Low-rank Approximation)، والتقليص (Pruning). نركز هنا على التقليص تحديداً، وعلى أبرز تقنيتين فيه: SparseGPT وWanda.
ما الفرق بين التفرق المهيكل وغير المهيكل في تقليص النماذج؟
الشبكات العصبية عادةً كثيفة (dense)، أي أن معظم أوزانها غير صفرية. التقليص يحوّلها إلى شبكات متفرقة (sparse) بتصفير أوزان محددة. هناك نوعان أساسيان للتفرق:
- التفرق غير المهيكل (Unstructured): يُزيل أوزاناً فردية من أي موقع في المصفوفة. يمنح مرونة عالية للخوارزمية في اختيار الأوزان الأقل أهمية، لكنه يُنتج أنماط وصول عشوائية للذاكرة تُعيق كفاءة GPU ما لم تُستخدم نوى (kernels) متخصصة للمصفوفات المتفرقة.
- التفرق المهيكل (Structured): يُزيل صفوفاً أو أعمدة أو مجموعات كاملة من الأوزان. أسهل في الاستغلال على العتاد القياسي، لكنه أقل مرونة وقد يؤثر أكثر على دقة النموذج.
الخلاصة: تصفير الأوزان لا يُسرّع الاستدلال تلقائياً. التسريع الفعلي يتطلب تخزيناً مضغوطاً للمصفوفات المتفرقة ونوى ضرب مصفوفات متفرقة على مستوى البنية التحتية.
كيف يعمل SparseGPT: إعادة بناء بضربة واحدة
طرح فريق IST Austria تقنية SparseGPT عام 2023 كأول طريقة تُثبت إمكانية تقليص نماذج عائلة GPT الكبيرة إلى 50% تفرق على الأقل بضربة واحدة (one-shot) دون أي إعادة تدريب. الفكرة الجوهرية: بدلاً من تصفير الأوزان ثم إعادة تدريب النموذج لتعويض الضرر، تُعيد SparseGPT بناء مخرجات كل طبقة بعد التقليص مباشرةً عبر حل مسألة تحسين محلية.
يستخدم الأسلوب تمريرة أمامية واحدة (single forward pass) على عينة معايرة صغيرة، ويُحدد الأوزان الأقل أهمية بناءً على تأثيرها على خطأ إعادة البناء، ثم يُعدّل الأوزان المتبقية لتعويض الفقد. النتيجة: نموذج متفرق بنسبة 50-60% مع انحدار طفيف في الدقة.
Wanda: بساطة التقليص المدرك للتنشيط
طوّر باحثون من جامعة كارنيجي ميلون وMeta تقنية Wanda كبديل أبسط وأسرع. بدلاً من حل مسألة تحسين معقدة، تعتمد Wanda على معيار مباشر: حاصل ضرب القيمة المطلقة للوزن في متوسط تنشيط المدخلات المقابلة. الأوزان ذات الحاصل الأدنى تُصفّر.
هذا النهج يُدرك أن وزناً صغيراً مرتبطاً بتنشيط كبير قد يكون أهم من وزن كبير مرتبط بتنشيط ضئيل. النتيجة: أداء مقارب لـSparseGPT مع تقليص نموذج 7 مليار معامل في 10-15 دقيقة فقط، مقارنة بساعات للطرق التقليدية.
SparseGPT مقابل Wanda: متى تختار أيهما؟
- SparseGPT: الأفضل حين تحتاج أعلى دقة ممكنة بعد التقليص، أو حين تستهدف نسب تفرق عالية جداً (أكثر من 60%).
- Wanda: الخيار الأمثل للسرعة والبساطة، خاصة في النماذج المتوسطة (7-13 مليار معامل) حيث الفارق في الدقة طفيف.
- الجمع بين الاثنين: بعض الفرق تستخدم Wanda للتجريب السريع ثم SparseGPT للنسخة الإنتاجية.
وفقاً لـMingjie Sun، أحد مؤلفي ورقة Wanda: تُقلّص Wanda الأوزان بناءً على حاصل ضرب حجم الوزن بتنشيط المدخلات، وتحقق أداءً مقارباً لـSparseGPT مع بساطة أكبر بكثير.
خطوات تطبيق التقليص على GPU سحابية
سواء اخترت SparseGPT أو Wanda، فإن سير العمل العملي متشابه إلى حد كبير:
- تحميل النموذج الأصلي على GPU سحابية (DigitalOcean، AWS، Azure، أو مزود محلي في الخليج).
- إعداد عينة معايرة صغيرة (عادةً 128-512 جملة من بيانات مشابهة لحالة الاستخدام).
- تشغيل خوارزمية التقليص (SparseGPT أو Wanda) عبر مكتبات مفتوحة المصدر مثل llm-compressor أو sparseml.
- تقييم النموذج المقلّص على مقاييس معيارية (Perplexity، مهام محددة).
- تحويل النموذج إلى صيغة تدعم المصفوفات المتفرقة (ONNX Sparse، أو صيغ متخصصة).
- نشر النموذج باستخدام محرك استدلال يدعم التفرق (مثل vLLM مع دعم sparsity أو TensorRT-LLM).
ما التسريع الفعلي المتوقع من النماذج المتفرقة؟
التوقعات النظرية مغرية: تقليص 50% من الأوزان يعني نصف العمليات الحسابية. الواقع أكثر تعقيداً. التسريع الفعلي يعتمد على:
- نوع GPU: بطاقات Nvidia Ampere وما بعدها تدعم نوى متفرقة (Sparse Tensor Cores) بنمط 2:4.
- محرك الاستدلال: ليس كل المحركات تستغل التفرق. تحقق من دعم sparsity في محركك.
- نسبة التفرق: التسريع يظهر بوضوح عند 50% فأكثر.
- نمط التفرق: 2:4 المهيكل أسرع على Nvidia، بينما غير المهيكل يتطلب برمجيات متخصصة.
الأثر الاقتصادي: من تقليص الأوزان إلى تقليص الفواتير
ضغط نماذج اللغة الكبيرة ليس مجرد تحدٍّ تقني، بل قرار اقتصادي. نموذج بحجم GPT-3 (175 مليار معامل) قد يكلّف أكثر من 100 ألف دولار شهرياً في تكاليف التشغيل غير المضغوط. التقليص يُمكّن من:
- نشر النماذج على بطاقات GPU أصغر وأرخص.
- تشغيل عدة نماذج على بطاقة واحدة (multi-model serving).
- زيادة حجم الدفعة (batch size) بنفس الميزانية.
- نشر النماذج على أجهزة طرفية (edge devices) لحالات الاستخدام ذات زمن الاستجابة الحرج.
كما يُشير Tim Dettmers من جامعة واشنطن: ضغط النماذج لا يتعلق فقط بتوفير تكاليف الحوسبة، بل بإتاحة الوصول إلى الذكاء الاصطناعي القوي عبر تشغيل هذه النماذج على عتاد المستهلك.
رأي Logicity
في سياق التحول الرقمي الخليجي ومبادرات مثل رؤية 2030، تمثل تقنيات التقليص مثل SparseGPT وWanda فرصة للفرق المحلية لتشغيل نماذج ذكاء اصطناعي متقدمة بتكلفة أقل، دون الاعتماد الكامل على بنى سحابية عملاقة. الأهم: النجاح لا يقتصر على اختيار الخوارزمية، بل يتطلب بنية تحتية داعمة للمصفوفات المتفرقة ومحرك استدلال مهيأً لاستغلالها.
متى تستخدم SparseGPT ومتى تلجأ إلى Wanda؟
- استخدم SparseGPT إذا كانت الدقة أولوية قصوى أو كنت تستهدف تفرقاً يتجاوز 60%.
- استخدم Wanda للتجريب السريع، أو حين تعمل على نماذج متوسطة الحجم ولا تملك ساعات للتقليص.
- ادمج الاثنين: Wanda للنماذج التجريبية، SparseGPT للإنتاج.
الأسئلة الشائعة
هل يمكن الجمع بين التقليص (Pruning) والتكميم (Quantization)؟
نعم، كثير من الفرق تُطبّق التقليص أولاً ثم التكميم (مثلاً تقليص 50% ثم تحويل إلى INT8). النتيجة نموذج أصغر بكثير مع تسريع مضاعف، لكن يجب اختبار الدقة بعناية.
هل تدعم جميع بطاقات GPU التفرق المتسارع؟
لا. التسريع الفعلي يتطلب بطاقات Nvidia من جيل Ampere فما فوق مع نوى Sparse Tensor Cores، ومحرك استدلال يدعم sparsity.
ما حجم عينة المعايرة اللازمة لـSparseGPT وWanda؟
عادةً 128-512 جملة تكفي. المهم أن تكون العينة ممثلة لحالة الاستخدام الفعلية للنموذج.
هل التقليص يؤثر على قدرات النموذج اللغوية بالعربية؟
قد يتأثر الأداء بشكل طفيف على اللغات الأقل تمثيلاً في بيانات التدريب. يُنصح باختبار النموذج المقلّص على مهام عربية محددة قبل النشر الإنتاجي.
أين أجد أدوات مفتوحة المصدر لتطبيق SparseGPT وWanda؟
مكتبات مثل llm-compressor وsparseml من Neural Magic، إضافة إلى مستودعات الأوراق الأصلية على GitHub، توفر تطبيقات جاهزة للاستخدام.
الخلاصة
SparseGPT وWanda أعادتا تعريف ما هو ممكن في ضغط نماذج اللغة الكبيرة: تقليص بنسبة 50-60% بضربة واحدة، دون أيام من إعادة التدريب. الفارق بينهما يكمن في التوازن بين الدقة والسرعة. لكن التقليص وحده لا يكفي؛ التسريع الفعلي يتطلب بنية تحتية داعمة للمصفوفات المتفرقة. ابدأ بـWanda للتجريب، ثم انتقل إلى SparseGPT للإنتاج، ولا تنسَ اختبار الأداء على مهامك الفعلية قبل النشر.
هل تحتاج مساعدة في التطبيق؟
إذا كنت تخطط لتقليص نماذج اللغة الكبيرة في مشروعك أو تحتاج استشارة حول البنية التحتية الداعمة للاستدلال المتفرق، تواصل مع فريق Logicity للحصول على دعم تقني متخصص.
عمر حسن
كاتب تقني وابتكار
مقالات ذات صلة
تصفح الكل
أدوات الخادم مقابل أدوات العميل لوكلاء الذكاء الاصطناعي: مفاضلة زمن الاستجابة التي تحدد بنية مشروعك
كل وكيل ذكاء اصطناعي يصطدم في النهاية بالمشكلة البنيوية ذاتها: النموذج يستطيع الاستدلال، لكنه لا يستطيع الفعل دون أدوات. لا بدّ من طرفٍ يُنفّذ تلك الأدوات — يجلب نتائج البحث، يستعلم قاعدة البيانات، يس

كيف تستخدم JavaScript Fetch API: إرسال الطلبات ومعالجة الأخطاء وإلغاء الاتصالات
تُعدّ JavaScript Fetch API الأداة المدمجة لإجراء طلبات HTTP في المتصفحات الحديثة وبيئة Node.js بدءاً من الإصدار 18. تعتمد هذه الواجهة على Promises، مما يُتيح لك استخدام سلسلة .then() أو صيغة async/awa

دليل إعداد PHP-FPM مع Nginx على Ubuntu خطوة بخطوة
يُعدّ الجمع بين PHP-FPM مع Nginx الطريقة المعيارية لتشغيل تطبيقات PHP على خوادم Nginx، إذ لا يمتلك Nginx وحدة PHP مدمجة كما هو الحال مع mod_php في Apache. بدلاً من ذلك، يتولى Nginx تقديم الملفات الثاب
اقرأ أيضاً

سجل الإصدارات في Microsoft 365: شبكة الأمان التي لا يعرفها معظم المستخدمين
لسنوات طويلة، ظل شعار "احفظ باكراً واحفظ كثيراً" قاعدة ذهبية في عالم الحوسبة. كلنا نتذكر قلق العمل على ملف Word أو Excel حاسم، والإصبع جاهز فوق Ctrl+S خشية انقطاع الكهرباء أو انهيار البرنامج. لكن Micr

حظر نموذج Fable 5: أنثروبيك في مواجهة قيود التصدير الأمريكية على الذكاء الاصطناعي
في تصعيد غير مسبوق يكشف ملامح حقبة جديدة من قيود تصدير الذكاء الاصطناعي، فرضت الحكومة الأمريكية يوم الجمعة الماضي قيوداً على نموذج Fable 5 الذي أطلقته شركة أنثروبيك قبل أقل من أسبوع، إضافة إلى نموذج M

مؤسس VLC يجمع 5 ملايين دولار لإطلاق Kyber: منصة التحكم بالروبوتات عن بُعد
جمعت شركة Kyber الباريسية الناشئة جولة تمويلية بقيمة 5 ملايين دولار بقيادة صندوق Lightspeed، لتُطلق فصلاً جديداً في مسيرة جان-باتيست كيمف، المطوّر الرئيسي لبرنامج VLC الذي تجاوزت تنزيلاته 6 مليارات مر