Tutorials & How-To

SparseGPT مقابل Wanda: تقليص نماذج اللغة الكبيرة بضربة واحدة دون إعادة تدريب

عمر حسن20 June 2026 at 8:17 am8 دقيقة للقراءة

أبرز النقاط

تقنيتا SparseGPT وWanda تتيحان تقليص نماذج اللغة الكبيرة بنسبة 50-60% دون إعادة تدريب مكلفة
Wanda أبسط وأسرع (10-15 دقيقة لنموذج 7 مليار معامل)، بينما SparseGPT أدق في الحفاظ على الجودة
الاستفادة الفعلية من التقليص تتطلب بنية تحتية داعمة للمصفوفات المتفرقة وليس مجرد تصفير الأوزان

تشغيل نماذج اللغة الكبيرة (LLM) بات يشكّل عبئاً اقتصادياً متصاعداً على الفرق التقنية في المنطقة والعالم. ففي حين تُنفق الملايين على تدريب هذه النماذج، تبقى تكلفة الاستدلال اليومية هي المصروف التشغيلي الحقيقي: ذاكرة GPU، عرض النطاق، دورات الحوسبة، وسعة الخدمة المتزامنة. من هنا برزت تقنيات ضغط نماذج اللغة الكبيرة كحل جوهري، وفي مقدمتها SparseGPT وWanda اللتان تقلّصان النماذج بضربة واحدة دون الحاجة لإعادة التدريب المكلفة.

14 جيجابايت

الحد الأدنى لذاكرة GPU المطلوبة لتحميل أوزان نموذج 7 مليار معامل بدقة FP16 فقط، دون احتساب ذاكرة التنشيط أو KV cache

لماذا أصبح ضغط نماذج اللغة الكبيرة ضرورة وليس رفاهية؟

المعادلة بسيطة: حجم الذاكرة المطلوب يساوي عدد المعاملات مضروباً في حجم كل معامل بالبايت. نموذج بسبعة مليارات معامل بدقة FP16 يستهلك نحو 14 جيجابايت لتخزين الأوزان وحدها. أضف إلى ذلك ذاكرة التنشيط (activation buffers)، وذاكرة KV cache التي قد تتجاوز حجم الأوزان ذاتها أثناء التوليد الطويل، لتجد أن النماذج الكبيرة تتخطى سريعاً سعة بطاقات GPU الشائعة.

شراء بطاقات أكبر ليس حلاً مستداماً. بدلاً من ذلك، تتجه الفرق نحو أربع تقنيات رئيسية للضغط: التكميم (Quantization)، والتقطير (Distillation)، والتقريب منخفض الرتبة (Low-rank Approximation)، والتقليص (Pruning). نركز هنا على التقليص تحديداً، وعلى أبرز تقنيتين فيه: SparseGPT وWanda.

ما الفرق بين التفرق المهيكل وغير المهيكل في تقليص النماذج؟

الشبكات العصبية عادةً كثيفة (dense)، أي أن معظم أوزانها غير صفرية. التقليص يحوّلها إلى شبكات متفرقة (sparse) بتصفير أوزان محددة. هناك نوعان أساسيان للتفرق:

التفرق غير المهيكل (Unstructured): يُزيل أوزاناً فردية من أي موقع في المصفوفة. يمنح مرونة عالية للخوارزمية في اختيار الأوزان الأقل أهمية، لكنه يُنتج أنماط وصول عشوائية للذاكرة تُعيق كفاءة GPU ما لم تُستخدم نوى (kernels) متخصصة للمصفوفات المتفرقة.
التفرق المهيكل (Structured): يُزيل صفوفاً أو أعمدة أو مجموعات كاملة من الأوزان. أسهل في الاستغلال على العتاد القياسي، لكنه أقل مرونة وقد يؤثر أكثر على دقة النموذج.

الخلاصة: تصفير الأوزان لا يُسرّع الاستدلال تلقائياً. التسريع الفعلي يتطلب تخزيناً مضغوطاً للمصفوفات المتفرقة ونوى ضرب مصفوفات متفرقة على مستوى البنية التحتية.

كيف يعمل SparseGPT: إعادة بناء بضربة واحدة

طرح فريق IST Austria تقنية SparseGPT عام 2023 كأول طريقة تُثبت إمكانية تقليص نماذج عائلة GPT الكبيرة إلى 50% تفرق على الأقل بضربة واحدة (one-shot) دون أي إعادة تدريب. الفكرة الجوهرية: بدلاً من تصفير الأوزان ثم إعادة تدريب النموذج لتعويض الضرر، تُعيد SparseGPT بناء مخرجات كل طبقة بعد التقليص مباشرةً عبر حل مسألة تحسين محلية.

يستخدم الأسلوب تمريرة أمامية واحدة (single forward pass) على عينة معايرة صغيرة، ويُحدد الأوزان الأقل أهمية بناءً على تأثيرها على خطأ إعادة البناء، ثم يُعدّل الأوزان المتبقية لتعويض الفقد. النتيجة: نموذج متفرق بنسبة 50-60% مع انحدار طفيف في الدقة.

50-60%

نسبة التفرق التي يمكن أن يصل إليها SparseGPT مع الحفاظ على دقة مقبولة في تمريرة واحدة

Wanda: بساطة التقليص المدرك للتنشيط

طوّر باحثون من جامعة كارنيجي ميلون وMeta تقنية Wanda كبديل أبسط وأسرع. بدلاً من حل مسألة تحسين معقدة، تعتمد Wanda على معيار مباشر: حاصل ضرب القيمة المطلقة للوزن في متوسط تنشيط المدخلات المقابلة. الأوزان ذات الحاصل الأدنى تُصفّر.

هذا النهج يُدرك أن وزناً صغيراً مرتبطاً بتنشيط كبير قد يكون أهم من وزن كبير مرتبط بتنشيط ضئيل. النتيجة: أداء مقارب لـSparseGPT مع تقليص نموذج 7 مليار معامل في 10-15 دقيقة فقط، مقارنة بساعات للطرق التقليدية.

SparseGPT مقابل Wanda: متى تختار أيهما؟

SparseGPT: الأفضل حين تحتاج أعلى دقة ممكنة بعد التقليص، أو حين تستهدف نسب تفرق عالية جداً (أكثر من 60%).
Wanda: الخيار الأمثل للسرعة والبساطة، خاصة في النماذج المتوسطة (7-13 مليار معامل) حيث الفارق في الدقة طفيف.
الجمع بين الاثنين: بعض الفرق تستخدم Wanda للتجريب السريع ثم SparseGPT للنسخة الإنتاجية.

وفقاً لـMingjie Sun، أحد مؤلفي ورقة Wanda: تُقلّص Wanda الأوزان بناءً على حاصل ضرب حجم الوزن بتنشيط المدخلات، وتحقق أداءً مقارباً لـSparseGPT مع بساطة أكبر بكثير.

خطوات تطبيق التقليص على GPU سحابية

سواء اخترت SparseGPT أو Wanda، فإن سير العمل العملي متشابه إلى حد كبير:

تحميل النموذج الأصلي على GPU سحابية (DigitalOcean، AWS، Azure، أو مزود محلي في الخليج).
إعداد عينة معايرة صغيرة (عادةً 128-512 جملة من بيانات مشابهة لحالة الاستخدام).
تشغيل خوارزمية التقليص (SparseGPT أو Wanda) عبر مكتبات مفتوحة المصدر مثل llm-compressor أو sparseml.
تقييم النموذج المقلّص على مقاييس معيارية (Perplexity، مهام محددة).
تحويل النموذج إلى صيغة تدعم المصفوفات المتفرقة (ONNX Sparse، أو صيغ متخصصة).
نشر النموذج باستخدام محرك استدلال يدعم التفرق (مثل vLLM مع دعم sparsity أو TensorRT-LLM).

ما التسريع الفعلي المتوقع من النماذج المتفرقة؟

التوقعات النظرية مغرية: تقليص 50% من الأوزان يعني نصف العمليات الحسابية. الواقع أكثر تعقيداً. التسريع الفعلي يعتمد على:

نوع GPU: بطاقات Nvidia Ampere وما بعدها تدعم نوى متفرقة (Sparse Tensor Cores) بنمط 2:4.
محرك الاستدلال: ليس كل المحركات تستغل التفرق. تحقق من دعم sparsity في محركك.
نسبة التفرق: التسريع يظهر بوضوح عند 50% فأكثر.
نمط التفرق: 2:4 المهيكل أسرع على Nvidia، بينما غير المهيكل يتطلب برمجيات متخصصة.

2-4x

التسريع المحتمل في الاستدلال من التفرق غير المهيكل على عتاد ومحركات داعمة

الأثر الاقتصادي: من تقليص الأوزان إلى تقليص الفواتير

ضغط نماذج اللغة الكبيرة ليس مجرد تحدٍّ تقني، بل قرار اقتصادي. نموذج بحجم GPT-3 (175 مليار معامل) قد يكلّف أكثر من 100 ألف دولار شهرياً في تكاليف التشغيل غير المضغوط. التقليص يُمكّن من:

نشر النماذج على بطاقات GPU أصغر وأرخص.
تشغيل عدة نماذج على بطاقة واحدة (multi-model serving).
زيادة حجم الدفعة (batch size) بنفس الميزانية.
نشر النماذج على أجهزة طرفية (edge devices) لحالات الاستخدام ذات زمن الاستجابة الحرج.

كما يُشير Tim Dettmers من جامعة واشنطن: ضغط النماذج لا يتعلق فقط بتوفير تكاليف الحوسبة، بل بإتاحة الوصول إلى الذكاء الاصطناعي القوي عبر تشغيل هذه النماذج على عتاد المستهلك.

ℹ️

رأي Logicity

في سياق التحول الرقمي الخليجي ومبادرات مثل رؤية 2030، تمثل تقنيات التقليص مثل SparseGPT وWanda فرصة للفرق المحلية لتشغيل نماذج ذكاء اصطناعي متقدمة بتكلفة أقل، دون الاعتماد الكامل على بنى سحابية عملاقة. الأهم: النجاح لا يقتصر على اختيار الخوارزمية، بل يتطلب بنية تحتية داعمة للمصفوفات المتفرقة ومحرك استدلال مهيأً لاستغلالها.

متى تستخدم SparseGPT ومتى تلجأ إلى Wanda؟

استخدم SparseGPT إذا كانت الدقة أولوية قصوى أو كنت تستهدف تفرقاً يتجاوز 60%.
استخدم Wanda للتجريب السريع، أو حين تعمل على نماذج متوسطة الحجم ولا تملك ساعات للتقليص.
ادمج الاثنين: Wanda للنماذج التجريبية، SparseGPT للإنتاج.

الأسئلة الشائعة

هل يمكن الجمع بين التقليص (Pruning) والتكميم (Quantization)؟

نعم، كثير من الفرق تُطبّق التقليص أولاً ثم التكميم (مثلاً تقليص 50% ثم تحويل إلى INT8). النتيجة نموذج أصغر بكثير مع تسريع مضاعف، لكن يجب اختبار الدقة بعناية.

هل تدعم جميع بطاقات GPU التفرق المتسارع؟

لا. التسريع الفعلي يتطلب بطاقات Nvidia من جيل Ampere فما فوق مع نوى Sparse Tensor Cores، ومحرك استدلال يدعم sparsity.

ما حجم عينة المعايرة اللازمة لـSparseGPT وWanda؟

عادةً 128-512 جملة تكفي. المهم أن تكون العينة ممثلة لحالة الاستخدام الفعلية للنموذج.

هل التقليص يؤثر على قدرات النموذج اللغوية بالعربية؟

قد يتأثر الأداء بشكل طفيف على اللغات الأقل تمثيلاً في بيانات التدريب. يُنصح باختبار النموذج المقلّص على مهام عربية محددة قبل النشر الإنتاجي.

أين أجد أدوات مفتوحة المصدر لتطبيق SparseGPT وWanda؟

مكتبات مثل llm-compressor وsparseml من Neural Magic، إضافة إلى مستودعات الأوراق الأصلية على GitHub، توفر تطبيقات جاهزة للاستخدام.

الخلاصة

SparseGPT وWanda أعادتا تعريف ما هو ممكن في ضغط نماذج اللغة الكبيرة: تقليص بنسبة 50-60% بضربة واحدة، دون أيام من إعادة التدريب. الفارق بينهما يكمن في التوازن بين الدقة والسرعة. لكن التقليص وحده لا يكفي؛ التسريع الفعلي يتطلب بنية تحتية داعمة للمصفوفات المتفرقة. ابدأ بـWanda للتجريب، ثم انتقل إلى SparseGPT للإنتاج، ولا تنسَ اختبار الأداء على مهامك الفعلية قبل النشر.

ℹ️

هل تحتاج مساعدة في التطبيق؟

إذا كنت تخطط لتقليص نماذج اللغة الكبيرة في مشروعك أو تحتاج استشارة حول البنية التحتية الداعمة للاستدلال المتفرق، تواصل مع فريق Logicity للحصول على دعم تقني متخصص.