أداء النماذج الكبيرة جداً وقنوات PCIe: اعتبارات رئيسية

هل تفكر في تركيب وحدة معالجة رسومات ثانية للذكاء الاصطناعي؟

Page content

كيف تؤثر مسارات PCIe على أداء النماذج الكبيرة؟ يعتمد ذلك على المهمة. بالنسبة للتدريب والتنبؤ متعدد GPUs - فإن انخفاض الأداء كبير.

بالنسبة للتنبؤ متعدد GPUs، عندما تكون النموذج بالفعل في VRAM - تقريبًا لا يوجد فرق.

“لوحة أم مع عدد كبير من مسارات PCIe” تم إنشاء هذه الصورة تلقائيًا باستخدام Flux - النموذج الكبيرة لتحويل النص إلى صورة .

  • تحميل النموذج: تؤثر عدد مسارات PCIe بشكل أساسي على سرعة تحميل أوزان النموذج من الذاكرة العشوائية للنظام إلى VRAM للوحدة المُعالجة الرسومية. كلما زاد عدد المسارات (مثلاً x16)، كلما كانت النقل أسرع، مما يقلل من وقت التحميل الأولي. بمجرد تحميل النموذج إلى ذاكرة الوحدة المُعالجة الرسومية، فإن سرعة التنبؤ لا تتأثر تقريبًا بعرض نطاق PCIe، إلا إذا كان من الضروري نقل النموذج أو البيانات بشكل متكرر إلى وخارج VRAM.
  • سرعة التنبؤ: بالنسبة للمهام النموذجية الكبيرة، فإن عدد مسارات PCIe له تأثير ضئيل بعد تحميل النموذج، لأن العمليات تتم داخل وحدة المعالجة الرسومية. فقط عندما يكون من الضروري نقل النتائج أو البيانات الوسيطة بشكل متكرر إلى وحدة المعالجة المركزية أو بين وحدات المعالجة الرسومية، فإن عرض نطاق PCIe يصبح عنق زجاجة.
  • التدريب والأنظمة متعددة GPUs: بالنسبة للتدريب، خاصة مع عدة GPUs، يصبح عرض نطاق PCIe أكثر أهمية. عدد المسارات المنخفض (مثلاً x4) يمكن أن يبطئ التدريب بشكل كبير بسبب زيادة التواصل بين GPUs ونقل البيانات. للحصول على أفضل نتائج، يُنصح بوجود على الأقل x8 مسارات لكل GPU في الأنظمة متعددة GPUs.

مقارنة الأداء: مسارات PCIe واتصالات GPU

التكوين تأثيره على التنبؤ بالنموذج الكبيرة تأثيره على تدريب النموذج الكبيرة ملاحظات مهمة
PCIe x16 لكل GPU أسرع وقت تحميل، مثالي للنماذج الكبيرة الأفضل لتدريب النماذج متعددة GPUs القياسي في الأنظمة العالية الأداء والخوادم
PCIe x8 لكل GPU أبطأ قليلاً في التحميل، انخفاض ضئيل في سرعة التنبؤ مقبول لتدريب النماذج متعددة GPUs خسارة أداء طفيفة، خاصة في الأنظمة ذات 2-4 GPUs
PCIe x4 لكل GPU تحميل أبطأ بشكل ملحوظ، تأثير طفيف على سرعة التنبؤ تباطؤ كبير في التدريب لا يُنصح بالتدريب، لكنه يعمل لتنبؤ النماذج متعددة GPUs
SXM/NVLink (مثلاً H100) اتصال أسرع بين GPUs، حتى 2.6 مرة أسرع في التنبؤ مقارنة بـ PCIe أفضل لتدريب النماذج الكبيرة مثالي للنماذج الكبيرة على نطاق واسع، يسمح بتوحيد GPUs
  • SXM مقابل PCIe: يوفر شكل SXM من NVIDIA (مع NVLink) عرض نطاق أعلى بكثير بين GPUs مقارنة بـ PCIe. على سبيل المثال، تقدم وحدات H100 SXM5 أداءً أسرع بنسبة تصل إلى 2.6 مرة في التنبؤ بالنموذج الكبيرة مقارنة بـ H100 PCIe، خاصة في التكوينات متعددة GPUs. هذا أمر حيوي للنماذج الكبيرة والمهام الموزعة.
  • جيل PCIe: الانتقال من PCIe 3.0 إلى 4.0 أو 5.0 يوفر عرض نطاق أكبر، ولكن بالنسبة لمعظم المهام الصغيرة أو التنبؤ متعدد GPUs، فإن الفائدة العملية ضئيلة. بالنسبة للأنظمة الكبيرة أو التدريب متعدد GPUs، فإن الجيل الأعلى من PCIe يساعد في التوازي ونقل البيانات.

التوصيات العملية

  • التنبؤ بالنموذج الكبيرة متعدد GPUs: بعد تحميل النموذج، فإن عدد مسارات PCIe ليس عنق زجاجة كبير. عادةً ما تكون x4 كافية، على الرغم من أن x8 أو x16 ستقلل من وقت التحميل.
  • التنبؤ/التدريب متعدد GPUs: يفضل استخدام x8 أو x16 مسارات لكل GPU. عدد المسارات المنخفض يمكن أن يكون عنق زجاجة في التواصل بين GPUs، مما يبطئ التدريب والتنبؤ الكبيرة.
  • الأنظمة الكبيرة/البحث: للنماذج الأكبر والأداء الأسرع، أنظمة SXM/NVLink (مثلاً DGX، HGX) أفضل، مما يسمح بنقل البيانات بين GPUs أسرع وأعلى كمية.

“تشغيل GPUs على 4 مسارات جيد، خاصة إذا كان لديك فقط 2 GPU. في حالة وجود 4 GPUs، سأفضل 8 مسارات لكل GPU، ولكن تشغيلها على 4 مسارات سيؤدي فقط إلى انخفاض أداء بنسبة حوالي 5-10% إذا تم توزيعها على جميع 4 GPUs.”

الملخص

  • عدد مسارات PCIe يؤثر بشكل رئيسي على تحميل النموذج والتواصل بين GPUs، وليس على سرعة التنبؤ بعد تحميل النموذج.
  • بالنسبة لمعظم المستخدمين الذين ينفذون التنبؤ بالنموذج الكبيرة على GPU واحد، فإن عدد المسارات ليس مسألة مهمة.
  • بالنسبة للتدريب أو المهام متعددة GPUs، فإن عدد المسارات الأكبر (x8/x16) واتصالات عرض نطاق أعلى (NVLink/SXM) توفر مكاسب أداء كبيرة.

روابط مفيدة