اختبار سرعة النماذج الكبيرة للغات

لنختبر سرعة النماذج الكبيرة للغة على وحدة معالجة الرسومات (GPU) مقابل وحدة المعالجة المركزية (CPU)

Page content

مقارنة سرعة التنبؤ لعدة إصدارات من نماذج LLMs: llama3 (Meta/Facebook)، phi3 (Microsoft)، gemma (Google)، mistral (مصدر مفتوح) على وحدة المعالجة المركزية (CPU) ووحدة معالجة الرسومات (GPU).

اختبار سرعة نماذج اللغة الكبيرة في اكتشاف الأخطاء المنطقية - ساعة رملية

أنا أستخدم نفس النص المُعين كما في الاختبار السابق حيث قارنت جودة اكتشاف الأخطاء المنطقية لهذه النماذج LLMs.

يا إلهي، من النظرة الأولى، يبدو كل شيء مُحتملًا تمامًا: عدد كبير جدًا من الناس، وعدد قليل جدًا من المنازل.

لكنها أبدًا لا تكون بهذه البساطة، كما يجب أن يعلم وزير سابق للشؤون المنزلية.

TL;DR

على وحدة معالجة الرسومات (GPU)، تعمل نماذج LLMs بسرعة تبلغ حوالي 20 مرة أسرع، ولكن على وحدة المعالجة المركزية (CPU)، فهي لا تزال من السهل التعامل معها.

وصف معدات الاختبار

لقد قمت بتشغيل النماذج التالية من نماذج اللغة الكبيرة على حاسوبين:

  • قديم مع معالج i5 من الجيل الرابع (4 نوى) (i5-4460 - تم إنتاجه في عام 2014) و
  • حديث مع وحدة معالجة الرسومات RTX 4080 (تم إنتاجه في عام 2022) مع 9728 نواة CUDA و304 نواة تنسور.

نتائج الاختبار

فيما يلي النتائج:

اسم النموذج والنسخة__________ ذاكرة GPU مدة GPU أداء GPU ذاكرة الرئيسية مدة CPU أداء CPU الفرق في الأداء
llama3:8b-instruct-q4_0 5.8GB 2.1 ثانية 80 ت/ثانية 4.7GB 49 ثانية 4.6 ت/ثانية 17.4x
llama3:8b-instruct-q8_0 9.3GB 3.4 ثانية 56 ت/ثانية 8.3GB 98 ثانية 2.7 ت/ثانية 20.7x
phi3:3.8b 4.5GB 3.6 ثانية 98 ت/ثانية 3.0GB 83 ثانية 7.2 ت/ثانية 13.6x
phi3:3.8b-mini-4k-instruct-q8_0 6.0GB 6.9 ثانية 89 ت/ثانية 4.6GB 79 ثانية 5.3 ت/ثانية 16.8x
phi3:3.8b-mini-instruct-4k-fp16 9.3GB 4.2 ثانية 66 ت/ثانية 7.9GB 130 ثانية 2.9 ت/ثانية 22.8x
phi3:14b 9.6GB 4.2 ثانية 55 ت/ثانية 7.9GB 96 ثانية 2.7 ت/ثانية 21.2x
phi3:14b-medium-4k-instruct-q6_K 12.5GB 8.9 ثانية 42 ت/ثانية 11.1GB 175 ثانية 1.9 ت/ثانية 21.8x
mistral:7b-instruct-v0.3-q4_0 5.4GB 2.1 ثانية 87 ت/ثانية 4.1GB 36 ثانية 4.9 ت/ثانية 17.8x
mistral:7b-instruct-v0.3-q8_0 8.7GB 2.3 ثانية 61 ت/ثانية 7.5GB 109 ثانية 2.9 ت/ثانية 21.0x
gemma:7b-instruct-v1.1-q4_0 7.4GB 1.8 ثانية 82 ت/ثانية 7.5GB 25 ثانية 4.4 ت/ثانية 18.6x
gemma:7b-instruct-v1.1-q6_K 9.1GB 1.6 ثانية 66 ت/ثانية 7.5GB 40 ثانية 3.0 ت/ثانية 22.0x

أداء النموذج موجود في “أداء GPU” و"أداء CPU".

زيادة السرعة عند الانتقال من CPU إلى GPU موجودة في “الفرق في الأداء”.

لا ينبغي أن نهتم كثيرًا بالعمود “المدة” - هذه الميزة تعتمد على أداء النموذج وطول النص الناتج. كل النماذج تنتج نصوصًا بطول مختلف. هذا العمود فقط يعطي وقت الانتظار الإرشادي.

الاستنتاج 1 - الفرق في الأداء

الفرق في السرعة بين وحدة المعالجة المركزية (CPU) ووحدة معالجة الرسومات (GPU) ليس كبيرًا كما توقعنا.

بجد؟ كل تلك الجيوش (10k+) من نوى Ada Tensor & CUDA مقابل 4 نوى من Haswell، وفرق فقط 20 مرة. كنت أعتقد أنه سيكون 100-1000 مرة.

الاستنتاج 2 - تكلفة التنبؤ تقريبًا نفسها

  • تكلفة هذا الحاسوب الجديد حوالي 3500 دولار أسترالي
  • ذلك الحاسوب القديم يكلف الآن حوالي 200 دولار أسترالي

من موقع PCCCaseGear:

حاسوب مع RTX 4080super سعر

من موقع ebay (ربما ترغب في إضافة 8 جيجابايت إضافية من الذاكرة لتصل إلى 16 جيجابايت إجماليًا - لذا دعنا نقربه إلى 200 دولار أسترالي):

Dell 9020 من ebay

ربما تحتاج إلى 20 من هذه الحواسيب القديمة لتصل إلى نفس معدل الإنتاج، لذا 200 دولار أسترالي * 20 = 4000 دولار أسترالي.

الاستنتاج 3 - قانون مور

قانون مور يشير إلى أن أداء الحواسيب يزداد بنسبة مرتين كل عامين.

بدأ إنتاج i5-4460 من إنتل في عام 2014. بدأ إنتاج أحد RTX 4080 من نيفيديا في عام 2022. الزيادة المتوقعة في الأداء يجب أن تكون حوالي 16 مرة.

أقول إن قانون مور لا يزال يعمل.

لكن تذكر أن Dell 9020 كان في ذلك الوقت حاسوبًا أساسيًا، بينما الحاسوب مع RTX 4080 هو الآن حاسوبًا متقدمًا للرسومات/الألعاب. وزن فئات مختلفة قليلاً.

روابط مفيدة