يمكن تشغيل طراز R1 AI الجديد من Deepseek على وحدة معالجة الرسومات الواحدة

قد يكون نموذج R1 الذي تم تحديثه لـ Deepseek هو الجزء الأكبر من انتباه مجتمع الذكاء الاصطناعى هذا الأسبوع. لكن مختبر AI الصيني أصدر أيضًا نسخة أصغر “مقطرة” من R1 الجديد ، Deepseek-R1-0528-QWEN3-8B ، الذي يدعي Deepseek يتفوق على نماذج ذات حجم نسبي على معايير معينة.
يعمل R1 الأصغر المحدث ، والذي تم إنشاؤه باستخدام نموذج QWEN3-8B الذي تم إطلاقه في شهر مايو كأساس ، أفضل من فلاش Gemini 2.5 من Google في AIME 2025 ، وهي مجموعة من أسئلة الرياضيات الصعبة.
Deepseek-R1-0528-QWEN3-8B أيضًا يطابق ما يقرب من نموذج Microsoft الذي تم إصداره مؤخرًا PHI 4 Reasoning Plus في اختبار آخر لمهارات الرياضيات ، HMMT.
ما يسمى النماذج المقطرة مثل Deepseek-R1-0528-QWEN3-8B هي عمومًا أقل قدرة من نظيراتها كاملة الحجم. على الجانب الإيجابي ، فهي أقل حسابا من الناحية الحسابية. وفقًا لـ Cloud Platform NodeShift ، يتطلب QWEN3-8B GPU مع ذاكرة الوصول العشوائي 40GB-80GB لتشغيلها (على سبيل المثال ، NVIDIA H100). احتياجات R1 الجديدة ذات الحجم الكامل حوالي عشرة وحدات معالجة الرسومات 80 جيجابايت.
قام Deepseek بتدريب Deepseek-R1-0528-QWEN3-8B عن طريق أخذ نص تم إنشاؤه بواسطة R1 المحدث واستخدامه لضبط QWEN3-8B. في صفحة ويب مخصصة للنموذج على وجه منصة AI Dev ، يصف Deepseek Deepseek-R1-0528-QWEN3-8B بأنه “لكل من الأبحاث الأكاديمية حول نماذج التفكير والتنمية الصناعية التي تركز على النماذج الصغيرة.”
Deepseek-R1-0528-QWEN3-8B متاح بموجب ترخيص معهد ماساتشوستس للتكنولوجيا ، مما يعني أنه يمكن استخدامه تجاريًا دون تقييد. العديد من المضيفين ، بما في ذلك LM Studio ، يقدمون بالفعل النموذج من خلال واجهة برمجة التطبيقات.
اكتشاف المزيد من مجلة كوكان
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.