كمبيوتر

كتل مسرّع الأجهزة من Intel Demos Sapphire Rapids قيد التشغيل في Innovation 2022


مع حدث الابتكار السنوي لشركة إنتل الذي يقام هذا الأسبوع في سان خوسيه ، تتطلع الشركة لاستعادة الكثير من الزخم التقني الذي فقد ببطء خلال العامين الماضيين. بينما ظلت إنتل تعمل بجد لإطلاق منتجات جديدة بمرور الوقت ، فإن مزيج من قسائم الجدول الزمني وعدم القدرة على عرض بضاعتهم أمام الجماهير الشخصية قد أزال بعض بريق الشركة ومنتجاتها. لذلك في أكبر حدث تقني شخصي لهم منذ ما قبل الوباء ، تستعرض الشركة أكبر قدر ممكن من السيليكون ، لإقناع الصحافة والشركاء والعملاء على حد سواء بأن جهود الرئيس التنفيذي بات غيلسنجر قد أعادت الشركة إلى المسار الصحيح.

من بين جميع نضالات Intel خلال العامين الماضيين ، لا يوجد طفل ملصق أفضل من وحدة المعالجة المركزية للخادم / محطة العمل Sapphire Rapids. منتج حقيقي من الجيل التالي من Intel يجلب كل شيء بدءًا من PCIe 5 و DDR5 إلى CXL ومجموعة كبيرة من مسرعات الأجهزة ، فلا يوجد حقًا ما تكتبه عن تأخيرات Sapphire Rapids التي لم تُقال بالفعل – سينتهي بها الأمر أكثر من بعد عام.

لكن Sapphire Rapids قادم. وأخيرًا ، تمكنت Intel من رؤية الضوء في نهاية النفق على جهود التطوير هذه. مع التوفر العام المقرر للربع الأول من عام 2023 ، ما يزيد قليلاً عن الربع من الآن ، أصبحت Intel أخيرًا في وضع يمكنها من التباهي بـ Sapphire Rapids أمام جمهور أوسع – أو على الأقل أعضاء الصحافة. أو لأخذ قراءة أكثر واقعية بشأن الأمور ، تحتاج إنتل الآن إلى البدء بجدية في الترويج لـ Sapphire Rapids قبل إطلاقها ، والترويج لمنافستها.

في معرض هذا العام ، دعت إنتل أعضاء الصحافة لمشاهدة عرض توضيحي مباشر لما قبل الإنتاج من السيليكون Sapphire Rapids قيد التشغيل. الغرض من العروض ، إلى جانب منح الصحافة القدرة على قول “رأينا ذلك ؛ إنه موجود! ” هو البدء في عرض إحدى الميزات الفريدة من نوعها لـ Sapphire Rapids: مجموعتها من كتل التسريع المخصصة.

إلى جانب تقديم تحديث تمس الحاجة إليه لنواة معالج وحدة المعالجة المركزية ، تضيف Sapphire Rapids أيضًا / تكامل كتل تسريع مخصصة للعديد من أعباء العمل الشائعة للخادم / محطات العمل الحرجة لوحدة المعالجة المركزية. الفكرة ، ببساطة ، هي أن السيليكون ذو الوظيفة الثابتة يمكنه القيام بالمهمة بأسرع أو أفضل من أنوية وحدة المعالجة المركزية لجزء بسيط من الطاقة ، ولزيادة جزئية فقط في حجم القالب. ومع وجود فرط التعداد ومشغلي الخوادم الآخرين الذين يبحثون عن تحسينات كبيرة في كثافة الحوسبة وكفاءة الطاقة ، فإن مسرعات النطاق المحددة مثل هذه هي طريقة جيدة لشركة Intel لتقديم هذا النوع من الحافة لعملائها. ولا يضر ذلك أيضًا بعدم توقع وجود كتل تسريع مماثلة لـ AMD المنافسة.

نظرة سريعة على Sapphire Rapids Silicon

قبل أن نصل إلى أبعد من ذلك ، إليك نظرة سريعة جدًا على Sapphire Rapids silicon.

بالنسبة لعروضها التوضيحية (واستخدام المراجع النهائي) ، جمعت إنتل بعض أنظمة Sapphire Rapids ذات المقبس المزدوج باستخدام السيليكون قبل الإنتاج. ولأغراض التصوير ، فقد فتحوا نظامًا واحدًا وأخرجوا وحدة المعالجة المركزية.

ليس هناك الكثير مما يمكننا قوله عن السيليكون في هذه المرحلة بخلاف حقيقة أنه يعمل. نظرًا لأنها لا تزال في مرحلة ما قبل الإنتاج ، فإن Intel لا تكشف عن سرعات الساعة أو أرقام الطراز – أو ما هي الأخطاء التي نتج عنها كونها سيليكون غير نهائي. ولكن ما نعرفه هو أن هذه الرقائق تحتوي على 60 نواة وحدة معالجة مركزية قيد التشغيل ، بالإضافة إلى كتل التسريع التي كانت موضوع عروض اليوم.

مسرعات Sapphire Rapids: AMX و DLB و DSA و IAA و AMX

بدون احتساب وحدات AVX-512 على أنوية Sapphire Rapids CPU ، سيتم شحن وحدات المعالجة المركزية للخادم مع 4 مسرعات مخصصة داخل كل بلاطة وحدة المعالجة المركزية.

هذه هي Intel Dynamic Load Balancer (DLB) و Intel Data Streaming Accelerator (DSA) و Intel In-Memory Analytics Accelerator (IAA) و Intel QuickAssist Technology (QAT). كل هذه الأشياء تتدلى من شبكة الرقاقة كأجهزة مخصصة ، وتعمل بشكل أساسي كمسرعات PCIe التي تم دمجها في سيليكون وحدة المعالجة المركزية نفسها. هذا يعني أن المسرّعات لا تستهلك الموارد الأساسية لوحدة المعالجة المركزية (الذاكرة والإدخال / الإخراج مسألة أخرى) ، ولكن هذا يعني أيضًا أن عدد نوى التسريع المتاحة لا يتناسب بشكل مباشر مع عدد نوى وحدة المعالجة المركزية.

من بين هؤلاء ، كل شيء ما عدا QAT جديد بالنسبة لشركة Intel. QAT هو الاستثناء حيث تم تنفيذ الجيل السابق من تلك التكنولوجيا في PCH (مجموعة شرائح) المستخدمة لـ 3بحث وتطوير تم دمج معالجات Xeon (Ice Lake-SP) ، واعتبارًا من Sapphire Rapids في سيليكون وحدة المعالجة المركزية نفسها. وبالتالي ، في حين أن تطبيق إنتل للمسرعات الخاصة بالمجال ليس ظاهرة جديدة ، فإن الشركة تعمل بشكل شامل على فكرة Sapphire Rapids.

تم تصميم كل كتل التسريع المخصصة هذه لتفريغ مجموعة محددة من أحمال العمل عالية الإنتاجية. DSA ، على سبيل المثال ، يسرع نسخ البيانات والحسابات البسيطة مثل حساب CRC32s. وفي الوقت نفسه ، QAT عبارة عن كتلة تسريع تشفير بالإضافة إلى كتلة ضغط / فك ضغط البيانات. و IAA مشابه ، حيث يقوم بضغط البيانات وإلغاء الضغط أثناء الطيران للسماح بقواعد البيانات الكبيرة (مثل البيانات الكبيرة) ليتم الاحتفاظ بها في الذاكرة في شكل مضغوط. أخيرًا ، يعد DLB ، الذي لم تقدمه إنتل تجريبيًا اليوم ، بمثابة كتلة لتسريع موازنة التحميل بين الخوادم.

أخيرًا ، هناك Advanced Matrix Extension (AMX) ، كتلة تنفيذ الرياضيات المصفوفة المعلنة مسبقًا من Intel. على غرار نوى الموتر وأنواع أخرى من مسرعات المصفوفة ، فهذه كتل فائقة الكثافة لتنفيذ رياضيات المصفوفة بكفاءة. وعلى عكس أنواع المسرعات الأخرى ، فإن AMX ليس مسرعًا مخصصًا ، بل هو جزء من أنوية وحدة المعالجة المركزية ، حيث يحصل كل نواة على كتلة.

AMX هي لعبة Intel لسوق التعلم العميق ، حيث تتجاوز الإنتاجية التي يمكن أن تحققها اليوم مع AVX-512 باستخدام هياكل بيانات أكثر كثافة. في حين أن Intel ستمتلك وحدات معالجة رسومات (GPU) تتجاوز حتى هذا ، بالنسبة إلى Sapphire Rapids ، تتطلع Intel إلى معالجة شريحة العملاء التي تحتاج إلى استدلال AI يتم بالقرب من مراكز وحدة المعالجة المركزية ، بدلاً من استخدام مسرع أقل مرونة وأكثر تخصيصًا.

العروض

بالنسبة للعرض الصحفي اليوم ، قامت شركة Intel بإحضار فريق الاختبار الخاص بهم لإعداد وعرض سلسلة من العروض التوضيحية في العالم الحقيقي التي تستفيد من المسرعات الجديدة ويمكن قياسها لعرض أدائها. لهذا ، كانت إنتل تتطلع إلى إظهار المزايا على كل من التشغيل غير المتسارع (وحدة المعالجة المركزية) على أجهزة Sapphire Rapids الخاصة بها – أي لماذا يجب عليك استخدام مسرعاتها في هذا النمط من أحمال العمل – وكذلك لعرض ميزة الأداء مقابل تنفيذ نفس أحمال العمل على وحدات المعالجة المركزية EPYC (ميلان) من AMD المنافسة اللدود.

إنتل ، بالطبع ، قامت بالفعل بتشغيل البيانات داخليًا. لذلك كان الغرض من هذه العروض التوضيحية ، بالإضافة إلى الكشف عن أرقام الأداء هذه ، إظهار أن الأرقام كانت حقيقية وكيف تم الحصول عليها. لا تخطئ ، فهذه شركة إنتل تريد أن تقدم أفضل ما لديها. لكنها تفعل ذلك باستخدام السيليكون الحقيقي والخوادم الحقيقية ، في أعباء العمل التي (بالنسبة لي) تبدو وكأنها مهام معقولة للاختبار.

عرض تقنية QuickAssist

الأول كان عرضًا توضيحيًا لمسرع QuickAssist Technology (QAT). بدأت Intel بحمل عمل NGINX ، لقياس أداء تشفير OpenSSL.

بهدف تحقيق أداء iso تقريبًا ، تمكنت Intel من تحقيق ما يقرب من 66 ألف اتصال في الثانية على خادم Sapphire Rapids ، باستخدام مسرع QAT فقط و 11 من 120 (2×60) نواة وحدة المعالجة المركزية للتعامل مع البتات غير المتسارعة من العرض التوضيحي. يُقارن هذا بالحاجة إلى 67 مركزًا لتحقيق نفس الإنتاجية على Sapphire Rapids دون أي نوع من تسريع QAT ، و 67 مركزًا على خادم EPYC 7763 ثنائي المقبس.

كان العرض التوضيحي الثاني QAT يقيس أداء الضغط / فك الضغط على نفس الجهاز. كما تتوقع لكتلة تسريع مخصصة ، كان هذا المعيار بمثابة انفجار. تجاوز مُسرع أجهزة QAT وحدات المعالجة المركزية (CPU) ، حتى أنها تقدمت في المقدمة عندما استخدموا مكتبة ISA-L المحسّنة للغاية من Intel. في هذه الأثناء ، كانت هذه مهمة تم تفريغها بالكامل تقريبًا ، لذلك كانت تستهلك وقت 4 نوى لوحدة المعالجة المركزية مقابل كل نوى 120/128 لوحدة المعالجة المركزية في أحمال عمل البرنامج.

عرض مسرّع التحليلات في الذاكرة

العرض الثاني كان من In-Memory Analytics Accelerator. والتي ، على الرغم من الاسم ، لا تسرع في الواقع جزء التحليل الفعلي للمهمة. بدلاً من ذلك ، فهو عبارة عن مسرع للضغط / إلغاء الضغط مُعد للاستخدام مع قواعد البيانات بحيث يمكن تشغيلها في الذاكرة دون تكلفة كبيرة لأداء وحدة المعالجة المركزية.

من خلال تشغيل العرض التوضيحي على ClickHouse DB ، أظهر هذا السيناريو أن نظام Sapphire Rapids يرى ميزة أداء بنسبة 59 ٪ في الثانية مقابل نظام AMD EPYC (لم تقم Intel بتشغيل إعداد Intel للبرامج فقط) ، بالإضافة إلى تقليل عرض النطاق الترددي للذاكرة الاستخدام وتقليل استخدام الذاكرة بشكل عام.

كان العرض التوضيحي الثاني لـ IAA عبارة عن مجموعة ضد RocksDB مع نفس أنظمة Intel و AMD. مرة أخرى ، أظهرت إنتل أن نظام SPR المعجل من IAA يتقدم بشكل جيد ، مع أداء أعلى 1.9 مرة وزمن انتقال نصف أقل تقريبًا.

العرض التوضيحي لإضافات المصفوفة المتقدمة

تم تكوين محطة العرض التوضيحي النهائية لشركة Intel لعرض ملحقات المصفوفة المتقدمة (AMX) ومسرع تدفق البيانات (DSA).

بدءًا من AMX ، أجرت Intel اختبارًا معياريًا لتصنيف الصور باستخدام TensorFlow والشبكة العصبية ResNet50. استخدم هذا الاختبار عمليات FP32 غير المتسارعة على وحدات المعالجة المركزية (CPU) ، وقام AVX-512 بتسريع INT8 على Sapphire Rapids ، وأخيراً تم تسريع AMX INT8 أيضًا على Sapphire Rapids.

كان هذا انفجارًا آخر للمسرعات. بفضل كتل AMX الموجودة على أنوية وحدة المعالجة المركزية ، قدم نظام Sapphire Rapids زيادة في الأداء بمقدار الضعف مقارنة بوضع AVX-512 VNNI بحجم دفعة 1 ، وأكثر من 2x بحجم دفعة 16. يبدو السيناريو أكثر ملاءمة لشركة Intel مقارنة بوحدات المعالجة المركزية EPYC نظرًا لأن معالجات ميلان الحالية لا تقدم AVX-512 VNNI. مكاسب الأداء الإجمالية هنا ليست كبيرة مثل الانتقال من وحدة المعالجة المركزية الخالصة إلى AVX-512 ، ولكن بعد ذلك كان AVX-512 بالفعل جزءًا من كونه كتلة تسريع مصفوفة بمفردها (من بين أشياء أخرى).

عرض مسرّع تدفق البيانات

أخيرًا ، قامت إنتل بتجربة كتلة مسرع تدفق البيانات (DSA) ، والتي عادت لعرض كتل التسريع المخصصة في Sapphire Rapids. في هذا الاختبار ، أعدت Intel عرضًا توضيحيًا لنقل الشبكة باستخدام FIO لجعل العميل يقرأ البيانات من خادم Sapphire Rapids. يتم استخدام DSA هنا لإلغاء تحميل حسابات CRC32 المستخدمة لحزم TCP ، وهي عملية تضيف بسرعة فيما يتعلق بمتطلبات وحدة المعالجة المركزية بمعدلات بيانات عالية جدًا كانت Intel تختبرها – اتصال 2×100 جيجابت إيثرنت.

باستخدام نواة واحدة لوحدة المعالجة المركزية هنا لعرض الكفاءة (ولأن عدد قليل من نوى وحدة المعالجة المركزية سيكون كافياً لإشباع الرابط) ، سمحت كتلة DSA لـ Sapphire Rapids بتقديم 76٪ أكثر من IOPS على قراءة متسلسلة 128K QD64 مقارنة باستخدام Intel المحسّن فقط مكتبة ISA-L على نفس عبء العمل. كان التقدم على نظام EPYC أكبر ، وكان زمن الوصول مع DSA أقل بكثير من 2000.

تم إجراء اختبار مماثل أيضًا باستخدام قراءة عشوائية أصغر حجمًا تبلغ 16 كيلو بايت QD256 ، تعمل ضد نواتين لوحدة المعالجة المركزية. لم تكن ميزة الأداء لـ DSA كبيرة هنا – فقط 22٪ مقابل البرامج المحسّنة على Sapphire Rapids – ولكن مرة أخرى كانت الميزة على EPYC أكبر ، وكانت فترات الاستجابة أقل.

الأفكار الأولى

وإليكم الأمر: أول عرض توضيحي للضغط على كتل التسريع المخصصة (و AMX) على 4 من Intelالعاشر وحدة المعالجة المركزية من الجيل Xeon (Sapphire Rapids). لقد رأيناها ، وهي موجودة ، وهي قمة جبل الجليد لكل شيء من المقرر أن تقدمه Sapphire Rapids للعملاء بدءًا من العام المقبل.

نظرًا لطبيعة والغرض من مسرعات النطاق المحددة ، لا يوجد شيء هنا أشعر أنه سيكون مفاجأة كبيرة للقراء التقنيين العاديين. توجد DSAs على وجه التحديد لتسريع أعباء العمل المتخصصة ، لا سيما تلك التي من شأنها أن تكون وحدة المعالجة المركزية و / أو كثيفة الطاقة ، وهذا ما فعلته Intel هنا. ومع توقع أن تكون المنافسة في سوق الخوادم ساخنة بالنسبة للأداء العام لوحدة المعالجة المركزية ، فإن كتل التسريع هذه هي وسيلة لشركة Intel لإضافة المزيد من القيمة إلى معالجات Xeon الخاصة بها ، بالإضافة إلى التميز عن AMD والمنافسين الآخرين الذين يدفعون حتى أعداد أكبر من أنوية وحدة المعالجة المركزية.

توقع رؤية المزيد على Sapphire Rapids خلال الأشهر المقبلة ، حيث تقترب Intel أخيرًا من شحن الجيل التالي من وحدة المعالجة المركزية للخادم.



اضغط هنا لرؤية المصدر

مقالات ذات صلة

زر الذهاب إلى الأعلى

أنت تستخدم إضافة Adblock

برجاء اغلاق حاجب الاعلانات لمتابعة التصفح