Intel AVX512 ประตูสู่โลกของ AI และ DL
3rd Generation AVX512 capability expand to new level AI / DL processing
3 ปี หลังจากการเปิดตัว CPU Intel XEON Scalable Processor ภายใต้สถาปัตยกรรม Skylake SP
ในปี 2017 ที่มาพร้อมกับชุดคำสั่ง AVX512 ใหม่ที่ขยายขีดความสามารถในการประมวลผลของ CPU X86 จากระดับ
256 บิตไปสู่ 512 บิตเป็นครั้งแรกในตัว CPU Die
คำสั่ง AVX512 ไม่ได้มาเฉพาะในส่วนของซอฟต์แวร์สำหรับการพัฒนาเท่านั้น ในตัว Hardware
Intel ได้เพิ่มจำนวนรีจิสเตอร์ขนาด 512 บิตจำนวน 32 ชุดลงไปในแต่ละ Core และขยายช่องทางการรับส่งข้อมูลผ่าน Multi level cache จาก
เดิม 256 บิตไปสู่ 512 บิตตามไปด้วย จึงถือเป็นยุคเริ่มต้นแห่งการปฏิบัติวงการการประมวลผลในระดับ 512 บิตทั้งทางด้าน Hardware และ Software
ครั้งใหญ่ในช่วงปี 2017 เลยทีเดียว
ในปี 2018 Intel ได้พัฒนาระบบการประมวลผลใหม่ Intel VNNI (Vector Neuron Network Instruction ขึ้นมาต่อยอด
ประสิทธิภาพการประมวลผลสำหรับ Hardware ใหม่ใน ยุค 512 บิตข้างต้น ซึ่งถึงแม้ว่าคำสั่ง AVX512 จะให้ประสิทธิภาพใน
การประมวลผลข้อมูลชนิด Floating Point 32 บิตได้สูงกว่า X87/FP32 Native ถึง 8 เท่า เนื่องจากความกว้างของข้อมูล แต่ในขณะเดียวกันการใช้พลังงานในการประมวล
ผลคำสั่ง AVX512 ก็สูงตามไปด้วย
เป้าหมายของ Intel สำหรับคำสั่ง AVX512 VNNI คือ การใช้พลังงานในการประมวลผลในระดับที่ต่ำลง
จาก AVX512 รุ่นแรก และใช้ทรัพยากรหน่วยความจำลดลง ตลอดจนลดเวลาที่ใช้ในการประมวลผลคำสั่ง
AVX512 ที่เกี่ยวข้องกันจาก 3 ขั้นตอนเหลือเพียง 1 ขั้นตอน
จึงเป็นที่มาของการเพิ่มการสนับสนุนข้อมูลชนิดจำนวนเต็มในระดับ 8 บิต (INT8) และ 16 (INT16) บิต ให้สามารถทำงานกับฮาร์ดแวร์ของ
AVX512 ในตัว CPU เพิ่มเติมจากข้อมูล X87/FP32 ปกติใน AVX512
รุ่นแรก
จากการพัฒนาในจุดนี้ทำให้ประสิทธิภาพของคำสั่ง AVX512 ในปี 2018-2019 ในส่วนข้อมูลจำนวนเต็ม
เพิ่มขึ้นจากเดิมเป็น 8 เท่าของคำสั่ง SSE3 ดังภาพ
ในปี 2019 หลังจากที่ประสบความสำเร็จกับการพัฒนาคำสั่ง AVX512 VNNI ได้ตามเป้าหมายแล้ว
วิศวกรของ Intel ก็เริ่มต้นทำงานกับโปรเจคชิ้นใหม่ คือ ข้อมูลชนิดทศนิยมชนิด Bfloat16 ซึ่งลด
พลังงานในการประมวลผลข้อมูลชนิดทศนิยมลง และลดการใช้หน่วยความจำลง แต่ยังคงสามารถเก็บข้อมูลสำหรับการประมวลผลได้ครบถ้วนและยัง
เป็นอาวุธชิ้นใหม่ที่ Intel จะส่งลงสนามเสริมเขี้ยวเล็บให้กับ CPU รุ่นใหม่ๆ ในอนาคตต่อไป
ขั้นตอนการทำงานของ AVX512 BFLOAT16 ก็คล้ายกับ AVX512 VNNI
คือลดระยะเวลาการประมวลผลลงจาก 3 ขั้นตอนเหลือ 1 ขั้นตอน ลดพื้นที่ในรีจิสเตอร์ในการเก็บข้อมูลและลดพื้นที่หน่วยความจำที่ใช้ในการประมวลผล แต่เน้นกับข้อมูลชนิด
ทศนิยมและเอ็กโปเนนเชียลเป็นหลัก
และในวันนี้ Intel พร้อมแล้วกับ CPU Cooper Lake Xeon Scalable Processor ที่ได้รับการเพิ่มประสิทธิภาพ
การประมวลผลข้อมูลทั้งชนิดจำนวนเต็ม INT8 / INT 16 และทศนิยมรูปแบบใหม่ BFLOAT16 จากนี้ไปการประมวลผลข้อมูลในทศวรรษใหม่ได้เริ่มขึ้นอย่างเป็นทางการแล้ว





Comment