Announcement
Collapse
No announcement yet.
Power of AVX512 on Icelake Core i7 1065G7
Collapse
X
-
Sunny Cove Microarchitect In-Depth
ด้วยประสิทธิภาพอันสุดยอดของสถาปัตยกรรมใหม่ล่าสุดจาก Intel ในปี 2018 กับ Sunny Cove Microarchitect
ที่ได้รับการปรับปรุงประสิทธิภาพให้โดดเด่นเหนือ Skylake Microarchitect ในปี 2012 ในหลายมิติ ไม่ว่าจะเป็น
+ การเพิ่ม L1 data cache จาก 32Kbyte เพิ่มอีก 50% เป็น 48Kbyte เปลี่ยนความกว้างการรับส่งข้อมูลจาก
256-bit เดิมเป็น 512-bit
+ การเพิ่ม L2 cache จาก 256Kbyte เพิ่มอีก 100% เป็น 512Kbyte เปลี่ยนความกว้างการรับส่งข้อมูลจาก
256-bit เดิมเป็น 512-bit
+ เปลี่ยนความกว้างการรับส่งข้อมูล L3 cache จาก 256-bit เดิมเป็น 512-bit
+ การเพิ่มความสามารถในการสนับสนุนคำสั่งทางคณิตศาสตร์อย่าง GFNI SHA-NI IFMA VBMI1 VBMI2
+ การสนับสนุนคำสั่ง AVX512 และเปลี่ยนแปลงโครงสร้างการทำงานใหม่ให้เหนือกว่า Skylake X และ Cascadelake X ไปอีกระดับ
ในสถาปัตยกรรม Skylake X/Cascadelake X นั้น หากเราจะประมวลผลคำสั่ง AVX512 จะต้องเสียเวลาในการ Fused Port 0 และ 1
ขนาด 255-bit เสียก่อนเพื่อให้สามารถรองรับคำสั่ง AVX512 และข้อมูลขนาด 512-bit ก่อน จึงจะสามารถประมวลผลคำสั่ง AVX512 ได้
ถึงแม้ว่าทั้งสองสถาปัตยกรรมจะมี Port 5 ขนาด 512-bit อีก 1 ชุด เพื่อประมวลผลข้อมูลชนิด AVX512 ในขนาด 512-bit ได้เช่นกัน แต่
การใช้งาน Port 5 ดังกล่าวจะมี Latency 6 clock/cycle ในขณะที่การประมวลผลผ่าน Port 0 และ 1 ที่ได้รับการ Fused Register กัน
จะมีค่า Latency เพียง 4 clock/cylce
สำหรับสถาปัตยกรรม Sunny Cove Microarchitect ทาง Intel ได้แก้ไขปัญหาข้างต้นด้วยการขยาย Port 0 ในไดอะแกรมข้างบนให้มี
ขนาดเพิ่มเป็น 512-bit จากเดิมเป็น 256-bit ใน Skylake X/Cascadelake X Microarchitect ทำให้ลดคำสั่ง Fuse Port 0 และ 1
ลงไปและเป็นผลให้การประมวลผลคำสั่ง AVX512 ใน Sunny Cove Microarchitect สามารถลด Latency ลงเหลือ 3 clock/cycle
ในส่วนของ Port 5 เองก็ได้รับการปรับปรุง Latency จากเดิมใน Skylake X/Cascadelake X ที่ใช้ 6 clock/cylce เหลือเพียง 3
clock/cylce เท่ากับพอร์ต 0
นอกจากนี้ในส่วนของ L1 data cache เดิมใน Skylake X/Cascadelake X ที่มีชุด Load Unit 2 ชุด และ Store Unit 1 ชุด ทั้งคู่
ได้รับการขยายความกว้างในการรับส่งข้อมูลจาก 256-bit เป็น 512-bit เพื่อรองรับผลลัพธ์ข้อมูลจากการประมวลผลคำสั่ง AVX512 ก็ได้
รับการปรับปรุงเพิ่มเป็น Load Unit 2 ชุด และ Store Unit 2 ชุด อีกด้วย เพื่อสนับสนุนสถาปัตยกรรมใหม่นี้ และลด Latency ลงจากเดิม
ถึง 50%
ด้วยเหตุนี้ผลลัพธ์ที่เป็นไปได้ในการประมวลผลคำสั่งสูงสุดของ Sunny Cove Microarchitect จึงเป็นไปได้ยืดหยุ่นและสูงกว่าสถาปัตยกรรม
ก่อนหน้าอีกเท่าตัวครับ
+ การปรับปรุงการจัดการพลังงานด้วยสถาปัตยกรรมในระดับ 10+nm FinFet อันยอดเยี่ยมของ Intel ที่สามารถอัดจำนวนทรานซิสเตอร์ได้สูง
ถึง 100+ ล้านตัวต่อหนึ่งตารางมิลลิเมตร ทำให้สถาปัตยกรรมที่ซับซ้อนอย่าง Sunny Cove Microarchitect ที่มีความซับซ้อนกว่าสถาปัตยกรรม
ก่อนหน้าหลายเท่า มีขนาด Die Size เพียงครึ่งหนึ่งของสถาปัตยกรรม Skylake Microarchitect และใช้พลังงานลดลงไม่น้อยกว่าครึ่งหนึ่งของ
เดิม
+ การสนับสนุนหน่วยความจำความเร็วสูงใน Sunny Cove Microarchitec ได้รับการปรับปรุง IMC ให้สนับสนุนหน่วยความจำ DDR4 3200MT/s
และ LPDDR4 3733 MT/s เพื่อตอบสนองการประมวลผลสมการเวกเตอร์ที่ซับซ้อนได้อย่างยอดเยี่ยม
+ การปรับปรุงหน่วยประมวลผลคำสั่งภายใน Wide Execution Unit ให้สามารถรองรับการประมวลผลข้อมูลได้ถึง 10-Port Execution Unit จากเดิม
8 Port ใน Skylake Microarchitect
+ การปรับปรุง Latency ในการประมวลผลคำสั่งทั่วไปให้ลดลงจากเดิมกว่า 33-50%
ืทั้งหมดนี้คือความสุดยอดของ Sunny Cove Microarchitect หนึ่งในผลิตภัณฑ์คุณภาพจาก Intel ที่ถือว่าเป็นนวตกรรมทางเทคโนโลยีอย่างแท้จริง
Last edited by Comlow; 29 Apr 2020, 07:20:32.
Comment
-
เดียวสิ้นปี ผมจะมี ผล test จากงานวิจัยของผล ว่า AVX 512 ช่วย ประหยัดต้นทุน องค์กรได้มากขนาดไหน
ตอนนี้องค์กร กำลังสั่งซื้อ Server ชุดใหม่ Intel® Xeon® Silver 4214R
ซึ่ง server นี้ ไม่ใช่ HPC ดังนั้น จึงไม่มี GPU การสั่งซื้อ HPC ที่มี GPU นั้นแพงมาก
การแค่มี server รุ่นใหม่ กับ avx512 จัช่วยคำนวน AI ใน องค์กรได้ดีขึ้นแค่นั้นต้องลองดู
Comment
-
Originally posted by best0032001 View Postเดียวสิ้นปี ผมจะมี ผล test จากงานวิจัยของผล ว่า AVX 512 ช่วย ประหยัดต้นทุน องค์กรได้มากขนาดไหน
ตอนนี้องค์กร กำลังสั่งซื้อ Server ชุดใหม่ Intel® Xeon® Silver 4214R
ซึ่ง server นี้ ไม่ใช่ HPC ดังนั้น จึงไม่มี GPU การสั่งซื้อ HPC ที่มี GPU นั้นแพงมาก
การแค่มี server รุ่นใหม่ กับ avx512 จัช่วยคำนวน AI ใน องค์กรได้ดีขึ้นแค่นั้นต้องลองดู
ด้วยความยินดีครับผม
Comment
-
ไม่ทุกโปรแกรม ตอนนี้ส่วนใหญ่ AVX ,AVX2 ก็ใช้กันปกติ เป็นส่วนใหญ่แต่ไม่ 100% ก็มีทั้ง AMD intel ไม่ได้ต่างกัน จะต่างกันจริงๆๆ คือ ส่วน AVX512 ตอนนี้ ใช่กลุ่ม AI ครับ ถ้าคุณไม่ได้ทำ AI หรือใช้ APP ที่มีAIOriginally posted by irri View PostAVX ,AVX2, AVX 512 ใช้ทำอะไรได้บ้างครับ ตอนนี้มีโปรแกรมอะไรรองรับบ้าง หรือว่าช่วยคำนวณทุกโปรแกรมครับ
AVX512 ไม่ได้ใช้เลยครับ
Comment
-
สำหรับ CPU ที่ได้รับการพัฒนาให้สนับสนุนคำสั่ง AVX512 นั้น นอกจากตัว CPU จะสนับสนุนคำสั่งดังกล่าวแล้ว ผู้ใช้งานยังได้อานิสงส์อื่นจากการปรับปรุงสถาปัตยกรรม CPU ให้รองรับไม่ทุกโปรแกรม ตอนนี้ส่วนใหญ่ AVX ,AVX2 ก็ใช้กันปกติ เป็นส่วนใหญ่แต่ไม่ 100% ก็มีทั้ง AMD intel ไม่ได้ต่างกัน จะต่างกันจริงๆๆ คือ ส่วน AVX512 ตอนนี้ ใช่กลุ่ม AI ครับ ถ้าคุณไม่ได้ทำ AI หรือใช้ APP ที่มีAI
AVX512 ไม่ได้ใช้เลยครับ
คำสั่งและข้อมูลขนาด 512-bit ด้วย อาทิ CPU Skylake X ที่ได้รับการปรับปรุงความกว้างการส่งผ่านข้อมูลจาก Skylake S เดิมที่ 256-bit data bus ขึ้นมาเป็น 512-bit ในส่วนของ
L1 L2 cache ก็จะให้แบนด์วิธสูงกว่า CPU สถาปัตยกรรมเดิมมหาศาล
พิจารณาจากสถาปัตยกรรม Skylake Client ในภาพข้างล่างนี้
เทียบกับ Skylake X
ผลจากการเปลี่ยนแปลงขนาดความกว้างเส้นทางการรับส่งข้อมูลของ L1 L2 cache ทำให้ Skylake X ให้แบนด์วิธได้ดังภาพ
อานิสงส์ที่ตามมาจากคำสั่ง AVX512 คือการทำงานของ L1 L2 cache ของ CPU ที่สนับสนุนคำสั่ง AVX512 จะทำงานได้ไวกว่า CPU ที่ไม่สนับสนุนคำสั่ง
ไปอีกระดับ จากภาพ L1 cache Skylake X สามารถอ่านข้อมูลได้ถึง 9.1 TB/sec เขียนข้อมูลได้ถึง 4.5 TB/sec และ Copy ได้ถึง 9.1 TB/sec ดังที่
AIDA64 ได้แสดงผลมาครับ
ถึงแม้ว่าเราจะไม่ได้ใช้คำสั่ง AVX512 เลย แต่ความกว้างของเส้นทางการรับส่งข้อมูล L1 L2 cache ในระดับ 512-bit หรือ 64Byte/cycle ก็ทำให้ CPU
สามารถเข้าถึงข้อมูลได้ไวกว่า CPU ที่ไม่สนับสนุนคำสั่ง AVX512 หลายเท่าครับ
Comment
Comment