Announcement

**TWK.** · 26 Apr 2020, 07:45:06

เมพ ขิงๆ

**Comlow** · 26 Apr 2020, 14:23:17

Sunny Cove Microarchitect In-Depth

ด้วยประสิทธิภาพอันสุดยอดของสถาปัตยกรรมใหม่ล่าสุดจาก Intel ในปี 2018 กับ Sunny Cove Microarchitect
ที่ได้รับการปรับปรุงประสิทธิภาพให้โดดเด่นเหนือ Skylake Microarchitect ในปี 2012 ในหลายมิติ ไม่ว่าจะเป็น

+ การเพิ่ม L1 data cache จาก 32Kbyte เพิ่มอีก 50% เป็น 48Kbyte เปลี่ยนความกว้างการรับส่งข้อมูลจาก
256-bit เดิมเป็น 512-bit

+ การเพิ่ม L2 cache จาก 256Kbyte เพิ่มอีก 100% เป็น 512Kbyte เปลี่ยนความกว้างการรับส่งข้อมูลจาก
256-bit เดิมเป็น 512-bit

+ เปลี่ยนความกว้างการรับส่งข้อมูล L3 cache จาก 256-bit เดิมเป็น 512-bit

+ การเพิ่มความสามารถในการสนับสนุนคำสั่งทางคณิตศาสตร์อย่าง GFNI SHA-NI IFMA VBMI1 VBMI2

+ การสนับสนุนคำสั่ง AVX512 และเปลี่ยนแปลงโครงสร้างการทำงานใหม่ให้เหนือกว่า Skylake X และ Cascadelake X ไปอีกระดับ
ในสถาปัตยกรรม Skylake X/Cascadelake X นั้น หากเราจะประมวลผลคำสั่ง AVX512 จะต้องเสียเวลาในการ Fused Port 0 และ 1
ขนาด 255-bit เสียก่อนเพื่อให้สามารถรองรับคำสั่ง AVX512 และข้อมูลขนาด 512-bit ก่อน จึงจะสามารถประมวลผลคำสั่ง AVX512 ได้
ถึงแม้ว่าทั้งสองสถาปัตยกรรมจะมี Port 5 ขนาด 512-bit อีก 1 ชุด เพื่อประมวลผลข้อมูลชนิด AVX512 ในขนาด 512-bit ได้เช่นกัน แต่
การใช้งาน Port 5 ดังกล่าวจะมี Latency 6 clock/cycle ในขณะที่การประมวลผลผ่าน Port 0 และ 1 ที่ได้รับการ Fused Register กัน
จะมีค่า Latency เพียง 4 clock/cylce

สำหรับสถาปัตยกรรม Sunny Cove Microarchitect ทาง Intel ได้แก้ไขปัญหาข้างต้นด้วยการขยาย Port 0 ในไดอะแกรมข้างบนให้มี
ขนาดเพิ่มเป็น 512-bit จากเดิมเป็น 256-bit ใน Skylake X/Cascadelake X Microarchitect ทำให้ลดคำสั่ง Fuse Port 0 และ 1
ลงไปและเป็นผลให้การประมวลผลคำสั่ง AVX512 ใน Sunny Cove Microarchitect สามารถลด Latency ลงเหลือ 3 clock/cycle
ในส่วนของ Port 5 เองก็ได้รับการปรับปรุง Latency จากเดิมใน Skylake X/Cascadelake X ที่ใช้ 6 clock/cylce เหลือเพียง 3
clock/cylce เท่ากับพอร์ต 0

นอกจากนี้ในส่วนของ L1 data cache เดิมใน Skylake X/Cascadelake X ที่มีชุด Load Unit 2 ชุด และ Store Unit 1 ชุด ทั้งคู่
ได้รับการขยายความกว้างในการรับส่งข้อมูลจาก 256-bit เป็น 512-bit เพื่อรองรับผลลัพธ์ข้อมูลจากการประมวลผลคำสั่ง AVX512 ก็ได้
รับการปรับปรุงเพิ่มเป็น Load Unit 2 ชุด และ Store Unit 2 ชุด อีกด้วย เพื่อสนับสนุนสถาปัตยกรรมใหม่นี้ และลด Latency ลงจากเดิม
ถึง 50%

ด้วยเหตุนี้ผลลัพธ์ที่เป็นไปได้ในการประมวลผลคำสั่งสูงสุดของ Sunny Cove Microarchitect จึงเป็นไปได้ยืดหยุ่นและสูงกว่าสถาปัตยกรรม
ก่อนหน้าอีกเท่าตัวครับ

+ การปรับปรุงการจัดการพลังงานด้วยสถาปัตยกรรมในระดับ 10+nm FinFet อันยอดเยี่ยมของ Intel ที่สามารถอัดจำนวนทรานซิสเตอร์ได้สูง
ถึง 100+ ล้านตัวต่อหนึ่งตารางมิลลิเมตร ทำให้สถาปัตยกรรมที่ซับซ้อนอย่าง Sunny Cove Microarchitect ที่มีความซับซ้อนกว่าสถาปัตยกรรม
ก่อนหน้าหลายเท่า มีขนาด Die Size เพียงครึ่งหนึ่งของสถาปัตยกรรม Skylake Microarchitect และใช้พลังงานลดลงไม่น้อยกว่าครึ่งหนึ่งของ
เดิม

+ การสนับสนุนหน่วยความจำความเร็วสูงใน Sunny Cove Microarchitec ได้รับการปรับปรุง IMC ให้สนับสนุนหน่วยความจำ DDR4 3200MT/s
และ LPDDR4 3733 MT/s เพื่อตอบสนองการประมวลผลสมการเวกเตอร์ที่ซับซ้อนได้อย่างยอดเยี่ยม

+ การปรับปรุงหน่วยประมวลผลคำสั่งภายใน Wide Execution Unit ให้สามารถรองรับการประมวลผลข้อมูลได้ถึง 10-Port Execution Unit จากเดิม
8 Port ใน Skylake Microarchitect

+ การปรับปรุง Latency ในการประมวลผลคำสั่งทั่วไปให้ลดลงจากเดิมกว่า 33-50%

ืทั้งหมดนี้คือความสุดยอดของ Sunny Cove Microarchitect หนึ่งในผลิตภัณฑ์คุณภาพจาก Intel ที่ถือว่าเป็นนวตกรรมทางเทคโนโลยีอย่างแท้จริง

**best0032001** · 26 Apr 2020, 14:33:57

เดียวสิ้นปี ผมจะมี ผล test จากงานวิจัยของผล ว่า AVX 512 ช่วย ประหยัดต้นทุน องค์กรได้มากขนาดไหน

ตอนนี้องค์กร กำลังสั่งซื้อ Server ชุดใหม่ Intel® Xeon® Silver 4214R

Access Denied

https://ark.intel.com/content/www/th/th/ark/products/197100/intel-xeon-silver-4214r-processor-16-5m-cache-2-40-ghz.html

ซึ่ง server นี้ ไม่ใช่ HPC ดังนั้น จึงไม่มี GPU การสั่งซื้อ HPC ที่มี GPU นั้นแพงมาก

การแค่มี server รุ่นใหม่ กับ avx512 จัช่วยคำนวน AI ใน องค์กรได้ดีขึ้นแค่นั้นต้องลองดู

**Comlow** · 26 Apr 2020, 14:35:10

Originally posted by best0032001 View Post

เดียวสิ้นปี ผมจะมี ผล test จากงานวิจัยของผล ว่า AVX 512 ช่วย ประหยัดต้นทุน องค์กรได้มากขนาดไหน

ตอนนี้องค์กร กำลังสั่งซื้อ Server ชุดใหม่ Intel® Xeon® Silver 4214R

Access Denied

https://ark.intel.com/content/www/th/th/ark/products/197100/intel-xeon-silver-4214r-processor-16-5m-cache-2-40-ghz.html

ซึ่ง server นี้ ไม่ใช่ HPC ดังนั้น จึงไม่มี GPU การสั่งซื้อ HPC ที่มี GPU นั้นแพงมาก

การแค่มี server รุ่นใหม่ กับ avx512 จัช่วยคำนวน AI ใน องค์กรได้ดีขึ้นแค่นั้นต้องลองดู

ด้วยความยินดีครับผม

**irri** · 26 Apr 2020, 16:04:34

AVX ,AVX2, AVX 512 ใช้ทำอะไรได้บ้างครับ ตอนนี้มีโปรแกรมอะไรรองรับบ้าง หรือว่าช่วยคำนวณทุกโปรแกรมครับ

**best0032001** · 26 Apr 2020, 16:09:42

Originally posted by irri View Post

AVX ,AVX2, AVX 512 ใช้ทำอะไรได้บ้างครับ ตอนนี้มีโปรแกรมอะไรรองรับบ้าง หรือว่าช่วยคำนวณทุกโปรแกรมครับ

ไม่ทุกโปรแกรม ตอนนี้ส่วนใหญ่ AVX ,AVX2 ก็ใช้กันปกติ เป็นส่วนใหญ่แต่ไม่ 100% ก็มีทั้ง AMD intel ไม่ได้ต่างกัน จะต่างกันจริงๆๆ คือ ส่วน AVX512 ตอนนี้ ใช่กลุ่ม AI ครับ ถ้าคุณไม่ได้ทำ AI หรือใช้ APP ที่มีAI
AVX512 ไม่ได้ใช้เลยครับ

**Comlow** · 27 Apr 2020, 10:26:47

ไม่ทุกโปรแกรม ตอนนี้ส่วนใหญ่ AVX ,AVX2 ก็ใช้กันปกติ เป็นส่วนใหญ่แต่ไม่ 100% ก็มีทั้ง AMD intel ไม่ได้ต่างกัน จะต่างกันจริงๆๆ คือ ส่วน AVX512 ตอนนี้ ใช่กลุ่ม AI ครับ ถ้าคุณไม่ได้ทำ AI หรือใช้ APP ที่มีAI
AVX512 ไม่ได้ใช้เลยครับ

สำหรับ CPU ที่ได้รับการพัฒนาให้สนับสนุนคำสั่ง AVX512 นั้น นอกจากตัว CPU จะสนับสนุนคำสั่งดังกล่าวแล้ว ผู้ใช้งานยังได้อานิสงส์อื่นจากการปรับปรุงสถาปัตยกรรม CPU ให้รองรับ
คำสั่งและข้อมูลขนาด 512-bit ด้วย อาทิ CPU Skylake X ที่ได้รับการปรับปรุงความกว้างการส่งผ่านข้อมูลจาก Skylake S เดิมที่ 256-bit data bus ขึ้นมาเป็น 512-bit ในส่วนของ
L1 L2 cache ก็จะให้แบนด์วิธสูงกว่า CPU สถาปัตยกรรมเดิมมหาศาล

พิจารณาจากสถาปัตยกรรม Skylake Client ในภาพข้างล่างนี้

เทียบกับ Skylake X

ผลจากการเปลี่ยนแปลงขนาดความกว้างเส้นทางการรับส่งข้อมูลของ L1 L2 cache ทำให้ Skylake X ให้แบนด์วิธได้ดังภาพ

อานิสงส์ที่ตามมาจากคำสั่ง AVX512 คือการทำงานของ L1 L2 cache ของ CPU ที่สนับสนุนคำสั่ง AVX512 จะทำงานได้ไวกว่า CPU ที่ไม่สนับสนุนคำสั่ง
ไปอีกระดับ จากภาพ L1 cache Skylake X สามารถอ่านข้อมูลได้ถึง 9.1 TB/sec เขียนข้อมูลได้ถึง 4.5 TB/sec และ Copy ได้ถึง 9.1 TB/sec ดังที่
AIDA64 ได้แสดงผลมาครับ

ถึงแม้ว่าเราจะไม่ได้ใช้คำสั่ง AVX512 เลย แต่ความกว้างของเส้นทางการรับส่งข้อมูล L1 L2 cache ในระดับ 512-bit หรือ 64Byte/cycle ก็ทำให้ CPU
สามารถเข้าถึงข้อมูลได้ไวกว่า CPU ที่ไม่สนับสนุนคำสั่ง AVX512 หลายเท่าครับ

**TWK.** · 1 May 2020, 20:15:05

**56K** · 2 May 2020, 10:47:38

ของ Desktop มีตัวไหนจะมี AVX512 ครับ

**Comlow** · 2 May 2020, 11:06:16

Originally posted by 56K View Post

ของ Desktop มีตัวไหนจะมี AVX512 ครับ

จะเป็น Gen 11 Rocket Lake S มาปีหน้าครับผม

**TWK.** · 5 May 2020, 20:40:15

Announcement

Power of AVX512 on Icelake Core i7 1065G7

Power of AVX512 on Icelake Core i7 1065G7

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment