Announcement

Collapse
No announcement yet.

Power of AVX512 on Icelake Core i7 1065G7

Collapse
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • Power of AVX512 on Icelake Core i7 1065G7

    Last edited by Comlow; 11 May 2020, 14:48:52.

  • #2
    เมพ ขิงๆ

    Comment


    • #3
      Sunny Cove Microarchitect In-Depth



      (C)2018 Intel Sunny Cove Microarchitect

      ด้วยประสิทธิภาพอันสุดยอดของสถาปัตยกรรมใหม่ล่าสุดจาก Intel ในปี 2018 กับ Sunny Cove Microarchitect
      ที่ได้รับการปรับปรุงประสิทธิภาพให้โดดเด่นเหนือ Skylake Microarchitect ในปี 2012 ในหลายมิติ ไม่ว่าจะเป็น

      + การเพิ่ม L1 data cache จาก 32Kbyte เพิ่มอีก 50% เป็น 48Kbyte เปลี่ยนความกว้างการรับส่งข้อมูลจาก
      256-bit เดิมเป็น 512-bit

      + การเพิ่ม L2 cache จาก 256Kbyte เพิ่มอีก 100% เป็น 512Kbyte เปลี่ยนความกว้างการรับส่งข้อมูลจาก
      256-bit เดิมเป็น 512-bit

      + เปลี่ยนความกว้างการรับส่งข้อมูล L3 cache จาก 256-bit เดิมเป็น 512-bit

      + การเพิ่มความสามารถในการสนับสนุนคำสั่งทางคณิตศาสตร์อย่าง GFNI SHA-NI IFMA VBMI1 VBMI2

      + การสนับสนุนคำสั่ง AVX512 และเปลี่ยนแปลงโครงสร้างการทำงานใหม่ให้เหนือกว่า Skylake X และ Cascadelake X ไปอีกระดับ
      ในสถาปัตยกรรม Skylake X/Cascadelake X นั้น หากเราจะประมวลผลคำสั่ง AVX512 จะต้องเสียเวลาในการ Fused Port 0 และ 1
      ขนาด 255-bit เสียก่อนเพื่อให้สามารถรองรับคำสั่ง AVX512 และข้อมูลขนาด 512-bit ก่อน จึงจะสามารถประมวลผลคำสั่ง AVX512 ได้
      ถึงแม้ว่าทั้งสองสถาปัตยกรรมจะมี Port 5 ขนาด 512-bit อีก 1 ชุด เพื่อประมวลผลข้อมูลชนิด AVX512 ในขนาด 512-bit ได้เช่นกัน แต่
      การใช้งาน Port 5 ดังกล่าวจะมี Latency 6 clock/cycle ในขณะที่การประมวลผลผ่าน Port 0 และ 1 ที่ได้รับการ Fused Register กัน
      จะมีค่า Latency เพียง 4 clock/cylce

      สำหรับสถาปัตยกรรม Sunny Cove Microarchitect ทาง Intel ได้แก้ไขปัญหาข้างต้นด้วยการขยาย Port 0 ในไดอะแกรมข้างบนให้มี
      ขนาดเพิ่มเป็น 512-bit จากเดิมเป็น 256-bit ใน Skylake X/Cascadelake X Microarchitect ทำให้ลดคำสั่ง Fuse Port 0 และ 1
      ลงไปและเป็นผลให้การประมวลผลคำสั่ง AVX512 ใน Sunny Cove Microarchitect สามารถลด Latency ลงเหลือ 3 clock/cycle
      ในส่วนของ Port 5 เองก็ได้รับการปรับปรุง Latency จากเดิมใน Skylake X/Cascadelake X ที่ใช้ 6 clock/cylce เหลือเพียง 3
      clock/cylce เท่ากับพอร์ต 0

      นอกจากนี้ในส่วนของ L1 data cache เดิมใน Skylake X/Cascadelake X ที่มีชุด Load Unit 2 ชุด และ Store Unit 1 ชุด ทั้งคู่
      ได้รับการขยายความกว้างในการรับส่งข้อมูลจาก 256-bit เป็น 512-bit เพื่อรองรับผลลัพธ์ข้อมูลจากการประมวลผลคำสั่ง AVX512 ก็ได้
      รับการปรับปรุงเพิ่มเป็น Load Unit 2 ชุด และ Store Unit 2 ชุด อีกด้วย เพื่อสนับสนุนสถาปัตยกรรมใหม่นี้ และลด Latency ลงจากเดิม
      ถึง 50%

      ด้วยเหตุนี้ผลลัพธ์ที่เป็นไปได้ในการประมวลผลคำสั่งสูงสุดของ Sunny Cove Microarchitect จึงเป็นไปได้ยืดหยุ่นและสูงกว่าสถาปัตยกรรม
      ก่อนหน้าอีกเท่าตัวครับ

      + การปรับปรุงการจัดการพลังงานด้วยสถาปัตยกรรมในระดับ 10+nm FinFet อันยอดเยี่ยมของ Intel ที่สามารถอัดจำนวนทรานซิสเตอร์ได้สูง
      ถึง 100+ ล้านตัวต่อหนึ่งตารางมิลลิเมตร ทำให้สถาปัตยกรรมที่ซับซ้อนอย่าง Sunny Cove Microarchitect ที่มีความซับซ้อนกว่าสถาปัตยกรรม
      ก่อนหน้าหลายเท่า มีขนาด Die Size เพียงครึ่งหนึ่งของสถาปัตยกรรม Skylake Microarchitect และใช้พลังงานลดลงไม่น้อยกว่าครึ่งหนึ่งของ
      เดิม

      + การสนับสนุนหน่วยความจำความเร็วสูงใน Sunny Cove Microarchitec ได้รับการปรับปรุง IMC ให้สนับสนุนหน่วยความจำ DDR4 3200MT/s
      และ LPDDR4 3733 MT/s เพื่อตอบสนองการประมวลผลสมการเวกเตอร์ที่ซับซ้อนได้อย่างยอดเยี่ยม

      + การปรับปรุงหน่วยประมวลผลคำสั่งภายใน Wide Execution Unit ให้สามารถรองรับการประมวลผลข้อมูลได้ถึง 10-Port Execution Unit จากเดิม
      8 Port ใน Skylake Microarchitect

      + การปรับปรุง Latency ในการประมวลผลคำสั่งทั่วไปให้ลดลงจากเดิมกว่า 33-50%

      ืทั้งหมดนี้คือความสุดยอดของ Sunny Cove Microarchitect หนึ่งในผลิตภัณฑ์คุณภาพจาก Intel ที่ถือว่าเป็นนวตกรรมทางเทคโนโลยีอย่างแท้จริง


      Last edited by Comlow; 29 Apr 2020, 07:20:32.

      Comment


      • #4
        เดียวสิ้นปี ผมจะมี ผล test จากงานวิจัยของผล ว่า AVX 512 ช่วย ประหยัดต้นทุน องค์กรได้มากขนาดไหน

        ตอนนี้องค์กร กำลังสั่งซื้อ Server ชุดใหม่ Intel® Xeon® Silver 4214R


        ซึ่ง server นี้ ไม่ใช่ HPC ดังนั้น จึงไม่มี GPU การสั่งซื้อ HPC ที่มี GPU นั้นแพงมาก

        การแค่มี server รุ่นใหม่ กับ avx512 จัช่วยคำนวน AI ใน องค์กรได้ดีขึ้นแค่นั้นต้องลองดู

        Comment


        • #5
          Originally posted by best0032001 View Post
          เดียวสิ้นปี ผมจะมี ผล test จากงานวิจัยของผล ว่า AVX 512 ช่วย ประหยัดต้นทุน องค์กรได้มากขนาดไหน

          ตอนนี้องค์กร กำลังสั่งซื้อ Server ชุดใหม่ Intel® Xeon® Silver 4214R


          ซึ่ง server นี้ ไม่ใช่ HPC ดังนั้น จึงไม่มี GPU การสั่งซื้อ HPC ที่มี GPU นั้นแพงมาก

          การแค่มี server รุ่นใหม่ กับ avx512 จัช่วยคำนวน AI ใน องค์กรได้ดีขึ้นแค่นั้นต้องลองดู
          ด้วยความยินดีครับผม

          Comment


          • #6
            AVX ,AVX2, AVX 512 ใช้ทำอะไรได้บ้างครับ ตอนนี้มีโปรแกรมอะไรรองรับบ้าง หรือว่าช่วยคำนวณทุกโปรแกรมครับ

            Comment


            • #7
              Originally posted by irri View Post
              AVX ,AVX2, AVX 512 ใช้ทำอะไรได้บ้างครับ ตอนนี้มีโปรแกรมอะไรรองรับบ้าง หรือว่าช่วยคำนวณทุกโปรแกรมครับ
              ไม่ทุกโปรแกรม ตอนนี้ส่วนใหญ่ AVX ,AVX2 ก็ใช้กันปกติ เป็นส่วนใหญ่แต่ไม่ 100% ก็มีทั้ง AMD intel ไม่ได้ต่างกัน จะต่างกันจริงๆๆ คือ ส่วน AVX512 ตอนนี้ ใช่กลุ่ม AI ครับ ถ้าคุณไม่ได้ทำ AI หรือใช้ APP ที่มีAI
              AVX512 ไม่ได้ใช้เลยครับ

              Comment


              • #8
                ไม่ทุกโปรแกรม ตอนนี้ส่วนใหญ่ AVX ,AVX2 ก็ใช้กันปกติ เป็นส่วนใหญ่แต่ไม่ 100% ก็มีทั้ง AMD intel ไม่ได้ต่างกัน จะต่างกันจริงๆๆ คือ ส่วน AVX512 ตอนนี้ ใช่กลุ่ม AI ครับ ถ้าคุณไม่ได้ทำ AI หรือใช้ APP ที่มีAI
                AVX512 ไม่ได้ใช้เลยครับ
                สำหรับ CPU ที่ได้รับการพัฒนาให้สนับสนุนคำสั่ง AVX512 นั้น นอกจากตัว CPU จะสนับสนุนคำสั่งดังกล่าวแล้ว ผู้ใช้งานยังได้อานิสงส์อื่นจากการปรับปรุงสถาปัตยกรรม CPU ให้รองรับ
                คำสั่งและข้อมูลขนาด 512-bit ด้วย อาทิ CPU Skylake X ที่ได้รับการปรับปรุงความกว้างการส่งผ่านข้อมูลจาก Skylake S เดิมที่ 256-bit data bus ขึ้นมาเป็น 512-bit ในส่วนของ
                L1 L2 cache ก็จะให้แบนด์วิธสูงกว่า CPU สถาปัตยกรรมเดิมมหาศาล


                พิจารณาจากสถาปัตยกรรม Skylake Client ในภาพข้างล่างนี้



                เทียบกับ Skylake X



                ผลจากการเปลี่ยนแปลงขนาดความกว้างเส้นทางการรับส่งข้อมูลของ L1 L2 cache ทำให้ Skylake X ให้แบนด์วิธได้ดังภาพ



                อานิสงส์ที่ตามมาจากคำสั่ง AVX512 คือการทำงานของ L1 L2 cache ของ CPU ที่สนับสนุนคำสั่ง AVX512 จะทำงานได้ไวกว่า CPU ที่ไม่สนับสนุนคำสั่ง
                ไปอีกระดับ จากภาพ L1 cache Skylake X สามารถอ่านข้อมูลได้ถึง 9.1 TB/sec เขียนข้อมูลได้ถึง 4.5 TB/sec และ Copy ได้ถึง 9.1 TB/sec ดังที่
                AIDA64 ได้แสดงผลมาครับ

                ถึงแม้ว่าเราจะไม่ได้ใช้คำสั่ง AVX512 เลย แต่ความกว้างของเส้นทางการรับส่งข้อมูล L1 L2 cache ในระดับ 512-bit หรือ 64Byte/cycle ก็ทำให้ CPU
                สามารถเข้าถึงข้อมูลได้ไวกว่า CPU ที่ไม่สนับสนุนคำสั่ง AVX512 หลายเท่าครับ

                Comment


                • #9

                  Comment


                  • #10
                    ของ Desktop มีตัวไหนจะมี AVX512 ครับ

                    Comment


                    • #11
                      Originally posted by 56K View Post
                      ของ Desktop มีตัวไหนจะมี AVX512 ครับ
                      จะเป็น Gen 11 Rocket Lake S มาปีหน้าครับผม

                      Comment


                      • #12

                        Comment

                        Working...
                        X