Announcement

Collapse
No announcement yet.

ไขความลับประสิทธิภาพ AVX512 Gen 3 กับ Cooperlake SP

Collapse
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • ไขความลับประสิทธิภาพ AVX512 Gen 3 กับ Cooperlake SP







    Intel AVX512 ประตูสู่โลกของ AI และ DL



    3rd Generation AVX512 capability expand to new level AI / DL processing

    3 ปี หลังจากการเปิดตัว CPU Intel XEON Scalable Processor ภายใต้สถาปัตยกรรม Skylake SP
    ในปี 2017 ที่มาพร้อมกับชุดคำสั่ง AVX512 ใหม่ที่ขยายขีดความสามารถในการประมวลผลของ CPU X86 จากระดับ
    256 บิตไปสู่ 512 บิตเป็นครั้งแรกในตัว CPU Die

    คำสั่ง AVX512 ไม่ได้มาเฉพาะในส่วนของซอฟต์แวร์สำหรับการพัฒนาเท่านั้น ในตัว Hardware
    Intel ได้เพิ่มจำนวนรีจิสเตอร์ขนาด 512 บิตจำนวน 32 ชุดลงไปในแต่ละ Core และขยายช่องทางการรับส่งข้อมูลผ่าน Multi level cache จาก
    เดิม 256 บิตไปสู่ 512 บิตตามไปด้วย จึงถือเป็นยุคเริ่มต้นแห่งการปฏิบัติวงการการประมวลผลในระดับ 512 บิตทั้งทางด้าน Hardware และ Software
    ครั้งใหญ่ในช่วงปี 2017 เลยทีเดียว


    ในปี 2018 Intel ได้พัฒนาระบบการประมวลผลใหม่ Intel VNNI (Vector Neuron Network Instruction ขึ้นมาต่อยอด
    ประสิทธิภาพการประมวลผลสำหรับ Hardware ใหม่ใน ยุค 512 บิตข้างต้น ซึ่งถึงแม้ว่าคำสั่ง AVX512 จะให้ประสิทธิภาพใน
    การประมวลผลข้อมูลชนิด Floating Point 32 บิตได้สูงกว่า X87/FP32 Native ถึง 8 เท่า เนื่องจากความกว้างของข้อมูล แต่ในขณะเดียวกันการใช้พลังงานในการประมวล
    ผลคำสั่ง AVX512 ก็สูงตามไปด้วย



    เป้าหมายของ Intel สำหรับคำสั่ง AVX512 VNNI คือ การใช้พลังงานในการประมวลผลในระดับที่ต่ำลง
    จาก AVX512 รุ่นแรก และใช้ทรัพยากรหน่วยความจำลดลง ตลอดจนลดเวลาที่ใช้ในการประมวลผลคำสั่ง
    AVX512 ที่เกี่ยวข้องกันจาก 3 ขั้นตอนเหลือเพียง 1 ขั้นตอน



    จึงเป็นที่มาของการเพิ่มการสนับสนุนข้อมูลชนิดจำนวนเต็มในระดับ 8 บิต (INT8) และ 16 (INT16) บิต ให้สามารถทำงานกับฮาร์ดแวร์ของ
    AVX512 ในตัว CPU เพิ่มเติมจากข้อมูล X87/FP32 ปกติใน AVX512
    รุ่นแรก



    จากการพัฒนาในจุดนี้ทำให้ประสิทธิภาพของคำสั่ง AVX512 ในปี 2018-2019 ในส่วนข้อมูลจำนวนเต็ม
    เพิ่มขึ้นจากเดิมเป็น 8 เท่าของคำสั่ง SSE3 ดังภาพ



    ในปี 2019 หลังจากที่ประสบความสำเร็จกับการพัฒนาคำสั่ง AVX512 VNNI ได้ตามเป้าหมายแล้ว
    วิศวกรของ Intel ก็เริ่มต้นทำงานกับโปรเจคชิ้นใหม่ คือ ข้อมูลชนิดทศนิยมชนิด Bfloat16 ซึ่งลด
    พลังงานในการประมวลผลข้อมูลชนิดทศนิยมลง และลดการใช้หน่วยความจำลง แต่ยังคงสามารถเก็บข้อมูลสำหรับการประมวลผลได้ครบถ้วนและยัง
    เป็นอาวุธชิ้นใหม่ที่ Intel จะส่งลงสนามเสริมเขี้ยวเล็บให้กับ CPU รุ่นใหม่ๆ ในอนาคตต่อไป



    ขั้นตอนการทำงานของ AVX512 BFLOAT16 ก็คล้ายกับ AVX512 VNNI
    คือลดระยะเวลาการประมวลผลลงจาก 3 ขั้นตอนเหลือ 1 ขั้นตอน ลดพื้นที่ในรีจิสเตอร์ในการเก็บข้อมูลและลดพื้นที่หน่วยความจำที่ใช้ในการประมวลผล แต่เน้นกับข้อมูลชนิด
    ทศนิยมและเอ็กโปเนนเชียลเป็นหลัก



    และในวันนี้ Intel พร้อมแล้วกับ CPU Cooper Lake Xeon Scalable Processor ที่ได้รับการเพิ่มประสิทธิภาพ
    การประมวลผลข้อมูลทั้งชนิดจำนวนเต็ม INT8 / INT 16 และทศนิยมรูปแบบใหม่ BFLOAT16 จากนี้ไปการประมวลผลข้อมูลในทศวรรษใหม่ได้เริ่มขึ้นอย่างเป็นทางการแล้ว




    Last edited by Comlow; 23 Jun 2020, 09:54:42.

  • #2
    ไม่สงสัยมั่งเหรอ ทำไมมันควรจะมี Throughtput เพิ่มเป็น 4 เท่า แทนที่จะเป็น 2 เท่าแบบนี้
    เมื่อเทียบกับ AVX-2 ตามโครงสร้าง REGISTER TABLE มั่งน่ะหืม
    ไม่แปลกใจ ทำไมใบ้กินบ่อยจริงๆ คิดถูกที่ลบออกหมด ทิ้งไว้มันก็ไม่ซึมเข้าสมองจริงๆ

    Comment


    • #3
      เริ่ม...ยกที่1 (แก๊ง...)

      Comment


      • #4
        Originally posted by lookdook View Post
        เริ่ม...ยกที่1 (แก๊ง...)
        วันนี้ไม่เกิดเหตุการณ์แบบที่ผ่านมาแน่นอนครับ สบายใจได้

        Comment


        • #5
          บางทีอาจจะเป็นแบบ ceo บริษัทดัง ๆ ก็ได้นะ ฉากหน้าตีกัน แต่ฉากหลังนัดไปทานข้าวด้วยกัน คุยแลกเปลี่ยนความรู้แล้วก็เลือกประเด็นเรื่องที่จะตีกันในเว็บบอร์ด ฯลฯ วนลูป

          Comment


          • #6
            ไม่เกิดหรอก ขี้เกียจสีซอเพลงเดิม สอนไปคราวที่แล้วโครตเหนื่อย แค่ทักเฉยๆ
            ของมันก็อยู่ใน REGISTER BLOCK ของ WIKI ที่คนมันพูดว่าอย่าไปเชื่อ
            เพราะ WIKI ได้ข้อมูลจากพ่อ INTEL นั่นแหละ

            แค่ตารางนั้นมันก็อธิบายได้หมดถึงเรื่องที่บอกกับและทำไม R3-1200 ถึง Execute คำสั่ง
            AVX-2 ได้ ของแค่นี้ไม่รู้เรื่องแล้วจะไปคุยโทสับกับคนจาก INTEL รู้เรื่องเรอะ เอาเป็นว่า
            ไว้ AMD ออก AVX-512 Capable แล้วจะมาคุยห้องโน้น เพราะคุยกับคนห้องนี้แล้วมันไม่ซึมเข้าสมอง

            ทักแค่นี้ยังงง 2x2 ไม่เท่ากับ 4 แล้วไม่รู้ ก็ไม่คุยล่ะ โง่เกินเสวนา
            ไม่รู้เดะ เด็กเชียแขก มัน มาบอกเป็นอาจารย์กรูได้ไงแวร้....................
            Last edited by ssk; 23 Jun 2020, 13:44:25.

            Comment


            • #7
              Intel Leap Ahead

              Originally posted by sandy207 View Post
              บางทีอาจจะเป็นแบบ ceo บริษัทดัง ๆ ก็ได้นะ ฉากหน้าตีกัน แต่ฉากหลังนัดไปทานข้าวด้วยกัน คุยแลกเปลี่ยนความรู้แล้วก็เลือกประเด็นเรื่องที่จะตีกันในเว็บบอร์ด ฯลฯ วนลูป
              คงจะไม่ใช่แบบนั้นครับ เพียงแต่ว่าจากจุดที่ Intel ยืนอยู่ในปัจจุบันนี้ เมื่อมองไปเทียบกับ AMD แล้วมันต่างกันลิบลับ
              ทั้งฮาร์ดแวร์และซอฟต์แวร์ Intel นำไปไกลมากๆ แบบถ้าเป็นความเจริญก็เหมือน Intel คือ มหานครนิวยอร์ค ส่วน AMD อาจ
              จะประมาณพนมเปญ อะไรประมาณนี้ละครับ

              การที่จะแลกเปลี่ยนความรู้ในด้านเทคนิค เทคโนโลยีใหม่ๆ ที่ Intel มีกับ ผู้ใช้งานอีกค่ายที่ค่อนข้างจะล้าหลังไกลมาก
              มันเป็นสิ่งที่ยากเกินกว่าที่พวกเขาจะเข้าใจและรับรู้ได้ เถียงกันไป ชาว AMD เขาก็ไม่เข้าใจในสิ่งที่ Intel คิดและพัฒนา
              อยู่ดี และไม่ว่าอย่างไรเขาก็ไม่เปิดใจรอรับมันหรอกครับ จนกว่า AMD จะจ่ายค่าลิขสิทธิ์ให้กับ Intel แล้วนำไปต่อยอดให้
              กับ CPU AMD นั่นละเขาถึงจะว่ามันดี

              ดูอย่าง ZEN 1 ZEN+ ที่มีปัญหาเรื่อง FPU throughput และมาแก้ไขใน ZEN 2 ตามแบบ Haswell ทำให้คะแนน
              ด้าน FPU AMD ดีขึ้นในระดับนึงนั่นเป็นตัวอย่าง

              เรื่อง AVX512 ในหัวข้อกระทู้ คนที่มี CPU ที่สนับสนุนคำสั่ง AVX512 และใช้งานมันได้อย่างมีประสิทธิภาพก็ย่อมจะเข้าใจถึง
              ศักยภาพของมันได้เป็นอย่างดียิ่ง การใช้งานให้เกิดประโยชน์ก็เป็นที่ยอมรับของบริษัทชั้นนำจำนวนมากดังได้เห็นไปแล้วว่า แม้แต่
              Facebook Microsoft Alibaba และอีกหลายองค์กรธุรกิจระดับโลก ล้วนได้รับประโยชน์จากพัฒนาแต่ละ Generation ของคำสั่ง
              AVX512 ทั้ง 3 Generation ที่ผ่านมาดังภาพข้างล่าง





              แน่นอนบริษัททั้งหมดในภาพเขาคงไม่เสียสติพอที่จะจ่ายเงินค่า Hardware มหาศาลไปให้กับ Intel ฟรีๆ เพียงเพื่อต้องการให้ชื่อของ
              องค์กรเขาไปปรากฏบน Slide ของ Intel โก้ๆ แค่ไม่กี่วินาทีในการเปิดตัวสินค้าและผลิตภัณฑ์ของ Intel แน่ๆ และนี่ก็คือคำตอบว่า
              เราควรจะให้ความสำคัญในการสื่อสารความรู้ให้กับบุคคลกลุ่มไหน และควรแลกเปลี่ยนกับผู้ที่ใช้งานแพลตฟอร์มในระดับเดียวกันจะเกิด
              ประโยชน์กว่ามากครับ

              และแน่นอนว่าบุคคลากรขององค์กรในสไลด์ข้างบนนั้น ย่อมมีวิสัยทัศน์และขีดความสามารถที่แตกต่างจากผู้ที่เลือกใช้ CPU สถาปัตยกรรมล้าหลัง
              ที่ยังคงมีแค่รีจิสเตอร์แค่ 128-bit กว้างสุดแล้ว และสนับสนุนแค่ AVX2 แบบ Half Throughput อย่างสิ้นเชิง

              การที่จะไปแลกเปลี่ยนความรู้หรือประสบการณ์กับบุคคลที่ยังคงอยู่ในโลกของวัตถุโบราณย่อมไม่มีประโยชน์แต่ประการใด นอกจากเสียเวลาอัน
              มีค่าไปโดยเปล่าประโยชน์

              ที่สำคัญ โลกเราพัฒนาไปข้างหน้าครับ ไม่ได้ ย้อนกลับ ผู้สนใจเทคโนโลยีควรมองไปข้างหน้าครับ
              Last edited by Comlow; 23 Jun 2020, 14:31:43.

              Comment


              • #8
                นอกเรื่อง สมองมีแต่ Presskit ไม่มีความรู้ติดสมองซักนิด <= แบบนี้ดี หงุดหงิดจะได้ด่าให้หลอนต่อ คราวที่แล้ว 3 วัน คราวนี้กดสักอาทิตเลยดีกว่า

                ก็ยกมาได้แค่นี้แหละ ถามว่าทำไมมันไม่มี Throught put 4 เท่า ตามที่ควรจะเป็นมันตอบง่ายจะตาย
                ตัวเองก็เคยพูด ออกมาเองแท้ๆ ว่า REGISTER 512 จาก 256 ยาวขึ้นเป็น 32 จาก 16 ก็กว้างขึ้น 2 เท่า ยาวขึ้น 2 เท่า
                แต่ทำไมผลต่าง Haswell > skylake กลับได้แค่ 2 เท่าน่ันแหละ ยังไม่รู้เลย มี AVX-512 ในมือ แต่ไม่เอะใจ

                คือบอกตรงๆว่า คนมีใช้มันก็ยังไม่รู้เลยว่าวิเศษยังไง เพราะวันๆสนแต่ PUBG อะไรนะ MC เล่น PUBG ได้มั้ย อย่างนั้นแหละ
                ถึงไม่ลงในส่วนที่เป็นวิชาการแล้วไง มีใช้แต่ไม่รู้นี่เรียกว่าโง่ได้เลย คนไม่มีใช้ดูทีเดียวก็รู้ว่าไม่จำเป็น ใช้อะไรที่มีหัวมากกว่า 2 เท่าก้ได้งานเท่ากันแล้ว
                ถึงไม่ซื้อ GEN 10 ที่ไม่มี AVX512 มาทำไม ไปสั่ง E5 V3 10 -12 หัวตัวละ 2-3 พันมาใช้นี่แหละ คนนอกกะลาเค้าก็ลองไปเรื่อยแบบนี้แหละ
                คนรู้จริงเค้าเลือกของใช้กันแบบนี้แหละ คอมอยู่ที่ใจแค่ 200GE ก็ไร้เทียมทาน
                ไม่งั้นเด็กอมมือแถวนี้มันจะงงเหรอ ว่าใช้ทำ FE ได้ไง พอลอง BENCH ให้ดูก็ทำเป็นไม่สนใจ

                หลายๆ บ.เค้า ไปใช้ Epyc+A100 แทน XENON+PHE ก็แปะให้ดูยังไม่จำเลย FACEBOOK เอย MS เอย oracle เอย
                แล้ว AUDI ในชาร์ท เค้าก็ไปใช้ ARGO ของ FORD ไม่ใช่ MOBILE EYE ของ INTEL ต้องเอาข่าวมายันมั้ย?

                Originally posted by Comlow View Post
                ที่สำคัญ โลกเราพัฒนาไปข้างหน้าครับ ไม่ได้ ย้อนกลับ ผู้สนใจเทคโนโลยีควรมองไปข้างหน้าครับ
                อึ้ม โลกมันหมุนไปข้างหน้า เหรอ?

                แล้วไอ้โง่ที่ใหนวะมันตกข่าวเรื่องพ่อไม่ทำ NERVANA แล้วน่ะ? ยังมาหน้าด้านพูดเรื่องเว็บข่าวกะโหลกกะลา ที่ใหนไม่รู้

                แล้วรู้รึยังว่า Nervana เลิกทำไปแล้ว หืม?

                ไม่นับวนตั้งกระทู้ด้วยของเก่าอย่าง
                - PHI code บิดอนมานดา AVX512 ที่เลิกทำไปแล้ว
                - หรือ From sand to silicon ที่เห็นตั้งมา 3 รอบด้วย เก่าจะตาย อยู่ในกระทู้แนะนำด้วยซ้ำ ยังหน้าด้านวนเอาเรื่องเก่าๆ แบบนี้มาแปะอยู่อีก
                ดักดานโครตๆ แต่มาบอกคนอื่นไม่มองไปข้างหน้า มันถุยน้ำลายรดหน้าตัวเองแท้ๆ

                ผมนะนะถ้าดักดาน คงไม่หาข่าวอย่าง Nervana หรือ
                เรื่อง Robert bosch มาถีบหน้าคนได้หรอก มีแต่พวก INกะลา นั่นแหละ
                ที่หลับหูหลับตาวนเวียนอยู่กับเรื่องเก่าๆแบบนี้แหละ

                ส่วน HALF Throught มันก็ใช้งานได้ ตอนนี้ก็แรงเท่าๆกัน สาระที่ถามมันไม่ไใช่เรื่องนี้
                เอาตรงๆนะ แค่มาสะกิดว่าเฮ้ย ครบเดือนแล้ว สรุปหาไก่ไม่เจอสินะ โง่ชะมัด เรื่องนี้ก็เหมือนกัน

                สมการ FMA AxB+C น่ะมันบอกอะไรรู้รึเปล่า นั่นแหละทำไมมันถึง Execute ได้
                และมันก็หักล้างพวกไร้สมองบางคนที่บอกว่า Register ยาวไม่พอทำงานไมได้ ไอ้ VDO เก่าซ้ำซากนั่นก็ตกไป
                ในเมื่อ 128 BITS มันทำงานแบบนั้นได้ REGISTER ยาวไปมันก็เท่านั้น แล้วเรื่องนี้เคยบอกไปแล้วเมื่อเดือน กพ.
                ว่า MC-16 BITS ECECUTE คำสั่ง FP-32 ได้ ยังไง นั่นล่ะผมพูดถูก ยิ่งนานเรื่องที่ผมพูดมันยิ่งถูก ไม่เหมือนบางคน ยิ่งนานยิ่งเงิบ

                อ่ะรู้มั้ย FMA3 > AxB+C ทำยังไง 128x128+128 แสดงวิธีทำได้จะมาเฉลยเรื่อง 2x2 = 4
                โง่ขนาดนี้พูดตรงนี้เลยว่าคงไม่มีปัญญาทำเลขง่ายๆแบบนี้ได้หรอก
                และเลขง่ายๆแค่นี้ถ้าไม่มีปัญญาทำทีละ Step ก็จบ ม.ต้น ไปเรียนเป็น อ. มหาลัยไมไ่ด้หรอก ยัดเงินซื้อปริญญามามากกว่า
                Last edited by ssk; 23 Jun 2020, 17:40:57.

                Comment


                • #9
                  จัดให้อีกดอก
                  - intel โทรมาเคยถามมันมั่งมั้ย ทำไม gen 10 แล้ว
                  Lga 1200 มันยังไม่มี avx 512 ให้สาวกใช้แว้.....

                  เชื่อว่ามีคนอยากรู้เยอะ เห็นตั้งกระทู้อวยจัง เดือนนี้ก็ 3 กระทู้แล้ว เพื่อนคงอยากรู้เยอะ ขอคำตอบฉลาดๆหน่อยละกัน ว่าพ่อintel โทรมาบอกว่าไง?

                  Comment


                  • #10
                    เงียบเลย พอบอกให้ถามให้หน่อยว่าทำไม LGA-1200 ยังไม่ใส่มาให้ล่ะ?
                    เห็นว่า
                    - คนจาก INTEL โทรมาคุย
                    - ได้รับเกียตรมีเทียบเชิญจาก INTEL โดยตรงด้วย

                    ให้ถามแค่นี้ skylake X ติดคอตายรึไง ถึง not response น่ะ

                    ไม่ต้องบอกเพื่อนๆในนี้ให้ไปซื้อ U/Y นะ มุกนี้เบื่อแล้ว

                    ทีเรื่องอวยละขยันจังมาเต็มกราฟเลย ทีเรื่องอยากรู้ล่ะจอฟ้า................
                    เพื่อนๆเค้าอยากรู้มากกว่าไอ้ Presskit + Clip เก่าๆพวกนี้อีก
                    Last edited by ssk; 24 Jun 2020, 11:25:11.

                    Comment


                    • #11
                      เมพ ขิงๆ

                      Comment


                      • #12
                        Originally posted by Comlow View Post
                        วันนี้ไม่เกิดเหตุการณ์แบบที่ผ่านมาแน่นอนครับ สบายใจได้
                        เยี่ยมเลยครับ.. อย่าไปสนใจ "อะไรๆ" ทำนองนั้นเลยครับ.. ปล่อยเขา "พล่าม" ไปคนเดียว.. ดีแล้ว.. ท่านมีอะไรดีๆ มีอะไรใหม่ๆ เทคโนโลยี่ใหม่ๆ ก็เอามาแชร์ มาแบ่งปันเหมือนเดิมนะครับ..
                        เป็นกำลังใจให้ครับ

                        Comment


                        • #13
                          Originally posted by กานต์ View Post
                          เยี่ยมเลยครับ.. อย่าไปสนใจ "อะไรๆ" ทำนองนั้นเลยครับ.. ปล่อยเขา "พล่าม" ไปคนเดียว.. ดีแล้ว.. ท่านมีอะไรดีๆ มีอะไรใหม่ๆ เทคโนโลยี่ใหม่ๆ ก็เอามาแชร์ มาแบ่งปันเหมือนเดิมนะครับ..
                          เป็นกำลังใจให้ครับ
                          ขอบคุณที่ติดตามครับผม ส่วนตัวผมมุ่งเน้นนำเสนอเทคโนโลยีใหม่ๆ จาก Intel เท่านั้นครับ

                          Comment


                          • #14
                            Originally posted by Comlow View Post
                            ขอบคุณที่ติดตามครับผม ส่วนตัวผมมุ่งเน้นนำเสนอเทคโนโลยีใหม่ๆ จาก Intel เท่านั้นครับ

                            ก๊อบแปะแล้วอวยเป็นอย่างเดียวอะเด้
                            LGA-1200 มันเก่าโนะ มีแค่ FMA256 มันล้าหลังเพราะไม่มี AVX-512 เลยไม่รู้จะตอบยังไงสินะ

                            Comment


                            • #15

                              Comment

                              Working...
                              X