Announcement

Collapse
No announcement yet.

New Tigerlake CPU (Willow Cove Microarchitect) Update from CES 2020

Collapse
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • -
    Last edited by ssk; 20 Mar 2020, 13:16:25.

    Comment


    • 555+ เก่งครับ อย่างน้อยคำถามทั้ง 3 ของผมก็ยังให้ความรู้เพิ่มเติมกับคุณจะได้นำไปตอบคำถามทั้งสองที่คุณถามผมมาได้ด้วยตัวเองอยู่แล้ว


      AVX-512 fuses Port 0 and Port 1 to form a 512-bit FMA unit. Since those two ports are 256-wide, an AVX-512 option that is dispatched by the scheduler to port 0 will execute on both ports. Note that unrelated operations can still execute in parallel. For example, an AVX-512 operation and an Int ALU operation may execute in parallel - the AVX-512 is dispatched on port 0 and use the AVX unit on port 1 as well and the Int ALU operation will execute independently in parallel on port 1.
      คำถาม 2 ข้อของคุณ WikiChip เขามีให้แล้ว ผมคงไม่ต้องสาธยายต่อล่ะนะ คงไม่ต้องรออย่างที่คุณเข้าใจผิดนะครับ
      เพราะ Intel เน้นการทำงาน parallel นะครับ ไม่เหมือน AMD ที่จะต้องมารออย่างใน Ryzen ของท่าน ถึงต้องใช้หลายๆ หัวมาแบ่งงานกันไปทำทีละอย่าง

      นอกจากนี้ Port 0 และ 1 ของ Intel เป็น FPU และ ALU ในตัวไม่ได้แยก ALU pipe และ FPU pipe แบบ AMD ที่ ALU มีรีจิสเตอร์กว้างแค่ 64 บิต FPU กว้าง 128/256 บิต (ZEN&ZEN+/ZEN2) ดังนั้นการทำงานกับคำสั่ง FMA3 ของฝั่ง Intel จึงเร็วกว่ามาก

      ผมบอกแล้วมันจะคล้ายกรณี CPUZ AVX512 Benchmark บน VM Emulate และ IDE บน SiSoft Sandra ที่คุณเข้าใจผิดเมื่อวานเป๊ะๆ

      แต่คุณยังตอบไม่ครบที่ผมถามไปนะครับ ข้อ 2 และ 3 นะครับ ขอเป็นภาษาง่าย แบบไม่ต้องแคบมาได้ไหมครับ ผมเข้าใจดีอยู่แล้ว
      เพียงผมอยากรู้ว่าคุณเข้าใจเป็นภาษาง่ายๆ ภาษาไทยยังไงแค่นั่นละครับ
      Last edited by Comlow; 31 Jan 2020, 15:02:12.

      Comment


      • -
        Last edited by ssk; 20 Mar 2020, 13:16:33.

        Comment


        • -
          Last edited by ssk; 20 Mar 2020, 13:16:40.

          Comment


          • -
            Last edited by ssk; 20 Mar 2020, 13:16:46.

            Comment


            • Comment


              • เก็บตกเรื่องนึงครับ ผมลือม เรื่อง HSA
                จริงมันเป็นเรื่อง SYSTEM Architecture มันไม่ได้พัฒนาเร็วครับ
                มันจะดูเงียบๆแบบนี้แหละครับ เราะมันเป็นกรอบกว้างๆของระบบ
                ตอนนี้แต่ละคนก็ทำ component ไปครับ นานๆโผล่ทีนึง
                ที่เห็นๆ ก็ ARM Dinamiq

                และก็พัฒนาพวก Cluster Component อย่าง N-core ที่สำหรับงาน AI ครับ
                https://www.arm.com/products/silicon-ip-cpu
                Last edited by ssk; 31 Jan 2020, 19:04:59.

                Comment


                • อีกตัวที่ผมถามปีที่แล้ว LAKEFIELD Stack CPU


                  ประมาณนี้ครับ

                  Comment


                  • บอกตรงๆ ครับ พยายามอ่านทุกบรรทัด แต่แทบจะไม่เข้าใจเลย..............

                    Comment


                    • Originally posted by ไซย่า View Post
                      บอกตรงๆ ครับ พยายามอ่านทุกบรรทัด แต่แทบจะไม่เข้าใจเลย..............
                      ไม่เข้าใจ ก็ดูเฉยๆ ครับ คนที่เข้าใจได้ ต้องเรียนมาด้านนี้โดยตรง หรือไม่ก็ทำงานด้านนี้ ครับ
                      Last edited by Dasd; 31 Jan 2020, 19:38:34.

                      Comment


                      • ตอนนี้ท่าน Comlow กำลังประลองวิทธยาวยุทรกับท่าน ssk อยู่ ครับ

                        Comment


                        • Originally posted by ssk View Post
                          คุณยังตอบคำถามผมเองด้วยตัวเองยังไม่ได้เลย คำภามคุณผมไม่จำเป็นต้องตอบ
                          ซึ่งการที่คุณไม่กล้าแปล แต่ไปยกที่ผมตัดมามาตอบผมเอง
                          ถ้าคุณรู้เรื่องจริง คุณควรแปลให้ผมฟัง มันไม่ใช่คำตอบครับ
                          อย่ามักง่าย

                          คุณมันกลวง

                          ผมคงไม่สนใจคำถามหรือคำตอบอะไรจากคุณแล้วล่ะ มันหมดความน่าสนใจไปแล้ว
                          และผมคงไม่รอคุณแล้วล่ะนะ ผมไปของผมเองเรื่อยๆเลยละกัน
                          จบเรื่องที่ผมต้องเสนอผมก็ไปใหนของผมไป
                          คงมียก Qoute ของคุณมาบ้าง คุณจะตอบก็ได้
                          แต่ไม่ใช่เรื่องของผม ผมคงไม่ตอบ

                          คุณอยากพร่ามอะไรของคุณ หรือไครจะเสริมอะไรก็ตามสบาย
                          ขออย่าให้ข้ามหน้า เดี๋ยวผมจะมาต่อ
                          จะได้ไม่ต้องอ้างอิงไกลมาก
                          555 อะไรกันครับ ผมได้ตอบคำถามไปชัดเจนแล้วนี่ เอ ภาษาอังกฤษคุณอ่อนแอถึงกับแปลไม่ออกเหรอครับผม ถึงกับจะต้องให้ผมมาแปลให้ โอย คุณ SSK

                          แต่คุณกลับยังไม่ได้ตอบผมเลย ขนาดโพยอยู่ตรงหน้า
                          Last edited by Comlow; 31 Jan 2020, 23:03:55.

                          Comment


                          • Originally posted by ssk View Post
                            ประโยคนี้ประโยคเดียว ก็เพียงพอที่จะ ทำให้เข้าใจเรื่อง AVX-512 VM และ ข้อข้องใจอื่นๆอีกเยอะ เดี๋ยวค่อยๆใล่เอามาเครียทีละข้อๆ


                            [ATTACH=CONFIG]4487273[/ATTACH]


                            กล่าวคือจากรูปนี้นะครับ เราจะเห็น Qoeue ของงาน ตามที่ผมเคยแปะไว้ข้างบน ผมใส่ MOVE BLOCK ประกอยครับ เพื่อขยายความเรื่อง More Core More Choise ของ SYSTEM ครับ คงจะเข้าใจกันนะครับ ไม่ต้องอธิบายเพิ่ม
                            [ATTACH=CONFIG]4487162[/ATTACH]

                            เมื่อ เจอคำสั่ง AVX 512 เข้ามา มันจะรวมชุดคำสั่ง 256 BITS 2 ชุดเข้ามาเป็นคำสั่งเดียว
                            ถูกมั้ย เพื่อจัดการงาน ง ตามภาพนี้
                            [ATTACH=CONFIG]4487254[/ATTACH]
                            แล้วด้วยเหตุผลนี้ เราจึงสามารถจำลองคำสั่ง
                            AVX-512 ด้วย AVX 256 2 ตาม ทฤษฎี Intel ถึงทำ VM SDE ที่ผมไปหามาให้
                            ให้นักพัฒนาไปทดสอบก่อนได้ไงครับ เพราะการ FUSE ไม่ได้หลอมรวมกันครับ
                            แต่ละบล๊อคก็มี Pipeline เป็นของตัวเอง มี Block ของ Module บน FAB แยกกัน
                            ซึ่งคำสั่ง+DATA ตั้งแบ่งข้างกันเข้าข้างละ 256+256 ครับ ตามรูป
                            ซึ่งตรงนี้ผมจะพาดพิงล่ะนะ

                            ด้วยการทำงานแบบนี้ มีคนพูดไว้แบบนี้จึงผิดครับ


                            ซึ่งตรงนี้ครับ ที่มันทำได้ นี่ครับ INTEL เป็นคนทำเอง ในการรวมคำสั่ง 256 BITS 2 ตัวขึ้นมา ส่วน Register ในเมื่อมันสามารถแบ่ง Operand เป็น 2 ส่วน เข้าไปได้
                            Register ก็สามารแบ่งเป็น 256 BITS เข้าไปได้ หลักการนี้ก็ใช้กับ GPU ครับ
                            ไม่งั้น GPU จะคำนวณ Double Precision Float ได้ยังไง

                            ซึ่งการที่มีคนพูดในความเห็นนี้จึงผิด
                            https://www.overclockzone.com/forums...1#post76873066
                            ตามนี้จึงผิด


                            เพราะการคำนวณส่วนใหญ่บนงาน Desktop ที่เราใช้ มันคำนวณแค่
                            Single precision 32bits/64 bits double precision ครับ
                            [ATTACH=CONFIG]4487272[/ATTACH]
                            จากรูปก็จะเห็นว่า SMD คำนวณแบบนี้ แต่คำนวณทีละ 2-4 Word

                            ซึ่งจากการทดลอง RUN BENCHMARK Software ก็เห้นว่ามัน Detech hardware ID
                            แล้วจึงจัดการ Bench ด้วยชุดคำสั่งที่สนับสนุน ถ้ามันไม่สนับสนุน
                            64 bits double precision Float calculate มันจะวัดค่าออกมาได้ยังไง
                            และการวัดค้าลงมาแปะใน WEB แบบนี้ ถ้ามันทำไม่ได้เว็บดังๆอย่าง Tech Power Up เค้าคงไม่ลงครับ
                            งานแบบนี้มโน คำนวณเทียบเอาไม่ได้ครับ
                            https://www.techpowerup.com/gpu-spec...-gt-1030.c2954
                            ถ้าทำได้มันก็ขัดกับที่ผม TEST R3-1200 ด้วย SDE-VM สิครับ ถูกมั้ย
                            ตรงนี้เรื่อง VM-TEST ON CPU-Z จึงตกไปจริงๆ และผมไม่ได้ TEST แค่นี้
                            ผมเทส 4 ตัว
                            1. CPU-Z
                            2. AIDA64
                            3. SISSOFT SANDRA
                            4. Prime 95
                            ทุกตัวผลลัพท์ตรงกัน และผมได้แปะข้อจำกัดไปแล้ว แต่ยังมีบางคนใช้เป็นข้อต่อสู้ซ้ำๆซาก
                            ผมจึงต้องด่าครับ จะได้หยุดและเข้าประเด็นจริงๆซะที


                            เปิดให้อ่านรอขอ้โต้แย้งครับ 31-1 @16:30

                            เพิ่มครับ จากหลักการ FUSE Module State จาก 256+256 มันยังทำให้ที่ผมพูดในนี้สอดคล้องกันครับ
                            https://www.overclockzone.com/forums...1#post76872955

                            ซึ่งการ FUSE จะต้องใช้ชุดคำสั่งที่คล้ายครึงกัน 2 ชุดครับ ในเมื่อ AVX256 เป็น SUBSET ของ AVX512 มันจึงใช้กับคำสั่งที่เป็น
                            Complex 256+256 หลายๆตัวได้ครับ ซึ่งในการพัฒนา CPU นั้น คำสั่งแบบนี้เค้าก็ใช้วิธ๊ Doubled+add native ครับ
                            คำสั่งที่พัฒนาต่อเนื่องหลายๆตัวเป็นแบบนี้แหละครับ ก็คือเราการขยาย Block คำสั่งดั้งเดิมที่จะใช้ให้ครอบคลุม Word Wide
                            แล้วยืนยันได้จากอะไรล่ะ จำผี Meldown+spector ไม่ได้เหรอครับ
                            ้เพราะมันโจมตีได้เพราะแบบนี้แหละครับ เพราะ CPU Gen ต่อ GEN มันพัฒนาโดยใช้การเพิ่มชุดคำสั่งดั้งเดิมเข้าไป
                            การเพิ่มประสิทธิภาพ Instruction Percycle Time ตรงๆง่ายๆอย่างนึงคือการ Add Module Or Submodule เพิ่มครับ
                            แล้วแยกเป็นสายไว้ที่เรียก PIPELINE เพื่อให้ Compatback และสามารถทำงานคู่ขนานกับคำสั่งเก่าๆได้
                            ไม่ต้องรอสถานะว่างครับ ถ้าไม่มี Pipeline มันต้องรอคำสั่งก่อนหน้าทั้ง Block
                            ทั้งๆที่ มันมีปีกว่างๆอยู่ ตามภาพด้านบนครับ Scheduler ก็ต้องมาคอยจัดคิวงานให้มันลงแน่นๆครับ
                            สอดคล้องกับ Post คำถามแรกของวัน

                            ซึ่งตรงนี้ต้องเครียก่อนครับ ถึงจะไปคุยเรื่อง Optimised More Core OR dual Core OS
                            ที่เคยเถียงไว้ครับ และเป็นเหตุให้ผมโผล่มาแถวนี้แหละ
                            555 เข้ามาอ่านช่วงหลังๆ แล้วค่อยชื่นใจหน่อยนะครับ ผมคิดว่ามีความเข้าใจผิดหลายจุดในสิ่งที่คุณ SSK ได้ยกมา

                            1. กรณีที่ยกมาข้างบนสำหรับคำสั่ง AVX512 นั้น ไม่ใช่การรวมคำสั่ง AVX256 2 ชุดเป็นคำสั่งเดียวครับ
                            ชุดคำสั่ง AVX512 แยกออกจาก AVX2 ค่อนข้างจะชัดเจน และแบ่งเป็นคำสั่งย่อยจำนวนมากดังแผนภูมิ
                            Euler ที่ผมได้ลงให้ทุกท่านดูแล้วในคำถามที่ท่านโหงพรายได้ถามเรื่อง CPU AVX512 สำหรับ Desktop
                            และคำสั่ง AVX512 F/CD/BW/IFMA/VBMI/VBMI2/.../VP2 Intersect นั้นก็มีการเรียกใช้ฮาร์ดแวร์
                            เฉพาะของ CPU แต่ละ Generation ที่ต่างกัน

                            ถ้าไปสรุปว่า AVX512 คือการรวมเอาคำสั่ง AVX2 256 บิต ที่คล้ายกันมารวมกันก็เข้าใจผิดสิ้นเชิงอย่างเต็มๆ ครับ
                            และบทพิสูจน์ในเรื่องการทดสอบ Benchmark Sisoft Sandra ผ่าน VM ของท่าน SSK ก็ได้พิสูจน์ชัดแล้วนี่ครับ
                            ว่าสิ่งที่คุณคิดมันผิด ซอฟต์แวร์ Emulated มันก็มีข้อจำกัดนะครับ ถ้า Hardware คุณไม่มีทรัพยากรที่ระบบต้องการ
                            เป็นพื้นฐาน ยังไงมันก็ไม่สามารถทำงานได้อย่างที่ Ryzen 3 ไม่สามารถใช้คำสั่ง AVX512 BW/VL ได้ที่ทุกท่านได้
                            เห็นมาแล้ว

                            ด้วยเหตุผลเดียวกันนี้ แม้ CPU ที่สนับสนุน AVX512 อย่าง Skylake X ปัจจุบัน ก็ไม่สามารถประมวลผลคำสั่ง AVX512 VNNI/BFLOT16/GFNI/VBMI1/VBMI2/.../VP2INTERSEC ใน Cascadelake/Cooperlake /Icelake และ Tiger Lake ได้เพราะฮาร์ดแวร์ไม่สนับสนุนนะครับ

                            เหมือนที่เราผ่านยุค SSE มาเป็น AVX2 นั้นละครับ ถ้า CPU เราสนับสนุนเพียง SSE 128-bit จะไปคิดรวมคำสั่งที่คล้ายๆ กัน 2 คำสั่งให้เป็นคำสั่ง AVX นั่นได้ไหม!? มันไม่ได้นะครับทุกท่าน ไม่ใช่ ช่องที่ 1 มี น้ำส้ม 1 ขวดเอามารวมกันเป็น น้ำส้ม 2 ขวด นะครับ แบบท่าน SSK คาดเดามานะครับ

                            2. ส่วนปัญหา Spectre และ Meltdown นั้นเป็นคนละประเด็นกับเรื่องที่ท่านพยายามรวมกันมั่วไปหมดแบบจับต้นชนปลายกันเละเทะน้ำท่วมทุ่งต้องแยกเป็น Spectre และ Meltdown ซึ่งปัจจุบันได้รับการแก้ไขไปเป็นที่เรียบร้อยแล้วจาก Intel ด้วยการอัพเดต Microcode และทุกผู้ผลิตเมนบอร์ดรายใหญ่ๆ ต่างก็อัพเดต BIOS ที่บรรจุ Microcode ไว้แก้ไขปัญหา เหมือนกรณี AGESA ทางซีก AMD ที่อัพกันเรื่อยๆ

                            สำหรับ เรื่อง Spectre และ Meltdown ก็ไม่ใช่ว่าจะเกิดกับ CPU Intel เพียงค่ายเดียวครับ CPU ที่มีพื้นฐานจาก ARM32/64 แม้กระทั่ง AMD ก็มีปัญหา อันเนื่องมาจากเทคนิค Speculative ใน CPU รุ่นใหม่ๆ ไม่เกี่ยวกับ AVX512 อะไรเลยครับ ถ้าจะคุยประเด็น Spectre และ Meltdown ลึกๆ ผมยินดีครับ
                            Last edited by Comlow; 31 Jan 2020, 22:16:50.

                            Comment


                            • Originally posted by ssk View Post
                              และก็เรื่อง Optimised OS ผมไปย้อนนั่งอ่านที่พูดๆไปแล้ว
                              ผมว่าเรื่องนี้จบตั้งแต่ ไม่เคยเล่น PUBG เรอะ นั่นแหละ
                              ผมสรุปเลยละกัน

                              คือ ที่มีคนพูดว่า
                              เราก็รู้นี่ึรับว่า เราไม่เคยซื้อ CPU ด้วยเหตุผลแค่นานาจิตตังนะครับ เห็นแต่ดูความคุ้มค่า
                              หลักๆเราก็ดู SPEC ราคา งบ กันแค่นั้นเอง ถ้างานเราไม่ได้ใช้ AVX512 ก็ตัดออก
                              แต่เราก็มองที่จำนวน CORE สูงสุดต่องบที่เราเลือกเสมอนี่ครับ จริงมั้ย

                              เพราะ MORE CORE = More MOdule More Processing Power ถูกมั้ยครับ
                              จะอะไรเราก็ได้มากกว่าแค่ชุดคำสั่งของมัน

                              ส่วน DUAL CORE จะไม่มีที่ยืนก็ถูกแล้ว จาก Roadmap Chart
                              มันก็กำลัง PHASE OUT ออกไป
                              และการที่มันจะอยู่หรือไปมันไม่ใช่ว่ายังมีไครใช้ของเก่าอยู่ครับ
                              มันจะหายไปมี 2 อย่าง คือ
                              ไม่มีไครซื้อ กับ ใช้งานในปัจจุบันไม่ได้

                              ผมจบแค่นี้ ขอบคุณครับ
                              ผมบอกแล้วประเด็นตรงนี้ตั้งแต่แรกว่าเป็นเรื่องนานาจิตตัง แต่ในที่สุดคุณสามารถเข้าใจได้ก็นับได้ว่า
                              ผมไม่ได้เสียเวลาเปล่าที่พิมพ์บอกคุณไว้ตั้งแต่ต้น เงินใครก็ให้เขาตัดสินใจเองดีกว่า

                              สำหรับผู้ที่ชอบสถาปัตยกรรม CPU ใหม่ๆ ทุกท่านคงไม่ลังเลจะเลือกสถาปัตยกรรมที่ดีกว่าและทันสมัยกว่า
                              แต่สำหรับผู้ชอบความคุ้มค่าก็อาจจะพิจารณาเลือกสถาปัตยกรรมที่ล้าสมัยกว่า แต่จำนวน Core เยอะกว่า
                              ยินดีครับที่คุณมาเข้าใจได้ว่า จะถกกันไปก็เสียเวลาเปล่าในประเด็นนี้

                              Comment


                              • ตัวเล็กตัวน้อยมาครบ

                                Comment

                                Working...
                                X