Announcement

**Comlow** · 22 Mar 2007, 20:22:04

สิ่งที่คุณ ARES กล่าวมานั้นก็น่านำมาพิจารณาเหมือนกันครับทุกท่าน เพียงแต่คุณ ARES ต้องไม่ลืมว่า CPU ทุกรุ่นที่ใช้ 16-byte Allocate ในขั้นตอน Pre-Decoder นั้นก็มีข้อจำกัดเหมือนกันกับ Conroe ทั้งสิ้นครับ ไม่ว่าจะเป็น K8 หรือ Netburst ก็ตาม

ในขั้นตอนนี้หากคุณจะบอกว่า CPU ที่มีความเร็ว Clock speed สูงกว่าย่อมจะทำงานได้ดีกว่าก็ ถือว่าถูกต้องครับ แต่จะต้องเป็น CPU ที่มีสถาปัตยกรรมเดียวกันเท่านั้นครับ จึงจะทำให้ข้อสรุป นี้ถูกต้องสมบูรณ์

การเปรียบเทียบระหว่าง Core , Netburst และ K8 ในขั้นตอนนี้ เราจะต้องดูสถาปัตยกรรมภายในเป็นหลัก จำนวน Pipeline Stages ของแต่ละตัวไม่เหมือนกัน Core 14 Stages, K8 12 Stages และ Netburst 31 Stages ซึ่งจะเห็นว่า เข้าป่าไปคนละอย่างเลย ทั้งยังแต่ละ Stages ของแต่ละตัวจะใช้กี่ Clock ก็ไม่เท่ากันซะอีก นี่เป็นประการที่ 1

สำหรับกรณีของ Instruction Queue นั้นจำนวน Entry ของ Buffer ต่างๆ ของ CPU แต่ละสถาปัตยกรรมก็ไม่เท่ากัน เนื่องจากแนวทางการพัฒนาไม่เหมือนกัน กรณีของ Trace Cache ใน Netburst เป็นแบบนึงใน K8 และ Core แม้จะใช้ Tradition Cache เหมือนกัน แต่การทำ Branch และ Instruction Queue ก็ไปคนละแนวเลย และนี่เป็นประการที่ 2

ฉะนั้นการจะสรุปดื้อๆ เอาว่า CPU ที่ Clock speed สูงนั้นทำงานได้ไวกว่า ด้วยขั้นตอนนี้ เพียงประการเดียว น่าจะไม่ถูกต้องนักนะครับ คุณ ARES ครับ

คุณ ARES พยายามจะชี้ว่าเป็นปัญหาของ Core หรือ Conroe ผมกลับมองต่างมุมครับ หากเราคิดในมุมกลับว่า ทำไม Intel จึงออกแบบ Conroe มาแบบนี้ ? บางทีคุณ ARES อาจจะเห็นคำตอบ ลองดูจากภาพที่ผมได้ลงให้ดูไปแล้วก่อนหน้านี้ ก็น่าจะพอมองเห็นครับ

จุดที่ Conroe ได้เปรียบ K8 หรือ Netburst นั้นอยู่ที่ Decoder แต่ละ Core ของ Conroe ที่สามารถถอดรหัสได้สูงสุดถึง 5 ชุดคำสั่งต่อ 1 รอบสัญญาณนาฬิกา (*ถ้าใช้เทคนิค Macro-Fusion*)(** ปกติจะเป็น 4 ตามแผนภาพ ** ) ดังภาพข้างล่างนี้

เทคนิค Macro-Fusion ของ Core Microarchitect ที่สามารถยุบรวม
ชุดคำสั่งที่คล้ายกันให้เป็นคำสั่งเดียวกันได้

ในขณะที่ K8 หรือ Netburst สิ่งที่เป็นไปได้สูงสุดสำหรับขั้นตอน Decode นั้นจำกัดอยู่ที่ 3 ชุดคำสั่งต่อ 1 รอบสัญญาณนาฬิกาเท่านั้น

และตัว ALU ของ Conroe ที่ได้รับการพัฒนาให้มีศักยภาพในการประมวลผลได้ดีกว่า K8 หรือ Netburst คือ สามารถประมวลผลได้สูงสุด 5 ชุดคำสั่ง ต่อ 1 รอบสัญญาณนาฬิกา (ต่อ 1 Core)

ในขณะที่ K8 หรือ Netburst สิ่งที่เป็นไปได้สูงสุดสำหรับขั้นตอน Execute นี้ จำกัดอยู่ที่ 3 ชุดคำสั่งต่อ 1 รอบสัญญาณนาฬิกาเท่านั้น

หากเราเอาภาพมาต่อกันตั้งแต่ขั้นตอนเริ่มต้นของการทำงานทั้งหมดของ CPU แต่ละสถาปัตยกรรมคือ Core , K8 และ Netburst ผมเชื่อว่า คุณ ARES และท่านที่สนใจน่าจะมองได้ไม่ยากว่า CPU สถาปัตยกรรมไหนน่าจะทำงานได้ไวกว่าครับ

ผมไม่ได้ต่อว่าท่านนะครับ กรุณาอย่าอารมณ์ร้อน เพียงแต่แลกเปลี่ยนมุมมองแค่นั้นครับ ที่ท่านกล่าวมานั้นก็ไม่ใช่ว่าผิดทั้งหมด ส่วนถูกก็มีไม่น้อย เพียงแต่การสรุปของท่านนั้นอาจจะทำให้หลายท่านเข้าใจผิดว่า สิ่งที่ท่านนำเสนอมานั้นเป็นจุดอ่อนของ Conroe เท่านั้น แต่จริงๆ แล้วผมอยากจะให้ข้อมูลทุกท่านเพิ่มเติมว่า K8 และ Netburst ก็มีจุดอ่อนตรงนี้เช่นกัน

ผมจึงอยากให้ท่านมองดูภาพรวมมากกว่า เพราะการจะประมวลผลข้อมูลใดๆ ออกมาจาก CPU ได้ เราคงไม่ได้มาเน้นขั้นตอนการ Pre-Decoder เพียงอย่างเดียว แต่จะต้องมองไปจนสุดทางที่ผลลัพธ์ไหลออกมาโน่นแหละครับ จึง
จะบอกได้ว่า CPU รุ่นไหนไวกว่า

**ARES** · 22 Mar 2007, 20:48:03

ท่านบอกว่า Conroe ทำงานได้สูงสุด 5 คำสั่งต่อรอบสัญญาณนาฬิกา
แล้ว Conroe ทำงานได้ที่ 5 คำสั่งต่อทุกๆรอบสัญสาญนาฬิกาหรือเปล่าครับ
ถ้าไม่ได้ จะมีเงื่อนไขอย่างไรบ้างถึงไม่ได้ แล้วสุดท้ายจะได้ที่กี่คำสั่ง...
และเมื่อ Conroe ทำงานด้วยคำสั่งต่อรอบสัญญาณนาฬิกาที่เท่ากันกับ K8 หรือ Netburst
ก็จะต้องพิจรานาองค์ประกอบอย่างอื่นอีกใชไหมครับ ว่าที่สัญญาณนาฬิกาเท่ากัน ตัวไหนเร็วกว่า

**เสือไรเฟิล** · 22 Mar 2007, 21:17:11

อ่านไปก็เท่านั้น แบบว่าให้ตาย ก็ไม่ซื้อเพราะ
เป็นสาวกเอก ฝั่งสีเขียว ปล่อยให้ ฝั่งน้ำเงินคราม เค้าเถียงกันไป

**ARES** · 22 Mar 2007, 22:01:19

นั้นสิ Barcelona มาแล้วราคาลงหน่อย จะย้ายไปซบอก ฝั่งเขียวมั่ง เห็นเขาโม้ไว้ว่าเร็วกว่าอินเทล 40%

แต่ช้าก่อน...CEOของอินเทลไปเดินดูบู้ท AMD ในงาน CEBIT แล้วโดนสัมภาษบอกว่าคงจะยาก แล้วถึงเร็วกว่าจริง ตอนนั้น Intel ก็จะปล่อย Penryn 45 nm มาแล้วแหละ

ตายเลยAMD...จะเล่นเกมกันยังไงนี้ AMD ก็ไม่ใช่หมู...อิอิ น่าสนใจ

**eakkphol** · 22 Mar 2007, 22:44:18

ให้ E6400 อีกหนุ่งคนครับ

**Comlow** · 23 Mar 2007, 07:17:53

Conroe สามารถ Decoder ได้สูงสุด 5 คำสั่งต่อหนึ่งรอบสัญญาณนาฬิกาหากใช้เทคนิค Macro-Fusion ข้างต้น

แม้ว่าทุกรอบสัญญาณนาฬิกาที่ Conroe ใช้ในการ Decoder อาจจะไม่สามารถทำได้สูงสุดตามสเปคทุกรอบสัญญาณนาฬิกา แต่ทาง Intel เขาก็พยายามให้มันสามารถทำได้ตามนี้ให้มากที่สุดอยู่แล้วครับ อย่างน้อยผมก็คิดว่าน่าจะ 80% ขึ้นไป เพื่อประสิทธิภาพในการทำงานและคุณสมบัติที่สำคัญคือใช้พลังงานให้น้อยลง

ขั้นที่ 1 ขั้นตอนการอ่านข้อมูลมากจาก System Memory

หากเราใช้ชิพเซ็ต P965 ที่มีเทคนิค Intel Fast Memory Access* เทคนิคนี้ก็จะพยายามกรองเอาชุดคำสั่งที่มีความเหมือนกันไว้ให้อยู่ใน Address ที่ใกล้เคียงกัน

ขั้นที่ 2 ขั้นตอนการทำงานของ L2 Cache

Intel ได้นำข้อเด่นของ Netburst ในเรื่อง Prefetch L1 มาใช้กับ L2 Cache ของ Conroe เพื่อชดเชยที่ Conroe ไม่มี Memory Controller ในตัวแบบ K8 นั่นก็คือเทคนิค Memory Disambiguation เพื่อจัดเรียงทั้งคำสั่งและข้อมูลที่จะประมวลผลให้เลียงลำดับกันก่อนที่ จะแยกในขั้นตอนการทำงานของ L1 Cache

ขั้นที่ 3 ขั้นตอนการทำงานของ L1 Cache

ก็จะเข้าสู่ขั้นตอนในภาพที่เสนอไปแล้วใน คห. ของผมก่อนหน้านี้

ขั้นที่ 4 ก็จะเข้าสู่การทำงานใน CPU ดังที่กล่าวมาแล้ว

สิ่งที่คุณ ARES กังวลใจนั้น วิศวกรของ Intel เขาทราบดีอยู่แล้วครับ จึงได้ออกแบบแก้ไขไว้แล้วครับ

ส่วนที่จะให้ระบุเป็นคำสั่งเลยว่าได้กี่คำสั่งตรงๆ นี่ผมคงบอกไม่ได้หรอกครับ แต่ถ้าจะประมาณก็พอได้ ครับ ซึ่งคุณก็สามารถทำได้ง่ายๆ ครับ อาจจะใช้ SiSoft XI วัดค่า CPU Drynstone (MIPs) ออกมา สมมตินะครับ

Core 2 E6300 @ 2.80GHz ของผมวัดได้ ALU ได้ 25692 MIPs
คุณอยากจะทราบว่า 1 รอบจะได้กี่คำสั่ง ก็ เอา 25.692 Gips /2.80GHz = 9.18 instructions/sec

Pentium 4 E @ 3.20GHz (Netburst) อ้างอิงจาก SiSoft XI ALU วัดได้ 6277 MIPs
คุณอยากจะทราบว่า 1 รอบจะได้กี่คำสั่ง ก็เอา 6.277 Gips / 3.20 GHz = 1.96 instructions/sec

Athlon 64 FX-57 @ 2.80GHz (K8) อ้างอิงจาก Sisoft Sandra XI ALU วัดได้ 10112 MIPs
คุณอยากจะทราบว่า 1 รอบจะได้กี่คำสั่ง ก็เอา 10.112 Gips / 2.80GHz = 3.611 instructions/sec

คุณจะเห็นภาพคร่าวๆ แล้วว่ากรณีของ K8 และ Netburst นั้น Front-End ของระบบนั้นย่อมมีประสิทธิภาพด้อยกว่า Conroe อยู่แล้ว มันมี Logic ง่ายๆ ที่ผมพอสรุปให้คุณฟังได้สั้นว่า

"สิ่งที่เป็นไปได้ใน K8 และ Netburst นั้น Conroe ทำได้ดีกว่า มากกว่า และไวกว่า แต่สิ่งที่เป็นไปได้ใน Conroe นั้น K8 และ Netburst ทำไม่ได้ หรือทำได้น้อยกว่า และช้ากว่าครับ"

และเมื่อ Conroe ทำงานด้วยคำสั่งต่อรอบสัญญาณนาฬิกาที่เท่ากันกับ K8 หรือ Netburst ก็จะต้องพิจรานาองค์ประกอบอย่างอื่นอีกใชไหมครับ ว่าที่สัญญาณนาฬิกาเท่ากัน ตัวไหนเร็วกว่า

คุณ ARES ก็น่าจะทราบดีนี่ครับว่า ทุกอย่างมันเกี่ยวข้องกันหมดไม่ว่าจะเป็นประสิทธิภาพของ ALU , L2 Cache และสถาปัตยกรรมภายในของ CPU อื่นๆ

**sifer2002** · 23 Mar 2007, 09:45:25

โอวววว กลับมาอีกครั้ง ความรู้ก็ยังเยี่ยม ท่าน Ares ก็เยี่ยม เพราะคำถามที่ท่านถามมา ถ้าเป็นผม ผมก็ไม่รู้ว่าจะถามอะไร ที่นี่เจ๋งจริงๆ ^^"

**ไม่อยากล็อกอิน** · 23 Mar 2007, 13:49:29

ตกลงถูกอยู่คนเดียวไม่ฟังใครเลยอ่ะ ใครคุยด้วยนี้หาเถียง

**ลุงอ๊อด** · 23 Mar 2007, 15:12:46

ไม่อยากล็อกอิน ตกลงถูกอยู่คนเดียวไม่ฟังใครเลยอ่ะ ใครคุยด้วยนี้หาเถียง

Comlow อ้างอิง:อันนี้เป็นกวีจัดจ้านไม่เบาครับ 555555
หนุกดี เก่งกันทั้งฝีมือและฝีปากอ่ะ เอิ๊กกกกก เอิ๊กกกกก

มิกล้า

อยากให้นึกถึงบรรยากาศร้านกาแฟต่างจังหวัดเก่าแก่ (ขายของอีกละ) ที่มีผู้คนนั่งถกเถียงกันถึงเรื่องต่างๆ ทั่วไปที่เกิดขึ้น ในอำเภอ ในจังหวัด ในประเทศ หรือต่างประเทศ วนเวียนกันเข้าร้าน

ผมใช้ฟิลลลนี้เข้ามาหาความรู้จากประสบการณ์ของพี่ๆ น้องๆ ที่เก่งกว่า โดยไม่ต้องลองผิด-ลองถูกเองให้เจ็บตัวน้อยที่สุด
มุมมองที่แตกต่าง ความเห็นไม่ตรงกันไม่เห็นแปลก ก็เอามาปั่นรวมกันได้กาแฟปั่น หรือโกโก้ปั่นรสนุ่มอร่อยลิ้น...ซะงั้น

การเอาชนะด้วยความคิดของตนเองฝ่ายเดียว กับอารมณ์ผมก็ว่าอีโก้แรงไป ยอมรับกันลำบาก
แต่ที่อ่านๆ มาก็ยังไม่ถึงจุดนั้นนี่ครับ
ถ้าอยากเอาชนะต้องเป็นเรื่องที่เค้าไม่รู้หรือรู้มาผิดๆ ละครับ
แต่ด้วยความละมุนละไมและด้วยเหตุผลที่ดีพอ ยิ่งเป็นขาจรแบบไม่ log in ด้วยเนี่ย.... หุ หุ

ถ้าเป็นนักทฤษฎี ต้องเจอนักปฏิบัติ นักวิชาการ เจอกับชาวบ้าน...แต่ก็ไม่มีใครผิด เพราะ t*t=t
คนฟังได้ประโยชน์คนละแง่มุมมอง...ครั้งนี้ก็เช่นกัน

ผมยังโดนเลยนิ ก็หมั่นไส้แต่น่ารักดี คิดมากน่า...เอิ๊กกกกก เอิ๊กกกกก

**ยังไม่อยากล็อกอิน** · 23 Mar 2007, 15:52:55

ขอบคุณลุงอ้อด มานก็หน้าเดิมแหละอ่ะ ที่เปนขาจรเพราะกลัวเละโจ๊ก ไม่ล็อกอินจะได้ไม่ต้องเปลี่ยนชื่อใหม่อ่ะ... อิๆ

**ARES** · 23 Mar 2007, 23:59:44

Originally posted by Comlow View Post

คุณ ARES ก็น่าจะทราบดีนี่ครับว่า ทุกอย่างมันเกี่ยวข้องกันหมดไม่ว่าจะเป็นประสิทธิภาพของ ALU , L2 Cache และสถาปัตยกรรมภายในของ CPU อื่นๆ

ถึงแม้ว่าจะมีสัญญานนาฬิกาที่สูงกว่าเท่าตัวก็ถมส่วนต่างตรงนี้ไม่เต็มเหรอครับ

**Comlow** · 24 Mar 2007, 12:34:19

ถึงแม้ว่าจะมีสัญญานนาฬิกาที่สูงกว่าเท่าตัวก็ถมส่วนต่างตรงนี้ไม่เต็มเหรอครับ

คงจะถมเต็มได้ยากครับ เพราะสถาปัตยกรรม Core เหนือกว่าหลายขุมดังได้กล่าวมาแล้ว นี่ขนาดทั่วไปนะครับ ถ้าเป็นงานแบบ SIMD ยิ่งไม่ต้องพูดถึง
Core ทิ้งหายแบบไม่เห็นฝุ่นเลยล่ะครับ

**battlecruiser** · 24 Mar 2007, 12:37:24

แล้วตอนที่ C2D oc ไปที่ 3.5-3.6

แล้วเทียบกับ Netburst ที่ความเร็ว 3.5-3.6 หรือไม่ก็ 4ghz กว่าๆ

ผลที่ได้ = ??

**Comlow** · 24 Mar 2007, 12:42:05

ขนาด Netburst แบบ Dual Core ที่ Clock สูงกว่า Core 2 Duo ก็ยังทำงานได้แย่กว่า แล้วถ้า Clock เท่ากันนี่ลองคิดดูละกันครับว่า Netburst จะสะอื้นขนาดไหน

**badghost** · 24 Mar 2007, 15:03:00

โห ไม่ได้เข้าหลายวัน มาอีกหลายกระทู้เลย ผมไม่แปลกใจเลยถ้าเรื่องเกี่ยวกับ CPU ที่เป็นฮาร์ดแวร์มีหลักการทำงานตายตัวยังถกเถียงกันได้ขนาดนี้ เรื่องการเมืองที่มันเป็นรูปธรรมถึงเถียงกันได้ไม่จบไม่สิ้นซะที
---------------------------
CPU แต่ละตัวมันก็มีข้อดีข้อเสียเป็นธรรมดา P4 มันจึงเกิดการพัฒนาเป็น C2D ขึ้นมา เพราะเห็นแล้วว่าทิศทางการพัฒนามันเป็นทางด้านนี้(ซึ่งดีกว่าแบบเก่า) ถ้าเถียงกันตอนนี้ผมไม่เถียงว่าโปรแกรมบางตัวยังต้องการ Clock สูงๆอยู่ แต่ต่อๆไปแล้วเมื่อ C2D มีจำนวน Clock สูงขึ้นจนเท่ากับ P4 ตอนนี้(ซึ่งคิดว่าคงไม่สูงไปกว่านี้แล้ว)ปัญหาเหล่านี้จะถูกกลืนหายไป

Announcement

เพนเทียม D 3.4G กับ E6400 เอาอันไหนครับ

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment