本文的几位“主角”包括三位:AMD Opteron 265(Italy核心)双核处理器用于工作站/服务器,Intel Pentium D 830(Smithfield核心)双核处理器则是定位于高端桌面或者工作站应用,Intel Pentium M T2600(Yonah核心)则是Intel新鲜出炉的双核移动处理器。
从定位上来看,这三款处理器可以说是风马牛不相及,但是实际应用中我们发现它们还有机会同台竞技的。华硕、泰安均推出了支持Pentium D处理器的工作站/服务器主板,Dell、HP、宝德等服务器厂商也推出了基于Pentium D双核处理器的服务器产品,甚至还有厂商推出了支持Pentium M处理器的主板,可用于工作站/服务器,比如MS-9625主板,因此我们不排除也会有厂商推出支持最新的移动版双核处理器的主板。本文将会对于这三款处理器在密集型计算应用、Web服务器应用中的性能进行对比。
AMD Opteron 265处理器图片
Intel Pentium D 830处理器图片
Intel Pentium M T2600处理器图片
这次其实缺席的角色还有不少,比如Intel Xeon MP双核处理器和Intel Pentium D EE双核处理器。如果把它们的性能也加入进来,这场关公战秦琼的戏就更热闹了。
AMD Opteron 265双核处理器
AMD Opteron系列处理器同Intel处理器的功能上有很大的区别,它基本上把北桥芯片的功能都整合到处理器内部,比如它最高可以支持3条HyperTransport链路,还整合了128bit DDR SDRAM内存控制器。双核Opteron 265处理器(Italy核心)将两个同样的核心以及北桥芯片都整合在了同一个芯片上,实现了以处理器主频速度进行相互通讯。
我们都知道AMD Opteron分为100系列、200系列和800系列,100系列不支持多处理器配置,200系列则可以支持双路配置,800系列可以支持四路和八路配置。这三个系列的产品目前均包含双核产品,型号为x65、x70和x75,我们这次测试的为265,主频为1.8GHz,支持双路配置。
AMD Opteron 265采用了90nm制程,核心面积为199mm2,晶体管集成度为233百万个,核心电压为1.35v,Socket940接口。其所支持的指令集包括标准x86指令集、AMD64指令集(X86-64)、MMX和3DNow指令集、SSE/SSE2/SSE3指令集。
AMD Opteron 265的每个核心配置了64KB L1数据缓存和64KB指令缓存。L1数据缓存为两路关联结构,支持ECC功能,还可同时支持两个64bit操作(load, store, or combination)。L1指令缓存也是两路关联结构,支持奇偶校验。
Opteron 265处理器配置了全速2MB L2缓存,每个核心可以支配1MB容量。该L2缓存包括了指令和数据流信息,为16路关联结构,其数据缓存和标记存储均支持ECC功能。
处理器中所整合的北桥芯片主要是HyperTransport接口、内存控制器和处理器核心相应的接口。Opteron最高支持3个16bit HyperTransport接口(支持400/800/1200/1600/2000MT/s),每链路双向带宽最高可达8.0GB/s,完全可以满足处理器之间、处理器同其它设备之间交换数据的需要。
Opteron 265处理器整合了128bit内存控制器,可以支持双通道DDR200/333/400内存,最高带宽可达6.4GB/s。支持的内存模组容量在32MB- 4GB之间,内存芯片位宽可以是4/8/16 bits。该内存控制器支持ECC、REGISTER和Chipkill技术。
在Opteron 265双核处理器的架构图中,我们可以发现在内存控制器/HypereTransport接口和处理器核心之间还有叫做System Request Queue和Cross Bar Switch的两个功能模块。这两个模块的主要作用是对于需要处理的任务进行仲裁并且实现核心之间的通信,从而确保每个核心的I/O带宽,避免核心争抢资源,从而实现更高的计算效能。为了说明这一点,我们有必要简单的介绍一下多处理器系统中的缓存一致性问题。
Intel Xeon采用了MESI缓存一致性协议(Cache Coherency Protocol),它是Modified,Exclusive,Shared或者Invalid这四种缓存数据状态的首字母缩写。如果多处理器系统中只有一颗处理器调用了某个数据,则此时这个数据的状态为Exclusive(独占),如果另外一个处理器也调用了这个部分的数据,则数据的状态为Shared(共享),如果一个处理器已经将该数据修改,那么此时数据状态为Modified(被修改),而另外一个处理器对于此数据的标记为Invalid(无效)。
如果CPU0已经修改了缓存中的某个数据,那么CPU1此时则无法修改,因为此时该数据对于其来说是无效的。因此,CPU1只有等到CPU0将修改后的数据写回到内存之后,才能重新从内存调用,这个过程费时、占用总线带宽、占用内存带宽。
AMD Opteron处理器采用了MOESI缓存一致性协议,它增加了Owner(物主)状态,已经被修改的数据但是依然可以被其它处理器所应用的数据将会被标记为这种状态。CPU1可以通过CPU-to-CPU HyperTransport链路直接调用CPU0缓存中的标记为Owner状态的数据,而不必等待CPU0将数据写回内存。
双核Opteron处理器的两个核心之间通过SRI(system request interface)交换数据,而无需通过HyperTransport,这个接口的速率同处理器速度完全相同,因此效率比原来的多处理器系统要快的多。这样还能释放HyperTransport总线的负担,进一步提升整个系统的负载能力。
AMD Opteron 265处理器主要规格
兼容现有的32bit代码 支持SSE、SSE2、SSE3、MMX、3DNow!和传统的x86指令集 可在现有的操作系统和驱动程序上运行 片内集成APICAMD64技术
AMD64技术指令集扩展 64bit整数寄存器,48bit虚拟寻址和40bit物理寻址 新增8个64bit整数寄存器(总数16个) 新增8个128bit SSE/SSE2/SSE3寄存器(总数16个)双核心架构
每核心配备独立L1和L2缓存整合内存控制器
低延迟高带宽 128bit DDR SDRAM 100/133/166/200MHz 最高支持4个非缓冲型DIMM 双位ECC检测和单位纠错HyperTransport技术到I/O设备
1个16bit链路,1GHz(2000MT/s)或4GB/s每方向64KB 2路联合ECC保护L1数据缓存
每循环2个64bit操作,3-cycle延迟64KB 2路联合奇偶校验保护L1指令缓存
支持高级分支预测
16路联合ECC保护L2缓存
Exclusive缓存架构 L2缓存容量最高可达1MBMachine Check Architecture
Includes hardware scrubbing of major ECC保护阵列电源管理
多种低功率状态 系统管理模式(SMM) 兼容ACPI,支持处理器性能状态电气接口
HyperTranport技术 DDR SDRAM 时钟信号、复位信号和测试信号均采用类DDR SDRAM电气规范封装
939针 lidded micro PGA 每针占1.27mm 31x31阵列 40mm x 40mm有机基板 有机C4 DIE附着 Intel Pentium D双核处理器Intel非常认同这一点,现今的应用环境中,单纯的提升处理器主频已经无法满足用户对于性能的需求,只有利用双核心(Dualcore)处理器才能满足多任务的并行。Intel Pentium D(Smithfield)系列处理器定位于高端桌面,目前有三种主频可选3.20GHz、3.0GHz和2.8GHz。这三款Intel Pentium D处理器都采用了90nm制程,每个核心配置了1MB二级缓存,前端总线频率为800MHz,LGA775封装。另外,还有一款至尊版处理器Pentium EE 840也采用了双核架构。
Pentium Extreme Edition 840 Intel Pentium D 840 Intel Pentium D 830 Intel Pentium D 820 型号 840 840 830 820 架构 90nm 90nm 90nm 90nm L2 Cache 2x1M 2x1M 2x1M 2x1M L3 Cache N/A N/A N/A N/A 主频 3.20 GHz 3.20 GHz 3 GHz 2.80 GHz 前端总线主频 800 MHz 800 MHz 800 MHz 800 MHz 其它Intel技术 双核EM64THTEDBit 双核EISTEM64TEDBit 双核EISTEM64TEDBit 双核EM64TEDBit 封装 FC-LGA FC-LGA FC-LGA FC-LGA 芯片组 Intel 955X EXPress Intel 955X Express,Intel 945G Express,Intel 945P Express,Intel E7230 Intel 955X Express,Intel 945G Express,Intel 945P Express,Intel E7230 Intel 955X Express,Intel 945G Express,Intel 945P Express,Intel E7230 内存类型 Dual-Channel DDR2 Dual Channel DDR2 400/533/667 Dual Channel DDR2 400/533/667 Dual Channel DDR2 400/533/667 Slot/Socket类型 LGA775 LGA775 LGA775 LGA775 最低-最高电压 1.20-1.40 1.20-1.40 1.20-1.40 1.20-1.40 针脚数量 775-land 775-land 775-land 775-land sSpec Number SL8FK SL88R SL88S SL88T从上面的表格来看,Pentium EE 840同Pentium D 840的主要区别是前者支持超线程技术但不支持EIST技术,后者支持EIST技术但不支持超线程技术。这样,Intel Pentium EE 840处理器最高可支持4线程。
Pentium D 840/830/820处理器主要特征
主频3.2GHz,3.0GHz和2.8GHz 2x16KB L1数据缓存 增强型EIST,820不支持 2x1MB全速L2缓存,8路并联 支持EM64T 支持144条SSE2指令 支持Execute Disable Bit 支持13条SSE3指令 Intel NetBurst微架构 增强型浮点和多媒体单元,可用于强化视频、音频、加密和3D性能 800MHz FSB 电源管理能力 超管线(Hyper-Pipelined)技术 系统管理模式 高级动态执行 多种低功耗状态 极深乱序执行 在load/store操作中,8路并联缓存可改进缓存命中率 增强分支预测 775接口封装 专为运行于32bit操作系统上的32bit程序优化Pentium D系列处理器的复杂程度同前面介绍的Italy核心的Opteron相似,核心面积为206mm2,集成度为230百万。Pentium D系列双核处理器保留了之前的Pentium 4处理器的主要特征,依然是基于Netburst微架构,同之前的Intel Pentium 4处理器一样,Pentium D系列处理器所采用的Intel NetBurst微架构前端总线采用了分离传输(Split-transaction),延迟应答协议(deferred reply protocol)。Intel NetBurst微架构前端总线利用地址和数据源同步传输(Source- Synchronous Transfer)实现4倍于总线时钟的数据传输。地址总线可以2倍于总线时钟传输地址数据。因此,4X数据总线和2X地址总线总共可以帮助数据总线实现6.4GB/s带宽的目的。
Pentium D采用了FC-LGA4(Flip-Chip Land Grid Array)封装技术,可以安装在LGA775处理器插座中,外形上和单核处理器没有区别。不过,其双核架构却同Opteron完全不同。Intel基本上是把两颗Pentium 4核心封装在一起,即便是两个核心通讯也需要通过前端总线进行,所有的内存访问动作、I/O和缓存一致性等操作都需要占用带宽只有6.4GB/s的前端总线。
Intel Pentium D处理器同样支持Intel EM64T,用户可以根据自己的需要任何选择让处理器工作在32bit下还是64bit下。目前,64bit的桌面应用并不普及,但是在服务器和工作站中则已经有了很多成熟的应用。
Pentium D处理器支持所有已有的SSE2(Streaming SIMD Extensions 2)和SSE3(Streaming SIMD Extensions 3)指令集。SSE3指令集是从Prescott核心开始增加的13条新指令,这些指令多用于视频处理、图像处理和多媒体编码等方面,可以提升专为SSE3指令优化过的程序的性能。
Pentium D支持Execute Disable Bit功能。这是一个需要操作系统支持的功能(Windows XP SP2),这个功能可以把内存标记为可执行或者不可执行。如果代码试图在不可执行内存区域运行将会引起操作系统错误。这个功能可以防止部分病毒或者蠕虫利用缓存溢出错误攻击系统,以提高整个系统的安全。
EIST(Enhanced Intel SpeedStep Technology)可以通过不同的方式调节处理器频率和供电电压,从而实现降低功耗的目的。这个功能需要操作系统支持动态VID转换。在不同电压/频率状态之间切换是通过软件控制的。这个功能在Pentium 6xx系列处理器上已经加入,不过这里还是着重强调一下。
如上图所示,EIST技术定义了4种(或者说6种)状态,它们是Normal State、Enhanced HALT和HALT State、Enhanced HALT Snoop和HALT Snoop State、Stop-Grant State。处理器只有在Normal State状态下才能发挥全部的设计性能。处理器执行HALT或者NWAIT指令之后可以进入到Enhanced HALT State,如果STPCLK#有效,则会进入到Stop-Grant State,Enhanced HALT状态比Stop Grant状态的功率更低,它可以通过BIOS进行配置,如果关闭Enhanced HALT State,那么Powerdown状态将默认进入HALT State。
无论处理器处于Enhanced HALT State和HALT State还是处于Stop-Grante State,都可以在Snoop事件触发的情况下分别进入到Enhanced /HALT Snoonp和Grant Snoop State。Enhanced HALT Snoop State一般同Enhanced HALT state协同使用,如果BIOS中屏蔽了Enhanced HALT state,那么默认的Snoop State将会进入到HALT Snoop State。
EIST可以通过改变处理器MSR(Model Specific Registers)寄存器的状态,实现实时的动态切换频率/电压状态,在这个过程中倍频和电压会改变,但前端总线频率并不会改变。
如果目标频率高于当前频率,Vcc将会以12.5mV的步进增加VID设定到所需的值,处理器也会相应的调整到目标频率。如果目标频率低于当前频率,处理器将会切换到目标频率,Vcc也会以12.5mV的步进降低VID设定到所需的值。
为了能够确保处理器以及整个平台可长时间的稳定工作,Intel对于每款处理器的散热设计功率(TDP)都有明确的规定。TDP并非是处理器的最大功率的发热量,而是Intel定制的确保处理器可以长期稳定工作的指标。Pentium D 820/830/840处理器TDP如下:
型号 主频 TDP Min Tc(°C) Max Tc(°C) 820 2.8GHz(PRB=0) 95 5 64.1 830 3.0GHz(PRB=1) 130 5 69.8 840 3.2GHz(PRB=1) 130 5 69.8Pentium D处理器基于热量二极管(Thermal Diode)提交的温度,选择合适的风扇转速而不是最大的转速,从而降低噪声。当处理器达到它的最高可运行温度的时候,热量监视器(Thermal Monitor)功能通过激活TCC来控制处理器温度。TCC通过调节处理器核心时钟来降低处理器功耗。热量监视器不需要处理器之外的额外硬件、软件驱动程序或者中断处理程序的辅助。
Pentium D处理器提供了一个新的机制“On-Demand”,这个机制可以允许系统软件强制处理器降低功耗,同热量监视器完全不允许用户配置是完全不同的。用户利用“On-Demand”模式可以人为的降低系统级功耗。不过,利用“On-Demand”模式才能保持处理器处于Intel规定的TDP范围之内的系统是不合格的。如果ACPI P_CNT控制器寄存器bit 4状态为“1”,处理器可以通过调节内部核心时钟来降低功耗,此时并不依赖于处理器温度来进行调节。当使用“On-Demand”模式的时候,ACPI P_CNT寄存器可以储存负载周期(duty cycle)的比例参数,负载周期可以在12.5%开/87.5%关到87.5%开/12.5%关的范围之内进行调节,步进为12.5%。“On-Demand”可以同热量监视器联合使用,但是它的优先级低于TCC。
Intel Core Duo双核处理器
Intel Core Duo处理器是Intel为新一代迅驰平台设计的处理器,不过从Intel主页的分类来看,显然Intel并不打算把这款产品仅仅应用于Loptap领域,在Desktop类产品中也有这个系列产品的名字。
Processor Number Cache Clock Speed Front Side Bus Power Dual-Core Enhanced Intel SpeedStep Technology Execute Disable Bit T2600 2 MB L2 2.16 GHz 667 MHz 31W 支持 支持 支持 T2500 2 MB L2 2 GHz 667 MHz 31W 支持 支持 支持 T2400 2 MB L2 1.83 GHz 667 MHz 31W 支持 支持 支持 T2300 2 MB L2 1.66 GHz 667 MHz 31W 支持 支持 支持 L2400 2 MB L2 1.66 GHz 667 MHz 15W 支持 支持 支持 L2300 2 MB L2 1.50 GHz 667 MHz 15W 支持 支持 支持Intel Core Duo系列处理器分为标准版和低电压版,标准版包括T2300、T2400、T2500和T2600,低电压版则包括L2300和L2400两颗产品。这个系列的产品均基于Yonah核心开发,它的核心面积为90.3 mm2,整合了151百万个晶体管,而之前Dothan核心面积为83.6 mm2,整合了140百万个晶体管。
CPU-Z 1.31可以正确的识别出来处理器核心代号Yonah,处理器名称识别为T1600,这是因为Intel在Yonah推出的同时调整了命名,估计CPU-Z下次升级之后这个部分会更新。Intel Core Duo支持MMX、SSE、SSE2、SSE3多媒体指令集,但不支持EM64T和超线程技术。这款处理器的前端总线为667MHz,可提供5.33GB/s的传输带宽。
T2600整合了32KB L1数据缓存和32KBL1指令缓存,均为8路关联。全速L2缓存容量为2MB,8路关联,256bit位宽。
Intel Pentium D缓存结构
Intel Core Duo缓存结构
通过上面的两张图片,我们可以很容易发现Intel Core Duo同Pentium D处理器在缓存设计方面的差异。Pentium D处理器是每个核心整合1MB的L2缓存,两个核心虽然封装在一个处理器外壳内,但是需要通过前端总线来通信。Intel Core Duo处理器的两个核心则是共享2MB L2缓存,Intel将这种设计称为智能缓存架构(Smart Cache Architecture)。
不过,我们没有找到关于Intel Core Duo在缓存一致性方面的资料,不清楚它是否在MESI的基础上做了一定程度的改进。可以肯定的是,SCA缓存架构可以实现两个核心之间更高速的通信。这样的设计还可以降低前端总线的负载,相应的整个系统的效能也会有一定的提升。
Intel Core Duo缓存采用了动态缓存分配机制(Dynamic Cache Allocation),每个核心工作的时候都尽可能的利用2MB L2缓存的所有容量。
核心级低电压状态
封装级低电压状态
Intel Core Duo处理器可以进行核心级(core level)和封装级(package level)电源管理,也就是说一个核心可以独立的进入到某种状态,比如C1/autoHALT、C1/MWAIT,或者整个处理器进入到某种状态。
核心级电压状态 封装级电压状态 C0 State Normal State C1/AuoHALT Powerdown State Stop-Grant State, C1/MWAIT Powerdown State Stop Grant Snoop State Core C2 State Sleep State Core C3 State Deep Sleep State Core C4 State Deeper Sleep State 本表中仅仅罗列两种级别的电压状态,并非一一对应的关系。由于本文的重点在于讨论不同处理器之间的性能差异,因此我们不对其电源管理做更深入的介绍。
测试平台和测试方法
测试平台配置
处理器 Dual Xeon 3.0 Intel Pentium M T2600 Intel Pentium D 830 AMD Opteron 265 核心 Nocona Yonah SmithField Italy 制程 90nm 65nm 90nm 90nm 核心电压 - 0.900-1.400v 1.2-1.4v 1.350v 主频 3.0GHz 2.16GHz 3.0GHz 1.8GHz 倍频 x15 x13 x15 x9 FSB或HTT 200MHz 167MHz 200MHz 200MHz 总线频率 800MHz 667MHz 800MHz - L1 D-Cache 16KB,8路 32KB,8路 16KB,8路 32KB,2路 L1 I-Cache 12KB,8路 32KB,8路 12KB,8路 32KB,2路 L2 Cache 2MB,8路 2MB,8路 2x1MB,8路 2x1MB,16路 L2与核心关系 - 共享2MB 每核心1MB 每核心1MB 主板 ASUS RS160-E2 TCL M31EI ASUS P5MT MSI MS9245 芯片组 E7520、6300ESB i945GM、ICH7 E7230、ICH7R、6702PXH AMD8111、AMD 8131 内存 Ramaxel 512MB 1Rx8 PC2-3200R-333 LF Ramaxel 256MB 1Rx16 PC2-4200S-444 LF Samsung 256MB 1Rx8 PC2-4200E-444-10-A3 Kingston KVR400D8R3A 容量 512MB x 4 256MB x 2 256MB x 2 1GB x 2我们在上述配置的服务器上分别安装了Microsoft Windows 2003企业版(英文、32bit),正确安装了各个硬件的驱动程序,确保服务器工作在最佳的状态。
我们所使用的评测软件如下:
SPECCPU2000 v1.2
Sisoft Sandra 2005 Pro
ScienceMark v2.0 Membench
WebBench v5.0
SEPCCPU2000可以评估服务器系统中处理器的整数性能和浮点性能,我们进行的是SPECint_base2000和SPECfp_base2000两个项目的测试。ScienceMark v2.0一款用于评估处理器科学计算能力的软件,它提供了评估被测系统内存带宽的功能,这款软件可以很好的支持多线程。IOMeter是一款可以用于单个系统或者集群系统的I/O子系统评估工具,我们仅仅使用了它的磁盘测试功能。WebBench和NetBench是两款在服务器评估中普遍使用的软件,前者也是侧重于服务器CPU子系统的性能评估,后者则侧重于IO子系统的性能评估。
Sisoft Sandra 2005 Pro测试
我们使用了Sisoft Sandra 2005 Pro SR2a对于各个系统进行了测试,这个测试结果对于普通的读者来说更加熟悉,甚至可以利用共享版本直接测试自己系统,因此会对于我们的测试结果有更加直观的概念。
CPU Arithmetic Benchmark包括了Dhrystone ALU、Whetstone FPU、Whetstone iSSE2三个子项目,多处理器、超线程技术对于这个测试的影响非常的明显。ALU测试中,Pentium M T2600拔得头筹,FPU和iSSE2测试中,启用了超线程技术的双Xeon服务器则显示出来了明显的优势。
CPU Multi-Media Benchmark测试包括了2个子项目,双Xeon平台的表现是最好的,其次是Pentium M T2600,Pentium D 830和Opteron 265的表现相近。根据以往我们的测试经验来看,Sisoft Sandra 2005的测试结果同专门的服务器性能评估软件的测试结果所显示的趋势并不完全吻合。
SPEC CPU2000 v1.2测试
SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。
SPEC CPU2000是SPEC组织推出的一套CPU子系统评估软件,它包括CINT2000和CFP2000两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能。计算系统中的处理器、内存和编译器都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2000的影响非常的小。
我们在被测服务器中安装了Intel C++ 8.1 Compiler、Intel Fortran 8.1 Compiler这两款SPEC CPU2000必需的编译器,另外安装了Microsoft Visual Studio 2003.net提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,可以满足Base测试,下面的测试成绩是在开启双Xeon处理器超线程条件下,2-4用户,SPECint_rate_base2000和SPECfp_rate_base2000。
SPECfp_rate2000测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint_rate 2000测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
Intel Pentiu M T2600的性能表现非常的优秀,无论是浮点性能还是整数性能,都完全同双Xeon配置并且开启了超线程的服务器具有同等的效能。AMD Opteron 265的浮点性能同Pentium M T2600非常的接近,整数性能低约17%。由于测试数据并非集中得到,之前我们测试Pentium D 830的时候并没有进行SPEC CPU2000 rate测试,因此这个部分它们的成绩是空白。(SPEC公布的测试结果显示,Pentium D 830的INT_rate和FP_rate分别为31.0和31.4。)
Sciencemark v2.0 Membench
ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。
ScienceMark Membench AMD Opteron 265 Intel Pentium D 830 Intel Petium M T2600 Dual Xeon 3.0GHz 内存带宽(MB/s) 4817.58 4429.8 3444.99 4073.71 L1 Cache Latency 32 Bytes Stride 3 cycles/1.67ns 4 cycles/1.33ns 3 cycles/1.38ns 3 cycles/1.00ns L2 Cache Latency 4 Bytes Stride 3 cycles/1.67 ns 6 cycles/2.00 ns 3 cycles/1.38 ns 6 cycles/2.00 ns 16 Bytes Stride 5 cycles/2.79 ns 13 cycles/4.33 ns 5 cycles/2.31 ns 13 cycles/4.33 ns 64 Bytes Stride 17 cycles/9.47 ns 29 cycles/9.67 ns 14 cycles/6.46 ns 27 cycles/9.00 ns 256 Bytes Stride 12 cycles/6.69 ns 28 cycles/9.33 ns 14 cycles/6.46 ns 26 cycles/8.67 ns 512 Bytes Stride 13 cycles/7.24 ns 26 cycles/8.67 ns 14 cycles/6.46 ns 25 cycles/8.33 ns Memory Latency 4 Bytes Stride 3 cycles/1.67 ns 7 cycles/2.33 ns 4 cycles/1.85 ns 6 cycles/ 2.00 ns 16 Bytes Stride 12 cycles/6.69 ns 15 cycles/5.00 ns 13 cycles/6.00 ns 15 cycles/5.00 ns 64 Bytes Stride 48 cycles/26.75 ns 43 cycles/14.33 ns 53 cycles/24.46 ns 49 cycles/16.33 ns 256 Bytes Stride 103 cycles/57.40 ns 270 cycles/90.00 ns 202 cycles/93.22 ns 376 cycles/125.33 ns 512 Bytes Stride 106 cycles/59.07 ns 284 cycles/94.66 ns 205 cycles/94.61 ns 395 cycles/131.66 ns这四个服务器所使用的内存并不完全一样,AMD Opteron 265配置两条1GB DDR400内存模组,Pentium D 830配置了两条256MB DDRII 533MHz内存模组,Pentium M T2600配置了两条256MB DDR2 533MHz内存模组,Dual Xeon 3.0配置了4条512MB DDRII 400MHz内存模组。不同的内存类型、时序、容量对于内存带宽和延迟都会有明显的影响。
AMD Opteron 265平台的内存带宽最高,主要得益于大容量DDR内存的低延迟,Pentium M T2600平台的内存带宽最低,不过它的内存延迟并不是造成这种结果的主要原因,从内存配置上看它同Pentium D 830非常的近似,但是结果有如此大的差异出乎预料。
4个平台的L1延迟均为3-4个周期,但是由于处理器的时钟总线频率不同,因此实际的延迟时间差距明显,Dual Xeon平台最短为1ns,Pentium D和Pentium M均为1.33ns,AMD Opteron 265最长为1.67ns。
L2延迟测试显示Pentium D 830平台和Dual Xeon平台的测试结果非常的近似,而Pentium M T2600平台和AMD Opteron 265平台的测试结果近似——它们所采用的架构显然具有更高的效能。
WebBench v5.0测试
WebBench是针对服务器作为Web Server时的性能进行测试,我们在被测服务器上安装了IIS6.0组件,以提供测试所需的Web服务。在测试中我们开启了网络实验室中的32台PC(Celeron 1.7/256MB/40GB/100Ethernet)作为客户端,使用了WebBench 5.0内置的动态CGI动态页面脚本对服务器进行了测试。
AMD Opteron 265双核处理器和Intel Pentium M T2600的最高处理能力相近,每秒钟可处理的动态CGI请求均达到了4300 Requests/s。这个成绩均超过了我们曾经测试过的配置了双Xeon 3.0GHz处理器的服务器,Intel Pentium D 830的数据也是基于华硕P5MT主板(E7230芯片组)得到的,这也是我们已经测试过的几个E7230平台中成绩最好的一项,它比AMD Opteron 265和Intel Pentium M T2600的性能低了33%!
WebBench v5.0的测试结果再次显示多核处理器的主频并非是决定因素,而双Xeon配置的多线程技术也无法让原来Xeon处理器的效率有令人满意的提升。
Intel Duo Core处理器主要定位于移动应用,Intel Pentium D主要定位于桌面PC和入门级工作站服务器,Xeon和Opteron则是主攻服务器应用。如何利用现有的平台对于这些处理器进行比较的确是不太容易。因为目前并没有主板厂商或者整机厂商试图推出支持Xeon处理器同事支持独立显卡的另类产品,因此我们无法对于这些平台进行家庭应用,特别是游戏方面性能的对比。最后我们发现这些平台都可以运行服务器测试中的部分项目,而且基本上不存在瓶颈,因此我们对于这些处理器进行了前面一系列的对比。
参测处理器主要规格对比
处理器 Dual Xeon 3.0 Intel Duo Core T2600 Intel Pentium D 830 AMD Opteron 265 多处理器 DP SP SP DP 核心 Nocona Yonah SmithField Italy 制程 90nm 65nm 90nm 90nm 核心电压 - 0.900-1.400v 1.2-1.4v 1.350v 主频 3.0GHz 2.16GHz 3.0GHz 1.8GHz 倍频 x15 x13 x15 x9 FSB或HTT 200MHz 167MHz 200MHz 200MHz 总线频率 800MHz 667MHz 800MHz - L1 D-Cache 16KB,8路 32KB,8路 16KB,8路 32KB,2路 L1 I-Cache 12KB,8路 32KB,8路 12KB,8路 32KB,2路 L2 Cache 2MB,8路 2MB,8路 2x1MB,8路 2x1MB,16路 L2与核心关系 - 共享2MB 每核心1MB 每核心1MB 特色技术 HT,EDBit,DBS,EM64T Intel Smart Cache,Intel Dynamic Power Coordination,Enhanced Intel Deeper Sleep HT,EDBit,EM64T,EIST XDBit,AMD64 封装 FC-mPGA 604-PIN mFC-PGA 478-pin FC-LGA LGA775 µPGA 940-pin 价格 249美元 x 2 654美元 311美元 679美元SPEC CPU2000测试结果显示,在计算密集型浮点/整数操作的时候,4个平台的差异并不大,两个Xeon处理器并没有显示出来性能优势,AMD Opteron在整数应用中性能略低。WebBench测试结果显示,Intel Duo core T2600和AMD Opteron 265处理器特别适用于构建Web服务器,双Xeon和Pentium D的性能均不理想。
我们在Internet上搜索了多个国外网站的报价,上面表格中的价格是其中标价最低的,我们利用这个价格计算了Web服务器应用的性价比。
数值越高越好
如果单纯比较基于这4款处理器的Web服务器应用的性能的话,可以发现Intel Pentium D 830是一款性价比极佳的处理器(如果进一步考虑被测服务器仅仅配置了512MB内存,双Xeon平台和AMD平台均配置了2GB内存的话,基于Pentium D处理器的Web服务器的性价比会进一步提高。)
显然Intel Duo Core T2600处理器和AMD Opteron 265处理器的单价太高了,比两颗Xeon 3.0GHz处理器还高,虽然它们的性能比双Xeon平台高出了10%,但是性价比还是明显的落后了。
单纯从性能角度考虑,Intel Duo Core T2600处理器和AMD Opteron 265处理器是非常值得肯定的,它们的主频均在2GHz左右,但是却有同主频为3.0GHz处理器的Netburst架构的双核处理器(或者双路处理器)不相上下的性能。特别是Intel Duo Core T2600处理器的TDP只有31瓦,如果能应用于服务器应用的话,非常适合于密集部署。
我们这次的测试结果让我们对于Yonah核心充满了期待,不过Intel陆续发布的双核Xeon DP处理器和Xeon MP处理器,显示他们还在试图延续Netburst架构。看来在榨干Netburst架构的所有潜力之前,Intel不会把Yonah应用于PC和Server领域中了。
(出处:http://www.sheup.com)