cpu介绍(精选6篇)
只有msm,apq,mpq才能算手机cpu。
msm=apq+mdm,所谓的msm型号,其实就是在apq的基础上加多一个mdm基带芯片一起封装。
msm型号的第二个字就是代表基带,msm x2xx,其中2是代表支持wcdma,联通3g。msm x6xx中的6代表支持cdma,电信3g,msm x9xx,中的9表示支持lte,同时也是目前的全基带支持的意思。
而0是代表没基带,所以不能用msm表示,而是apq x0xx。
关键词:微处理器,超长指令字,超标量
1 概述
中央处理单元(CPU)是嵌入式系统的心脏,无论我们使用一个CPU或者用多个CPU组合来组成一个微处理器,指令集系统都能提供高效性和通用性,完成功能强大的嵌入式计算。下面主要从CPU的一些性能来进行说明。
2 CPU的并行执行机制
在这一节中,我们来看处理器进行并行操作的几种方法。这里将介绍超长指令字和超标量处理、子字并行、向量处理以及线程级并行。
2.1 超长指令字处理器
超长指令字(VLIW)体系结构起源于通用处理器,但在嵌入式系统中已经得到了广泛应用。VLIW体系结构提供了硬件开销相对较低的指令级并行。
图1展示了一个简化的VLIW处理器来介绍这项技术的基本原理。执行单元包括一个功能单元池,连接到一个大的寄存器堆。对于VLIW,我们可以说执行单元读入一个指令包—包中的每条指令可以控制机器中的一个功能单元。在一个理想的VLIW机器中,指令包中所有的指令同时被执行。在现代机器中,执行完包中所有的指令可能需要若干个周期。与超标量处理器不同,指令执行的顺序是由代码的结构和指令如何组成包决定的。在当前指令包中所有的指令执行完之前,下一指令包中的指令不会开始执行。
由于指令包的组织决定了指令执行的顺序,VLIW机器依靠强大的编译器来辨认并行性以及调度指令。编译器保证资源约束和相应的调度策略。作为补偿,执行单元就变得简单一些,因为不需要做资源依赖性检查。
2.2 超标量
超标量处理器在每个时钟周期发射多于1条的指令。与VLIW处理器不同,超标量处理器动态地进行资源冲突的检查,来确定每一步可以发出哪些指令组合。超标量体系结构在桌面系统和服务器领域具有主导地位。在嵌入式领域,超标量体系结构不及在桌面系统、服务器领域中常用。对嵌入式系统来说,评价的标准更可能是每瓦特能耗所完成的操作数,而不仅仅是性能。
尽管如此,还是有不少嵌入式处理器使用了超标量指令发射,虽然其超标量程度不及高端的服务器。嵌入式Pentium是一款按序双发射处理器,具有两条流水线:一条进行任意整数运算,另一条进行简单整数运算。
2.3 SIMD与向量处理器
许多应用展示出了数据级的并行性,使得应用本身具有高效的计算结构。另外,这些数据规模通常比较小。所以我们可以构建更多的并行处理器单元来获得更高的并行性。
一项关于小操作数宽度的技术叫做子字并行化(SIMD)。处理器中的ALU可以工作于正常模式,也可以分割为若干较小的ALU。一个ALU可以很容易通过将进位链断开进行分割,使位和位之间可以独立运算。每个子字可以对独立的数据进行操作;操作通过同样的操作码控制。由于同样的指令作用于若干数据,这项技术通常被认为是SIMD的一种。
另一种用于数据并行的技术是向量处理。向量处理已经在科学计算领域应用了几十年,使用特殊设计的指令在向量上高效地完成求点积之类的运算。向量处理并不要求小数据值,但是小的数据类型构成的向量可以在可用的硬件上并行完成更多的操作,特别是在使用子字并行方法管理数据路径资源的情况下。
2.4 线程级并行
处理器也可以开发线程级或者任务级的并行,线程级的并行更容易发现,特别是在嵌入式系统中。相比指令级的并行,线程的行为更容易预测。
多线程体系结构必须为每个线程提供独立的寄存器。但是由于线程之间的切换是程式化的,控制多线程的方法相对比较直接。硬件多线程技术交替从每个单独线程取指令。在每个周期,从一个线程取足够多的指令,从而能够在没有互锁的情况下让流水线充满。在下一个周期,就从另一个线程取指令。同时多线程(SMT)技术在每个周期都为多个线程取指令,而不是在线程之间交替。
3 性能可变处理器体系结构
因为许多嵌入式系统都需要符合实时性的时间限制,因此嵌入式系统里所使用的单个组件的一个可以预见的执行时间就成为它的重要评价指标。但是,传统的计算机体系结构设计更为关注系统的平均性能,而不是最坏情况的性能。从而导致处理器的平均性能往往很快,而最坏情况很难界定。这往往就会导致硬件设计(过大的高级缓存,过快的处理器)和软件设计(简化代码,限制某些指令的使用)趋于保守。随着能耗以及可靠性问题变得越来越重要,一些新技术不断地发展,而这种发展也使得处理器的行为变得及其复杂。尽管在嵌入式处理器中引入这些技巧会使系统设计变得更加难以分析,但这些技巧还是慢慢地渗入到了嵌入式处理器的设计。本节介绍两种重要的技术发展:电压和频率的动态调整以及“优于最坏情况”设计。
3.1 电压和频率的动态调整
电压和频率的动态调整(DVFS)是一种很流行的CPU能耗控制技术,它利用了CMOS数字电路可操作范围大的特点。CMOS不同于其他数字电路,它可以在一个很大的电压伏值范围内工作。除此之外,CMOS电路在低电压时具有更高的效率。
CMOS门电路的延迟基本是电源提供的电压的线性函数。通过门电路的能耗正比于两端操作电压的平方
E∝C(V*V)
CMOS的速率电压积(不计泄漏的部分)同样也是E∝C(V*V)。因此,通过降低电源提供的电压,我们可以使能耗以(V*V)的速率下降,而性能仅仅以V的速率下降。
图2给出了一种DVFS结构,时钟和电源由一组可以提供一定范围的值的电路来给出;这些电路主要是在离散点进行操作,而不是针对一组连续值的。时钟发生器和电压发生器都由一个控制器来控制,这个控制器决定了什麽时候时钟频率和电压将会发生变化以及变化多少。
DVFS控制器必须在一定的限制下进行控制,以优化设计的标准。这些限制与时钟速率以及电压值有关:不仅仅是它们的最大值和最小值,这也包括时钟频率以及电压值以多大速率进行变化。这种设计的标准即可以通过给出一个能量的预计来最大化性能,也可以通过给出一个性能的限定来最小化性能。
我们可以通过硬件实现控制算法的编码,但通常至少会把一部分控制算法用软件来实现寄存器可以用来设置某几个参数的值。但更一般的处理方法是用软件实现整个控制算法。
3.2“优于最坏情况”设计
数字系统通常设计为由时钟所控制的同步系统。设计者经过认真的分析来设计时钟周期,以使得每个值可以准确地存储到它应该存储的寄存器,并且往往通过增加时钟周期来涵盖最坏情况的延迟。实际上,在许多电路中,最坏情况的延迟相对少见,因此大多数情况下,电路逻辑就会有某段时间被白白置为闲置。
“优于最坏情况”设计是一种替代设计方法,在这种方法中电路逻辑检测并恢复错误,它可以使电路在大部分时间里都可以以较高的速度运行。“优于最坏情况”设计结构的一个具体实现是Razor结构。
Razor使用了一个特殊的寄存器来对错误进行度量和评估,系统寄存器保存着阀值,并且采用高于最坏情况的时钟频率来计时。另外还有一个寄存器单独计时,它的时钟节拍比系统寄存器的时钟节拍稍晚几拍。如果这两个寄存器中所存储的值不同,这时就出现了一个错误。这个错误有可能是由于节拍控制出现问题造成的,通过一个异或门可以检测到这个错误,并用后出现的值来替换系统寄存器中的值
Razor微体系结构并没有使错误操作在同一阶段计算,而是在随后的步骤里再进行错误处理操作。这就避免了由于系统问题而导致的不确定次数的重计算而造成流水线的阻塞。
4 总结
位:在数字电路和电脑技术中采用二进制,代码只有“0”和“1”,其中无论是 “0”或是“1”在CPU中都是 一“位”,
字长:电脑技术中对CPU在单位时间内(同一时间)能一次处理的二进制数的位数叫字长。所以能处理字长为8位数据的CPU通常就叫8位的CPU。同理32位的CPU就能在单位时间内处理字长为32位的二进制数据。字节和字长的区别:由于常用的英文字符用8位二进制就可以表示,所以通常就将8位称为一个字节。字长的长度是不固定的,对于不同的CPU、字长的长度也不一样。8位的CPU一次只能处理一个字节,而32位的CPU一次就能处理4个字节,同理字长为64位的CPU一次可以处理8个字节。
2.CPU扩展指令集
CPU依靠指令来计算和控制系统,每款CPU在设计时就规定了一系列与其硬件电路相配合的指令系统。指令的强弱也是CPU的重要指标,指令集是提高微处理器效率的最有效工具之一。从现阶段的主流体系结构讲,指令集可分为复杂指令集和精简指令集两部分,而从具体运用看,如Intel的MMX(Multi Media Extended)、SSE、 SSE2(Streaming-Single instruction multiple data-Extensions 2)、SEE3和AMD的3DNow!等都是CPU的扩展指令集,分别增强了CPU的多媒体、图形图象和Internet等的处理能力。我们通常会把CPU的扩展指令集称为“CPU的指令集”。SSE3指令集也是目前规模最小的指令集,此前MMX包含有57条命令,SSE包含有50条命令,SSE2包含有144条命令,SSE3包含有13条命令。目前SSE3也是最先进的指令集,英特尔Prescott处理器已经支持SSE3指令集,AMD会在未来双核心处理器当中加入对SSE3指令集的支持,全美达的处理器也将支持这一指令集,
3.主频
主频也叫时钟频率,单位是MHz,用来表示CPU的运算速度。CPU的主频=外频×倍频系数。很多人认为主频就决定着CPU的运行速度,这不仅是个片面的,而且对于服务器来讲,这个认识也出现了偏差。至今,没有一条确定的公式能够实现主频和实际的运算速度两者之间的数值关系,即使是两大处理器厂家Intel和AMD,在这点上也存在着很大的争议,我们从Intel的产品的发展趋势,可以看出Intel很注重加强自身主频的发展。像其他的处理器厂家,有人曾经拿过一快1G的全美达来做比较,它的运行效率相当于2G的Intel处理器。
所以,CPU的主频与CPU实际的运算能力是没有直接关系的,主频表示在CPU内数字脉冲信号震荡的速度。在Intel的处理器产品中,我们也可以看到这样的例子:1 GHz Itanium芯片能够表现得差不多跟2.66 GHz Xeon/Opteron一样快,或是1.5 GHz Itanium 2大约跟4 GHz Xeon/Opteron一样快。CPU的运算速度还要看CPU的流水线的各方面的性能指标。
当然,主频和实际的运算速度是有关的,只能说主频仅仅是CPU性能表现的一个方面,而不代表CPU的整体性能。
4.外频
方法②:三方軟件檢測,用三方軟件,比如魯大師進行檢測查詢:在百度軟件中心等知名網站搜索下載,下載好後到主界面點擊“硬件檢測”,在“硬件檢測”界面中點擊“處理器信息”。即可查看當前電腦的處理器核心數量等信息。魯大師雖然常常被稱為娛樂大師,性能測試的成績不是非常準確,但在硬件的識別方面是沒有任何問題的。而且魯大師除了檢測CPU外,顯卡、內存、硬盤等等筆記本電腦的主要配件,都可以輕松查看。
方法③:根據筆記本的型號來判斷,目前主流的Intel筆記本處理器主要分為i3、i5以及i7系列處理器, 作為普通用戶沒有那麽專業的硬件知識,該如何簡單地辨別i3、i5以及i7的好壞優劣呢?簡單點說,i5是目前筆記本電腦最主流的處理器選擇,在大部分廠商的不成文認知中,i5是標配,i7則是屬於高端產品搭載的處理器,至於i3則可以理解為i5的簡化版。i7的定位是發燒級的處理器,多核心多線程以及高主頻,i5則是主流處理器,適應電腦使用的基本需求,至於i3則是簡化版的i5,一般為雙核心四線程,但優點是價格相對更低。
上面提到了核心數與線程數,那麽CPU核心數與線程數又有什麽用呢?多核心CPU=人多力量大,而提升CPU兩個辦法:提升單個CPU的性能+用多個CPU同時工作,如果CPU*1=廚子*1,那麽單核和雙核的區別就在於:線程則是一個處理數據的通道,可以配合核心數來進行數據處理的工作。一個廚師兩個爐是一核二線程
关于 CPU 的一些基本知识总结
CPU是计算机的大脑。
1、程序的运行过程,实际上是程序涉及到的、未涉及到的一大堆的指令的执行过程。
当程序要执行的部分被装载到内存后,CPU要从内存中取出指令,然后指令解码(以便知道类型和操作数,简单的理解为CPU要知道这是什么指令),然后执行该指令。再然后取下一个指令、解码、执行,以此类推直到程序退出。
2、这个取指、解码、执行三个过程构成一个CPU的基本周期。
3、每个CPU都有一套自己可以执行的专门的指令集(注意,这部分指令是CPU提供的,CPU-Z软件可查看)。
正是因为不同CPU架构的指令集不同,使得__86处理器不能执行ARM程序,ARM程序也不能执行__86程序。(Intel和AMD都使用__86指令集,手机绝大多数使用ARM指令集)。
注:指令集的软硬件层次之分:硬件指令集是硬件层次上由CPU自身提供的可执行的指令集合。软件指令集是指语言程序库所提供的指令,只要安装了该语言的程序库,指令就可以执行。
4、由于CPU访问内存以得到指令或数据的时间要比执行指令花费的时间长很多,因此在CPU内部提供了一些用来保存关键变量、临时数据等信息的通用寄存器。
所以,CPU需要提供 一些特定的指令,使得可以从内存中读取数据存入寄存器以及可以将寄存器数据存入内存。
此外还需要提供加法、减、not/and/or等基本运算指令,而乘除法运算都是推算出来的(支持的基本运算指令参见ALUFunctions),所以乘除法的速度要慢的多。这也是算法里在考虑时间复杂度时常常忽略加减法次数带来的影响,而考虑乘除法的次数的原因。
5、除了通用寄存器,还有一些特殊的寄存器。典型的如:
PC:program counter,表示程序计数器,它保存了将要取出的下一条指令的内存地址,指令取出后,就会更新该寄存器指向下一条指令。
堆栈指针:指向内存当前栈的顶端,包含了每个函数执行过程的栈帧,该栈帧中保存了该函数相关的输入参数、局部变量、以及一些没有保存在寄存器中的临时变量。
PSW:program statusword,表示程序状态字,这个寄存器内保存了一些控制位,比如CPU的优先级、CPU的工作模式(用户态还是内核态模式)等。
6、在CPU进行进程切换的时候,需要将寄存器中和当前进程有关的状态数据写入内存对应的位置(内核中该进程的栈空间)保存起来,当切换回该进程时,需要从内存中拷贝回寄存器中。即上下文切换时,需要保护现场和恢复现场。
7、为了改善性能,CPU已经不是单条取指-->解码-->执行的路线,而是分别为这3个过程分别提供独立的取值单元,解码单元以及执行单元。这样就形成了流水线模式。
例如,流水线的最后一个单元——执行单元正在执行第n条指令,而前一个单元可以对第n+1条指令进行解码,再前一个单元即取指单元可以去读取第n+2条指令。这是三阶段的流水线,还可能会有更长的流水线模式。
8、更优化的CPU架构是superscalar架构(超标量架构)。这种架构将取指、解码、执行单元分开,有大量的执行单元,然后每个取指+解码的部分都以并行的方式运行。比如有2个取指+解码的并行工作线路,每个工作线路都将解码后的指令放入一个缓存缓冲区等待执行单元去取出执行。
9、除了嵌入式系统,多数CPU都有两种工作模式:内核态和用户态。这两种工作模式是由PSW寄存器上的一个二进制位来控制的。
10、内核态的CPU,可以执行指令集中的所有指令,并使用硬件的所有功能。
11、用户态的CPU,只允许执行指令集中的部分指令。一般而言,IO相关和把内存保护相关的所有执行在用户态下都是被禁止的,此外其它一些特权指令也是被禁止的,比如用户态下不能将PSW的模式设置控制位设置成内核态。
12、用户态CPU想要执行特权操作,需要发起系统调用来请求内核帮忙完成对应的操作。其实是在发起系统调用后,CPU会执行trap指令陷入(trap)到内核。当特权操作完成后,需要执行一个指令让CPU返回到用户态。
13、除了系统调用会陷入内核,更多的是硬件会引起trap行为陷入内核,使得CPU控制权可以回到操作系统,以便操作系统去决定如何处理硬件异常。
关于CPU的基本组成1、CPU是用来运算的(加法运算+、乘法运算__、逻辑运算and not or等),例如c=a+b。
2、运算操作涉及到数据输入(input)、处理、数据输出(output),a和b是输入数据,加法运算是处理,c是输出数据。
3、CPU需要使用一个叫做存储器(也就是各种寄存器)的东西保存输入和输出数据。以下是几种常见的寄存器(前文也介绍了一些)
MAR: memory address register,保存将要被访问数据在内存中哪个地址处,保存的是地址值
MDR: memory data register,保存从内存读取进来的数据或将要写入内存的数据,保存的是数据值
AC: Accumulator,保存算术运算和逻辑运算的中间结果,保存的是数据值
PC: Program Counter,保存下一个将要被执行指令的地址,保存的是地址值
CIR: current instruction register,保存当前正在执行的指令
4、CPU还要将一些常用的基本运算工具(如加法器)放进CPU,这部分负责运算,称为算术逻辑单元(ALU, Arithmetic LogicUnit)。
5、CPU中还有一个控制器(CU, Control Unit),负责将存储器中的数据送到ALU中去做运算,并将运算后的结果存回到存储器中。
控制器还包含了一些控制信号。
5、控制器之所以知道数据放哪里、做什么运算(比如是做加法还是逻辑运算?)都是由指令告诉控制器的,每个指令对应一个基本操作,比如加法运算对应一个指令。
6、例如,将两个MDR寄存器(保存了来自内存的两个数据)中的值拷贝到ALU中,然后根据指定的操作指令执行加法运算,将运算结果拷贝会一个MDR寄存器中,最后写入到内存。
7、这就是冯诺依曼结构图,也就是现在计算机的结构图。
关于CPU的多核和多线程
1、CPU的物理个数由主板上的插槽数量决定,每个CPU可以有多核心,每核心可能会有多线程。
2、多核CPU的每核(每核都是一个小芯片),在OS看来都是一个独立的CPU。
3、对于超线程CPU来说,每核CPU可以有多个线程(数量是两个,比如1核双线程,2核4线程,4核8线程),每个线程都是一个虚拟的逻辑CPU(比如windows下是以逻辑处理器的名称称呼的),而每个线程在OS看来也是独立的CPU。
这是欺骗操作系统的行为,在物理上仍然只有1核,只不过在超线程CPU的角度上看,它认为它的超线程会加速程序的运行。
4、要发挥超线程优势,需要操作系统对超线程有专门的优化。
5、多线程的CPU在能力上,比非多线程的CPU核心要更强,但每个线程不足以与独立的CPU核心能力相比较。
6、每核上的多线程CPU都共享该核的CPU资源。
例如,假设每核CPU都只有一个“发动机”资源,那么线程1这个虚拟CPU使用了这个“发动机”后,线程2就没法使用,只能等待。
所以,超线程技术的主要目的是为了增加流水线(参见前文对流水线的解释)上更多个独立的指令,这样线程1和线程2在流水线上就尽量不会争抢该核CPU资源。所以,超线程技术利用了superscalar(超标量)架构的优点。
7、多线程意味着每核可以有多个线程的状态。比如某核的线程1空闲,线程2运行。
8、多线程没有提供真正意义上的并行处理,每核CPU在某一时刻仍然只能运行一个进程,因为线程1和线程2是共享某核CPU资源的。可以简单的认为每核CPU在独立执行进程的能力上,有一个资源是唯一的,线程1获取了该资源,线程2就没法获取。
但是,线程1和线程2在很多方面上是可以并行执行的。比如可以并行取指、并行解码、并行执行指令等。所以虽然单核在同一时间只能执行一个进程,但线程1和线程2可以互相帮助,加速进程的执行。
并且,如果线程1在某一时刻获取了该核执行进程的能力,假设此刻该进程发出了IO请求,于是线程1掌握的执行进程的能力,就可以被线程2获取,即切换到线程2。这是在执行线程间的切换,是非常轻量级的。(WIKI:if resources for one process are not available, then another process cancontinue if its resources are available)
9、多线程可能会出现一种现象:假如2核4线程CPU,有两个进程要被调度,那么只有两个线程会处于运行状态,如果这两个线程是在同一核上,则另一核完全空转,处于浪费状态。更期望的结果是每核上都有一个CPU分别调度这两个进程。
关于CPU上的高速缓存
1、最高速的缓存是CPU的寄存器,它们和CPU的材料相同,最靠近CPU或最接近CPU,访问它们没有时延(<1ns)。但容量很小,小于1kb。
32bit:32__32比特=128字节
64bit:64__64比特=512字节
2、寄存器之下,是CPU的高速缓存。分为L1缓存、L2缓存、L3缓存,每层速度按数量级递减、容量也越来越大。
3、每核心都有一个自己的L1缓存。L1缓存分两种:L1指令缓存(L1-icache)和L1数据缓存(L1-dcache)。L1指令缓存用来存放已解码指令,L1数据缓存用来放访问非常频繁的数据。
4、L2缓存用来存放近期使用过的内存数据。更严格地说,存放的是很可能将来会被CPU使用的数据。
5、多数多核CPU的各核都各自拥有一个L2缓存,但也有多核共享L2缓存的设计。无论如何,L1是各核私有的(但对某核内的多线程是共享的)。
操作系统之CPU知识扫盲
关于冯·诺依曼结构
冯·诺依曼结构(Von Neumannarchitecture)是一种将程序指令存储器和数据存储器合并在一起的计算机设计概念结构。冯·诺依曼结构隐约指导了将存储设备与中央处理器分开?的概念,因此依本结构设计出的计算机又称存储程序计算机,这也是目前大多数计算机设计的主要参考原则。
最早的计算机器仅内含固定用途的程序。现代的某些计算机依然维持这样的设计方式,通常是为了简化或教育目的。例如一个计算器仅有固定的数学计算程序,它不能拿来当作文字处理软件,更不能拿来玩游戏。若想要改变此机器的程序,你必须更改线路、更改结构甚至重新设计此机器。当然最早的计算机并没有设计的那么可编程。当时所谓的“重写程序”很可能指的是纸笔设计程序步骤,接着制订工程细节,再施工将机器的电路配线或结构改变。
而存储程序型计算机的概念改变了这一切。借由创造一组指令集结构,并将所谓的运算转化成一串程序指令的运行细节,可让程序运行时自我修改程序的运算内容,让此机器更有弹性。借着将指令当成一种特别类型的静态数据,一台存储程序型计算机可轻易改变其程序,并在程控下改变其运算内容。冯·诺伊曼结构与存储程序型计算机是互相通用的名词。而哈佛结构则是一种将程序数据与普通数据分开存储的设计概念,但是它并未完全突破冯.诺伊曼架构。
CPU执行原理
CPU的主要运作原理,不论其外观,都是执行储存于被称为程序里的一系列指令。在此讨论的是遵循普遍的冯·诺伊曼结构(von Neumannarchitecture)设计的装置。程序以一系列数字储存在计算机存储器中。差不多所有的冯·诺伊曼CPU的运作原理可分为四个阶段:提取、解码、执行和写回。
(1)提取
从程序内存中检索指令(为数值或一系列数值)。由程序计数器指定程序存储器的位置,程序计数器保存供识别目前程序位置的数值。换言之,程序计数器记录了CPU在目前程序里的踪迹。提取指令之后,PC根据指令式长度增加存储器单元[iwordlength]。指令的提取常常必须从相对较慢的存储器查找,导致CPU等候指令的送入。这个问题主要被论及在现代处理器的缓存和管线化架构。
(2)解码
CPU根据从存储器提取到的指令来决定其执行行为。在解码阶段,指令被拆解为有意义的片断。根据CPU的指令集架构(ISA)定义将数值解译为指令[isa]。一部分的指令数值为运算码,其指示要进行哪些运算。其它的数值通常供给指令必要的信息
(3)执行
在提取和解码阶段之后,接着进入执行阶段。该阶段中,连接到各种能够进行所需运算的CPU部件。例如,要求一个加法运算,算术逻辑单元将会连接到一组输入和一组输出。输入提供了要相加的数值,而且在输出将含有总和结果。ALU内含电路系统,以于输出端完成简单的普通运算和逻辑运算(比如加法和比特运算)。如果加法运算产生一个对该CPU处理而言过大的结果,在标志寄存器里,溢出标志可能会被设置
(4)写回
最终阶段,写回,以一定格式将执行阶段的结果简单的写回。运算结果经常被写进CPU内部的寄存器,以供随后指令快速访问。在其它案例中,运算结果可能写进速度较慢,如容量较大且较便宜的主存
注意,这上面的4个阶段与我们编写程序是非常相关的,但编程语言里面可能会简化,并把2和3阶段合并,分为:加载,处理,写回。在多线程编程里面,了解这几个概念至关重要,由此可以延伸,数据从哪里加载,在哪里执行,最后结果又写回了哪里。指令数据一般从内存里面加载,但是内存的访问时间,相比cpu慢了n多倍,所以为了加速处理,cpu一般把指令给加载到离cpu更近的寄存器里面,或者是L1,L2,L3的cache来提速,最终计算出来的结果,还要写回内存。正是因为cpu执行指令复杂,所以这里面其实牵扯到很多问题,比如多个线程如何协作处理任务,以及如何保证程序数据的原子性,有序性,可见性。而这正是Java的内存模型出现的意义。在其他不同的编程语言里面其实都有在操作系统之上抽象的内存模型来应对不同的cpu架构的的差异,这一点需要注意。
多个单核CPU vs 单个多核CPU
多个单核CPU:
成本更高,因为每个CPU都需要一定的线路电路支持,这样对主板上布局布线极为不便。并且当运行多线程任务时,多线程间通信协同合作也是一个问题。依赖总线的传输,速度较慢,且每一个线程因为运行在不同的CPU上。导致不同线程间各开一个Cache,会造成资源的浪费,同时如果线程间协作就会有冗余数据的产生,更加大了内存的开销。
单个多核CPU:
可以很好地规避基本上多个单核CPU提到的所有缺点。他不需要考虑硬件上的开销以及复杂性问题,同时也可以很好地解决多线程间协同工作的问题,减少内存的开销,因为多线程程序在多核CPU中运行是共用一块内存区的,数据的传输速度比总线来的要快同时不会有冗余数据的产生。单个多核CPU的问题也是显而易见的,假设俩大程序,每一个程序都好多线程还几乎用满cache,它们分时使用CPU,那在程序间切换的时候,光指令和数据的替换就是个问题。
单个多核cpu已经成为个人计算机的主流配置,多个多核的cpu在一些大型的服务器里面也很常见。
超线程
“超线程”(HyperthreadingTechnology)技术就是通过采用特殊的硬件指令,可以把两个逻辑内核模拟成两个物理超线程芯片,在单处理器中实现线程级的并行计算,同时在相应的软硬件的支持下大幅度的提高运行效能,从而使单处理器上模拟双处理器的效能。其实,从实质上说,超线程是一种可以将CPU内部暂时闲置处理资源充分“调动”起来的技术。
每个单位时间内,CPU只能处理一个线程,以这样的单位进行,如果想要在单位时间内处理超过一个的线程,是不可能的,除非是有两个核心处理单元,英特尔的HT技术便是以单个核心处理单元,去整合两个逻辑处理单元,也就是一个实体核心,两个逻辑核心,在单位时间内处理两个线程,模拟双核心运作。
简单的说,超线程就是在单个core中,模拟出两个逻辑处理单元,以此能够提高程序执行的并发能力,提高系统cpu资源的利用率。
至此,关于CPU的个数,核数,逻辑CPU的个数计算关系如下:
(1)总核数 = 物理CPU个数 __ 每颗物理CPU的核数
(2)总逻辑CPU数 = 物理CPU个数 __ 每颗物理CPU的核数 __ 超线程数
一些概念解释如下:
举例,在一个Mac Pro的机器上,可以通过关于本机,系统报告选项中,看到当前系统的基本配置情况,如下:
比如上面的信息中,显示了当前的系统物理上只拥有一个cpu,但是这个cpu有4个核。然后,我们查询其逻辑cpu的个数,会发现显示是8个:(在Mac上打开活动监视器,然后双击最下面的中间的cpu负载的地方,就可以看到)
这就是因为每个核又有2个超线程,所以8个逻辑cpu个数=1物理cpu个数 __ 4核 __2个超线程,最终也就是说如果我要编写一个多线程计算密集型的程序任务,起的线程数可以以逻辑cpu的个数作为参照。当然如果是io密集型的任务,可以开的更多一点。
CPU性能参数
计算机的性能在很大程度上由CPU的性能决定,而CPU的性能主要体现在其运行程序的速度上。影响运行速度的性能指标包括CPU的工作频率、Cache容量、指令系统和逻辑结构等参数。
大多数情况下,我们主要关注的是CPU的主频,也称时钟频率,是指同步电路中时钟的基础频率,它以“每秒时钟周期”(clock cycles persecond)来度量,单位是兆赫(MHz)或千兆赫(GHz)用来表示CPU的运算、处理数据的速度。通常,主频越高,CPU处理数据的速度就越快。
在上面的mac的参数里面,我们能够看到在Intel Core i7处理器下,主频是2.2 GHz,当前主频高的处理器也在4GHz之内,其主要原因主要在于散热,提高主频超过一定范围后热密度急速提高,很不经济,也造成散热困难。
总结
本文主要介绍了计算机操作系统中CPU有关的知识,计算机的核心就在于CPU,了解CPU相关的知识,可以让我们更清楚我们的程序底层执行的过程,从而写出更健壮的代码及调优相关的程序。
CPU科普知识
CPU历来都是一个高大上的话题,普通吃瓜群众除了CPU越贵越好之外,可能就一无所知了。曾经小编对于CPU也是一头雾水,后来请教了很多大神,又查阅了很多资料,才粗略地搞明白了一点。在此,小编就按照自己的理解,尽量用最通俗的语言去撕开CPU神秘的面纱,让更多人能够明白CPU。
CPU的中文翻译叫中央处理器,好吧,这其实只是一句废话,不过为了这个牛逼的翻译,我们也给它一个牛逼的比喻,那我们就把CPU比喻成一个国家的中央机构,接下来我们一一对应打比喻讲解。
影响CPU性能的主要因素可以分为两大块:主频和架构。这里看不懂不要紧,接下来听小编为你一一解释就懂了。
主频我们可以理解为中央部门的工作能力,架构可以理解为国家的管理制度,主要用于协调中央机构各部门之间的工作。所以整个中央机构的工作效率(CPU性能)主要就是受到这两个方面的影响。工作能力越高各部门之间协调越好,整体工作效率自然就越高。反之,任何一方面不够好,都会对整体工作效率造成明显的影响。
我们知道市面上最大的PC处理器主要由两大品牌Intel和AMD垄断,而大部分时间里,Intel都是压着AMD打的,原因就是因为AMD的架构不行,虽然主频对比Intel不落下风甚至稍微领先,但是整体性能却被Intel彻底压制了。这就是因为AMD的中央机构各部门协调能力比Intel差多了,所以即使工作能力差不多,但协调不好,所以整体工作性能就比不过了。
说完了性能接下来我们就来说说CPU的结构和工作原理。
CPU的结构主要由运算器、控制器、寄存器三大块组成。
①运算器就是中央机构里负责执行任务的部门,也就是专门干活的;而控制器就是中央机构的领导小组,针对不同需要,给运算器下达不同的命令;寄存器可以理解为控制器和运算器之间的联络小组,主要工作就是协调控制器和运算器。
运算器这个干活的部门,平日里整个中央机构要干点啥事就找这个部门。例如东边洪灾了,你去赈灾吧;西边发现金矿了,你去主导挖矿吧;北边下大雪了,你去送温暖吧;南边下暴雨了,你去疏导洪流吧……
②而控制器这个部门比较牛逼,他们是不用干活的,主要就是对国家(整部计算机)发生的各种情况,做出应对,然后让运算器去把活干好。在这里,我们会发现一个大问题:如果这个部门闲的蛋疼,乱下命令怎么办?这也好办,我们就制定出一套行为规范来限制他们,不让他们乱搞。而这套行为规范就是CPU的指令集。
指令集就是CPU的行为规范,所有的命令都必须严格按照这部行为规范来执行。在这里说明一下不同类型的CPU指令集也不一样,其中最常见的就是__86架构下的复杂指令集和ARM架构下的简单指令集。__86就是我们平常电脑CPU的架构,ARM就是手机CPU的架构。
由于电脑CPU这个中央机构所在的国家(电脑)面积大、人口多、国情复杂,啥事都会发生,所以规章制度就需要特别完善,考虑到方方面面的情况要怎么应对。而手机CPU这个中央机构国家小、人口少、面积窄,所以规章制度简单一点就可以了。这就是复杂指令集和简单指令集的区别。
③寄存器这个部门稍微复杂一点,因为它虽然没有运算器和控制器那么重要,但是它P事多,控制器平时总喜欢让寄存器去给运算器传达个命令。而运算器有时候也会担心数据太多一时处理不过来,就让寄存器帮它先记着,有时候工作需要纸笔、螺丝刀之类的小工具,也让寄存器帮它拿着。
了解完寄存器的功能后,又发现了一个问题,如果控制部门下达的命令太多,而运算部门又没那么快可以做完,又或者运算器让它记住的东西或者临时拿着的东西太多,寄存器部门太小,人太少,忙不过来怎么办?好办,扩招人员吧,可是这个部门的人员都是编制内的,没有在编名额了怎么办?也好办,那就招些编外人员吧,也就是我们常说的临时工。
招了临时工,总要给他个名号吧,那就再成立一个部门,叫高速缓存。为了体现亲疏有别,这个部门把临时工分为三个等级,分别是一级高速缓存、二级高速缓存、三级高速缓存。反正也是临时工,名号就这么随便叫吧。
在CPU这个中央机构可跟新闻上说的事给临时工做、锅给临时工背不同,在这里高速缓存这个临时工部门是作为寄存器替补而存在的,也是说,必须在寄存器完成不了工作量时,才能交给高速缓存来做。一开始交给一级高速缓存来做,一级也做不完再给二级,二级还做不完就给三级。这里又有一个问题出现了,那就是如果三级也做不完怎么办?
这完全没问题,交给中央机构的一个下属部门去办,这个部门就是内存。但是因为内存毕竟不属于中央机构,工作能力没有中央机构人员那么强,效率也没有那么高。
所以控制部门要下达命令或者运算部门要做事时,首先想到的就是寄存器,寄存器忙不过来了就找高速缓存帮忙,高速缓存也忙不过来就找内存帮忙。那么,内存也传达不过来呢?内存传达不过来那就没办法了,只能让电脑卡着吧,等运算部门先把上一件事处理好再说。所以,买电脑,不能光看CPU牛不牛,内存容量也要跟上。
还有一个容易被大家忽略的问题,在这里也说一下吧,那就是晶体管。晶体管是构成CPU最基础的原件,可以理解为整个中央机构的工作人员。随着科技的进步,CPU生产工艺越来越精细,目前手机端CPU(ARM架构)制程已经提升到7nm,电脑端也达到了14nm。
制程的提升,我们可以理解为,缩减每个办公人员的办公面积,以前科技不发达每个办公人员必须配一个独立办公室,才能有效完成工作,现在技术进步了,每个办公人员只需要一张办公桌就能完成工作了。所以同样的一栋大楼,可以容纳的办公人员(晶体管)就多了,工作能力就上升了。
以前一个CPU由于制程落后,只能容纳几千万或者几亿个晶体管,现在制程进步了,一个同样体积的CPU可以容纳几十亿个晶体管,性能自然就提升了。
那么,为什么晶体管数量增加了,CPU的能耗却没有增加呢?我们可以这么理解,每个工作人员都需要吃饱了才有力气干活,以前的工作人员需要吃九菜一汤才够力气,现在改为营养配餐了,每个工作人员只需要吃一片营养药丸就可以工作了,所以工作人员虽然增加了,但是整体伙食成本(耗电量)并没有增加。
最后,我们说一下CPU的核心和进程又是什么呢?我们可以这么理解,在单核时代,每个CPU只有一个核心,也就是只有一个中央机构,但是国家那么大,事那么多,中央机构每天加班25个小时都忙不完了。那就没办法了,扩充中央机构吧。于是乎双核、四核、多核CPU就出来了。每一个核心都是一个独立的中央机构,都具有相同的工作能力。
这么多个中央机构成立了,那听谁的,有事情交给哪个中央机构去做,要知道它们的权利和功能都是一样的啊。这时候就要改变CPU架构了,也就是国家的管理制度了。以前国家只有一个中央机构,啥事都交给它去做准没错,现在突然变成好几个中央机构了,怎么办?
这个时候就需要为每个核心安排去负责不同的事务了,这套中央机构专门负责农业,那套负责工业,剩下的负责税收、财政等等之类的。
那什么是进程呢,进程其实可以理解为一个中央机构里面的人员组成。有时候事太多了,光这几个中央机构处理起来还是有点吃力,但是为了节约成本,我们不能再组建新的中央机构了,那就只好折中处理,不另外成立新的中央机构了,就在原有的基础上,每个中央机构组建两套完全一致的工作班子吧。
所以,4核CPU就是拥有四个独立的中央机构,都具备相同的工作能力和权限,但是每个核心都会负责不同的事务。4核8线程就是四个独立的中央机构,每一个中央机构都拥有两套完整的工作班子,每套工作班子权限也一样。
这时候问题又出现了,例如某个中央机构负责的事特别多,忙不过来,而其他的中央机构负责的事很少,闲的发慌,那怎么办?这时候,我们的架构又出现了,好办!今天你这个核心负责的事多,就你来主导,让其他事少的核心辅助你工作。明天另外一个核心负责的事多,就由它来主导,其他核心辅助它工作。
在这里小编想起来一个网上很火的段子:MTK的CPU一核有难九核围观。这就是架构落后造成的,它的管理制度不完善,没办法调节每个中央机构之间的互相配合,有事情要做,往死里用一个核心,其他九个核心啥事没有,只好吃瓜围观了。
自1999年NVIDIA提出GPU的概念以来, GPU的高浮点运算能力引发了不少的话题, 比如GPU将取代CPU。基于GPU的特殊性, 研究人员正在从事相关方面的研究, 以期充分地利用GPU高运算速度。
随着计算机图形处理硬件的又一次升级, 即计算机图形处理器的升级。图形处理器的应用已成为热门的课题。
2. GPU的功能
GPU (Graphic Processing Unit) 即图形处理器。1999年NVIDIA公司发布Ge Force 256图形处理芯片时, 首先提出GPU的概念。一块标准的GPU主要包括2D单元、3D单元、视频处理单元、FSAA (Full Scene Anti—aliasing, 全景抗锯齿) 单元和显存管理单元等。它设计的宗旨是实现图形加速, 现在最主要的是实现3D图形加速, 因此它的设计基本上是为3D图形加速的相关运算来优化的, 如消隐、纹理映射、图形的坐标位置变换与光照计算等等。这几年GPU发展迅猛, 2007年NVIDIA甚至提出“重GPU核心, 轻CPU频率”的论调。这是否意味着GPU时代的到来?
3. GPU与CPU的比较
GPU以其高速的浮点运算能力迅速地吸引了人们的眼球。其计算能力到底有多大?CPU的浮点运算能力一般在10 Gflops以下 (每秒可进行10亿次浮点运算) , 而Ge Force6系列的浮点运算能力已经在40 Gflops左右, Ge Force7950GX2更是达到了384Gflops;在向量计算方面能够获得比CPU高出十倍的计算效率。这得益于它是对图形处理量身定制。GPU并行计算的能力更是强大, 它内部具有快速存储系统, NVIDIA的8800有128个处理器, 此外, GPU的硬件设计能够管理数千个并行线程, 这数千个线程全部由GPU创建和管理而不需要开发人员进行任何编程与管理。然而, 现在GPU还是协助CPU进行图形处理, 着实浪费不少其运算能力。
值得注意的是, 如此强大的计算能力具有针对性———图形计算, 如Z-buffering、纹理映射与光照计算等。这类计算都是针对大量的平行数据, 运算的数据量大, 但是运算的类型却并不复杂, 还具有类似性, 计算性强但是逻辑性不强, 如矩阵运算就是图形运算的典型特征。而CPU是设计用来处理通用任务的处理、加工、运算以及系统核心控制等工作, CPU的微架构是为高效率处理数据相关性不大的计算类、复杂繁琐的非计算类等工作而优化的。所以现在CPU和GPU还在自己的轨道上各司其职。
GPU特殊的硬件架构突出了对CPU的优势:拥有高带宽的独立显存;浮点运算性能高;几何处理能力强;适合处理并行计算任务;适合进行重复计算;适合图像或视频处理任务;能够大幅度降低系统成本。
4. GPU的现状
GPU引发了计算机可视化的革命。处理器巨头Intel感受到GPU带来的强大的冲击力, Intel专门开发了一套面向可编程的显示计算通用架构芯片的全新架构———Larrabee架构。它能带来的效果可从英特尔公司高级副总裁兼数字企业事业部总经理———帕特·基辛格在IDF峰会上的讲话得出答案。
“可编程的显示计算通用架构芯片是一场革命, 它将颠覆持续了几十年的显卡产业, 可编程的显示计算通用架构芯片虽然不会马上替代显卡, 但是在三四年之后, 随着我们相关技术、产品的成熟上市, 显卡产业将消亡。”
按照英特尔的观点, 随着可编程的显示计算通用架构芯片的成熟, 它将逐步取代GPU的地位, 显卡则会慢慢被集成取代, 作为独立硬件生存的空间会越来越小。
GPU如果只是作为显卡就太浪费了, 因此NVIDIA推出CU-DA (Compute Unified Device Architecture统一计算设备架构) , 让显卡可以用于图像计算以外的目的。并对GPU的功能进行了重新的定义, CUDA是一个革命性的计算架构和计算思路, 能够让GPU在消费、商务、技术等应用方面大展拳脚, 解决复杂的计算问题。CUDA能够更有效地使用性能日益提升的GPU性能, 有效地利用GPU的高速运算能力, 配合CPU进行高性能通用计算。
GPU和高并行处理器都在同时间赛跑, 快速的向前发展以抢占未来的市场, 未来处理器的速度会在这次竞争中发展到什么地步值得我们期待。
5. GPU的应用
GPU应用的研究围绕着高浮点运算能力, 可编程性和平行运算进行。到目前为止, GPU和CUDA的配合, 主要应用于商业高端运算或者超级运算。如tesla高性能计算, GPU加速Matlab高性能计算, 医疗图像的生成等。
由于GPU的汇编指令比较复杂, 而且对于各种版本的硬件的支持存在不统一的问题, 一些高级语言 (例如GLSL、HLSL) 已经被一些大厂商开发出来, 加快了对GPU编程的应用研究。从系统架构上看, GPU是针对向量计算进行了优化的高度并行的数据流处理器, 其中包括两种流处理单元:多指令多数据流 (MIMD) 的处理单元———顶点处理流水线 (Vertex Shader) , 单指令多数据流 (SIMD) 的处理单元———像素处理流水线。这种以数据流作为处理单元的处理器, 在对数据流的处理上可以获取较高的效率, 因此很多研究人员从事一个新的研究领域:基于GPU的通用计算 (GPGPU:General-Purpose Computation on Graphics Processors) , 其主要研究内容除了图形处理以外, 考虑更为广泛的应用计算。GPU最初的设计思想给这个新的领域带来了问题。GPU是专门为图形处理设计的处理器, 它具有自己的存储单元, 在数据存取方式上存在一定的特殊性, 而且通常对GPU进行开发的是一些游戏厂商, 使用非标准的编程模式, 编程环境和体系结构方面绝大部分被当做商业机密, 没有对研究人员公开, 可参考的资料就有限, 研究人员在研究并行算法的同时还必须研究如何使GPU在进行通用计算时取得最高的性能。针对上面的问题, 研究人员已经提出了GPU通用编程模型和方法, 无疑推动了GPU在非图形学领域的应用。
最近几年, 在GPGPU方面取得了不少的成果, 比如代数计算及流体模拟、数据库操作、频谱变换和滤波等。软件编程方面也有成果, 高级绘制语言及实时绘制语言 (绘制程序设计的思想源自于早年Pixar设计的Render Man绘制软件, 此软件多年来广泛应用于好莱坞电影制作的绘制) , Open GL shading language、斯坦福大学的RTSL (real-time shading language) 、Microsoft的HLSL (high-level shadinglanguage) 以及NVIDIA的Cg在此方面具有较大的影响;流处理机编程环境及工具已开发出来扩大GPU的编程。更多通用计算的应用可从http://www.gpgpu.org获取。
6. 小结
目前, CUDA和GPU的配合还不是很默契, 真正面向民用市场还需一些时日, 图形处理的市场越来越大, 给GPU的发展提供了强大的驱动力。GPU应用于通用计算领域已经取得了一定的进展, GPU的身影会逐渐地出现在民用市场。
GPU和CPU的最终结果会怎样?众多因素的影响现在还不得而知。GPU会不会像386时代一样, 最初作为独立芯片的数学协处理器387, 最终融合到CPU中而消亡或者NVIDIA真的开发出像CPU那样能处理各种通用运算的GPU, GPU时代到来。无数的遐想出现在我们的头脑, 还是让市场来决定这个容易引起争议的问题。
参考文献
[1]吴恩华, 柳有权.基于图形处理器 (GPU) 的通用计算[J].计算机辅助设计与图形学报, 2004, 16 (5) .
[2]张浩, 李利军, 林岚.GPU的通用计算应用研究[J].计算机与数字工程, 2005.
[3]周治国.GPU CPU谁革谁的命[J].上海信息化, 2008, (6) .
【cpu介绍】推荐阅读:
场馆介绍介绍10-05
介绍单位的介绍信05-30
英语介绍信介绍自己09-16
人事关系介绍信、干部介绍信、工资介绍信02-14
介绍信:实习介绍信11-20
介绍我自己三年级自我介绍02-17
面试经典自我介绍全攻略介绍07-08
小学生三年级介绍爱好自我介绍07-15
学校介绍的英语作文,学校介绍的英语作文07-17
播音主持自我介绍的内容 自我介绍供参考10-30