新闻中心

EEPW首页 > 嵌入式系统 > 设计应用 > DSP技术的最新动向

DSP技术的最新动向

作者:潘晓宇时间:2004-08-31来源:电子产品世界收藏

2004年5月A版

DSP力求最佳表现

  DSP程序员孜孜以求的是程序功能发挥到极致、尽善尽美。然而谈何容易?在很多情况下,DSP程序员就象是导演,而DSP则是影星——由DSP登台表演,它需要程序员即导演技艺超群,并与演员同心协力。

  DSP程序员“权力欲望”极盛(当然只是个比喻),予取予求,无尽无休,但是,也象好莱坞大牌导演和明星们一样,表现仍然难以尽如人意。

  DSP架构相对复杂,以致DSP很难给出最佳表现。要随时随地都做得最好,就需要付出很多时间和努力,因为相关代码的兼容性最为重要。

正在前进

  要提升DSP功能,决不象听起来那样简单,特别是当代码兼容性为第一优先时。它基本上排除了任何的架构改变,除非这些改变在软件结构上畅通无阻。

  历史上,提高性能最容易的捷径是缩减电路体积。TI就是这样研制了TMS320C6416,它是该公司以90nm工艺制造的第一款DSP。它以1GHz速度运行,是TI的90nm路线图的重要组成部分,该路线图在2003年1月从无线数字基带器件开始启动,一直延续到2005年引入内嵌 FRAM(铁电 RAM)的计划。

  按照TI欧洲DSP产品组意见,在最新技术开发中,拥有自己的晶圆厂,正在成为越来越重要的先决条件。大多数集成器件制造商(IDM)整合资源以满足90nm工艺的昂贵成本需求时,用意也是如此。不过,TI是独立经营的少数ASIC供应商之一,而其它就连IBM和LSI Logic等公司也只是结盟合作来分担经费。

  TI正努力成为保持芯片领先地位的主要半导体公司,为此而不惜血本。事实上,TI 投产90nm工艺已经一年,至今仍在认证,由此可见一斑。

  当前的工艺每月加工8400个晶圆,有1700个用于研发,其中包括C6416 DSP 样品。但该设备计划在年底前达到预定产量。

再接再厉

  最初的那些90nm DSP是用它们上一代的130nm“直接”缩减而来的,“直接”的意思是,不做涉及核心的结构性改变,或者说,仅仅整合外围,而没有涉及到晶体管的结构性改变。

  按照TI的说法,所有事情都发生在130nm临界点上。业界普遍认为,从150到 130nm的进步,比从130到90nm的进步更富于挑战性。缩减体积的工艺相对简单,它避开了很多不利因素,使TI得以致力于工艺优化。

  90nm工艺意味着,无法在这个层级上“直接”缩减。如前所述,这个缩减需要改变微观架构,实际上在前一个130nm工艺临界点上制作720MHz器件时也是如此。

  集中在提升效能上的那些修改,有可能避免频率较高时流水线的匮乏。

  特别是TI给8个宽VLIW指令添加了替代字SIMD(单指令/多数据)扩展,以便更能压缩代码,并且更有效地利用流水线功能单元。

  大体上,这意味着TI力求改善VLIW架构的固有问题—从内存中取出超长的字,而由于功能单元的适用性,其中只有一部分字才用得上。

  只改善VLIW架构还不能提高DSP在理论上的速度——假定所有VLIW都被用于每个取出行程,因而被时钟速度确定——但它确实提高了实际速度——在每个VLIW行程中可用指令的实际数量。

  其他特别要在1GHz运行时处理的问题有,减少信号在芯片长度上通过的时间延迟,和优化主要速度路径与内存流水线。

看看价钱

  这种方式将最终确保更快地提高90nm系列的产量,而与1GHz DSP的关联可能不是那样明显。例如,在这个器件上若不增加第一级或第二级高速缓存,片上内存能支持 1GHz的功能吗?

  代码兼容性问题不应当成为问题,但速度兼容性呢?

  TI说,为720MHz部分写的运行的程序,可移植到1GHz器件而无需修改。但这仅仅是说不需要做功能性修改,考虑到更快的核心运行速度所产生的效应,它是否完全不需要修改还尚待观察。

  不增加片上内存,内核似乎需要更频繁地访问内存。TI主张,保持外存接口可以在比1GHz更高的速度上操作,将不会造成瓶颈。但是可能会挂断接口。

  TI声称,将来的器件可能会包括,通常在其他高速处理器上才能找到的双重或四联组数据比率的SRAM接口。

  未来发布的 TI编程工具将能模拟1GHz运作,有助于清除某些不实的臆测。

  工艺缩减降低了硅材料的需求量,导致整体成本的下降,这已经是不争的事实,C6416也确实如此。

  1GHz/90nm器件带来了价格优势,它们竟比720MHz/130nm器件还便宜。那些90nm 器件不是按速度(比 720MHz 快)定价——过去速度越快的产品越贵而不会越廉——售价大约只有720MHz/130nm部件的一半,显示了真正的“直接”节省。

DSP性价比倍增

  DSP市场在很大程度上由于手机需求而在2003年强烈反弹。2003年销售收入劲增27%,高达62亿美元,2004年增长率看来也不相上下。而数量增长率甚至还要更高——2003和2004年分别为55%和33%。并且,芯片厂商正在提供性价比更高的DSP产品。

  大多数DSP产品非常廉价,一般说来单价还不到6美元。也有性能很高的,如 TI的C6000系列或ADI的TigerSharc芯片,运行速度高达10~100倍以上。这些高端产品在整个DSP市场只是一个很小的塔尖,大约才占1%。但是,它们是并行程度逐渐增加的高性能架构。高端DSP针对语音和话音识别、视频和图像处理,也用于手机基站、高端彩色打印机、医学成像和很多其他用途。虽然技术开发时定位于高端应用,但也开始向大众市场挺进。

  2004年,无线通信特别是手机将继续是DSP市场推动力。手机市场份额高达DSP销售的68%。从一开始,TI就雄踞DSP市场首位,看来它在今年仍将继续领先,为潮流定调,但肯定还会有其他厂商紧追不舍。

  手机和新功能的需求,为DSP厂商营造了更富于挑战性的环境。2004年将会看到手机功能向3G技术、智能电话和PDA过渡。通过这些改进过的新性能,手机厂商正翘首以待大额订单,服务提供商也在坐等钵满盘满。

  为提供这些功能,手机用的大多数DSP内核还需要与ARM CPU内核协同工作,这在数字基带芯片组及其配套产品、应用媒体处理器中可以见到。现在,数字基带使用 ARM7内核和DSP内核处理通信。应用媒体处理器为图像处理和视频等高级性能提供计算能力。该处理器通常以ARM9内核和DSP内核或一些DSP功能为特色。

  TI以其OMAP方案极其有力地推动了市场,OMAP方案是该公司路线图的点睛之笔。 OMAP整合了基带处理器(TI 的 C55x 内核)和应用处理器(ARM925 内核),连同很多的外围。OMAP与TI的基带芯片组结合在一起。

  在基带市场挑战TI的是Qualcomm。在基带和媒体处理领域,其他劲旅还包括:STM、Freescale(前Motorola半导体部)、Philips(Nexperia)和Intel。手持式产品市场也并非 ARM 独霸天下。Renesas 已经取得了 SH-RISC 的成功,还有几个具备 DSP 功能的 SH 版本。另有两个较小的厂商各自致力于其媒体处理器在成像和视频功能方面的改进,这两个厂商是NeoMagic和在2003年并购了MediaQ的 nVidia公司。

  软件可配置的高并行DSP阵列处理器,代表了在市场崛起的另一股新生力量。十余家小厂商正在展示各种新架构,这些架构能提供以前超级计算机才具备的强大功能。这些厂商包括Cradle Technologies、QuickSilver、Morphos、PACT等。

  区别一个单机 DSP 将会逐渐变得困难,因为集成整个系统于一块芯片已是大势所趋。它将仰赖芯片厂商如何选择产品的类别归属。不过,无论名称或工具如何,DSP在无线通信领域的重要性都与日俱增。

DSP更加多才多艺

  DSP 技术在不断提高,效益卓著,这在很大程度上归功于半导体工艺的长足进步,把更多的存储器和各种计算资源集成在一块芯片上,使处理器在每个时钟周期内胜任更多的工作。

  虽然很多16位DSP内核芯片仍在沿用Harvard风格的基本架构,但绝大多数更高性能的解决方案采用更多并行的体系结构——超长指令字(VLIW)方式或单指令/多数据(SIMD)方案。在极高端,一些公司已开始使用多指令/多数据(MIMD)架构,实现最高程度的并行计算,从而使功能最大化。

  随着并行计算愈演愈烈,编程并控制所有资源的挑战已经拉开了序幕。因此, 软件工具和算法应用程序库将会扮演主角,促使系统能尽快投放市场。这些工具和程序库的应用是否得当,常常会成为某一DSP架构运行的成败利钝。

  今天,普通MP3音乐播放器需要大约30 MIPS(每秒百万条指令)的吞吐量,而更高级的音频应用程序,如,新的Windows Media Audio专业版软件运行,要求将近100 MIPS。数码相机的图像处理需要也随着功能的增加而增加,把对DSP的需求提升到几百MIPS。但是,在提高DSP集成度的同时还要努力降低其成本。

  最新一代的DSP芯片设计, 包括ADI的Blackfin系列和TI的TMS320C6412和320 F2801系列,售价每片仅为5美元,却提供几百MIPS的吞吐量。那些芯片和 Freescale StarCore芯片,是很多消费者、信息远程传送和工业应用的新宠。它们将为消费类音视频市场提供100~300 MIPS的主流功能。

  采用SIMD和MIMD方法的十余家公司的DSP并行架构现已可用。某些架构已被固定为计算单元的阵列。

1GHz DSP 芯片样品

  由TI在2004年第二季度发布。基于90nm工艺设计的处理器将代替TI前一批性能最高的720 MHz处理器。

新 DSP 内核的原型

  由CEVA Inc.发布,它组合了VLIW和SIMD架构方法。其内核的16位版本提供的功能,是该公司前一个高端处理器内核Teak DSP的12倍。

低成本的浮点 DSP

  定位于信息远程传送、音频处理和流媒体应用,将由ADI出品。该Sharc DSP芯片将会在300MHz内核频率操作,而且提供50亿次操作/秒的吞吐量。

高度并行的第一批样品

  高度并行和配置计算架构的第一批样品,将由Freescale开发,定于今年上半年发布。其阵列以Morpho Technology开发的核心计算单元为基础,并经Freescale授权特许。

软件库和开发工具

  将随着 DSP 芯片日趋复杂,扮演越来越重要的角色。由于高度并行的新架构的复杂性,设计人员需要更多的软件支持,以节省编程时间,并尽快使系统投放市场。

DSP 内核的功耗

  将继续下降,因为设计人员在给它添加功能的同时,也在力求延长系统电池的使用寿命。例如,下一代手机正在添加拍照、多媒体播放和其他功能,这些功能都要求 DSP 有更强的处理能力和速度,而电池的尺寸和重量将不会增加甚至反而减少。因此,低功耗十分必要。

DSP 核心技术正在普及中提高

  SoC已是设计的大势所趋。工程师们把DSP内核同标准的 RISC处理器内核、大容量内存以及以太网端口、PCI总线接口和串行I/O端口之类的系统接口整合。

控制和 DSP 功能

  同基于闪存的程序存储器以及带有外围接口功能的阵列一起,正在合并到单一内核。TI将于今年4季度推出下一代控制器/DSP芯片的样品TMS320F28xx系列。

超过 20 GFLOPS 的计算吞吐量

  将会被一些最新的高并行阵列处理器实现。这些软件可配置的处理器将展现出色的功能。但是,若把阵列结构优化成算法,软件工具将会是关键。

期待 FPGA

  来扮演象DSP加法器或协处理器一样的角色。把FPGA(现场可编程门阵列)配置到乘法器阵列中的能力或其他功能,将使系统能迅速移动大型数据表,或实现其它高并行的操作。只需载入新位流,利用FPGA的可配置性,就能实现功能性改变。

国产DSP与IP登场

  继去年初首个DSP“中国芯”—“汉芯一号”诞生之后,今年初“汉芯二号”24位、“汉芯三号”32位DSP芯片也双双亮相,标志着我国研究取得重大突破。“汉芯”系列是由上海交通大学微电子学院研制成功的。

  “汉芯二号”是具备0.18微米半导体工艺设计的24位高性能DSP的IP内核,可执行每秒1.5亿次指令。而被我国列入“十五”国家863计划重点项目的“汉芯三号”,运算能力更加出色,每秒可处理指令6亿次以上;平均低功耗指标则低于预定标准,已经达到国际高端DSP设计水平。

  从“汉芯一号”问世到“汉芯三号”诞生,在短短一年中,“汉芯一号”芯片已取得了150万片的国际订单;“汉芯二号”作为首颗以IP专利授权方式进入国际市场的高端处理器芯片,已直接应用于国际著名IC设计企业的系统集成芯片;“汉芯三号”则申请了6项专利,由于具有高速度、低功耗的特点,可应在数据通信、雷达系统、数码产品、指纹识别系统、图像识别以及网络等诸多领域广泛应用,正开始寻找与国内外大厂商合作的机会。

DSP 是消费业的救星吗?

  每年伊始,消费电子都会更加流行,它正推动着半导体业勇往直前。随着消费电子产品越来越专业化,可以期待,DSP的应用将会进一步增加。

  在行业销售中,消费电子产品正在继续强劲增长, TI预言,专业化的处理器—DSP将在当前应用率的基础上继续增长,当前的应用在每项上都超过上百种,支持用于消费电子设备的 PC、通信和数码相机。

  TI把上世纪90年代后期和本世纪初称为继(基于晶体管的)主机时代、(基于 TTL 和逻辑电路的)微机时代和(基于微处理器的)PC时代之后的基于模拟技术与的“互联网时代”。

  从对便携式设备的低售价、低功耗需求,又被今天的消费者引领到高性能需求。TI预言,高性能DSP芯片会被继续开发。融合意味着,集多种专用功能于一体,例如,具有拍照、录音和播放功能的手机现已司空见惯,而这在几年前连做梦也想不到。

  在数码相机中,DSP用于成像、压缩并储存图像,也用来接通其他处理器并管理用户界面。它们还为图像传感器、背光和显示的电源进行管理。消费者要求整个产品又小又轻、电池又长寿。例如,TI的DSP就用在Logitech袖珍录像机和 Nokia N-Gage 中。

  另一个在欧洲胜出的市场增长是数码收音机。其中,DSP运行软件解调无线电频率、提取数码资料,并把这些资料编码成音频输出。TI DSP供应用于Roberts Gemini 3和Gemini 5的数码收音机。TI对轿车用DAB(数字音频广播)收音机也很感兴趣,它要求较短的设计周期,而手机中的DAB也是一个切实可行的方案。

消费者需要什么?

  DSP具有高性能的全部优势,但是价格昂贵。直到十年前,才用ASIC设计出高产量低成本的DSP解决方案。但正如TI所指出的,这些DSP都基于多重标准,并且不得不改写或转换。也有成本高达几百万美元的ASIC掩膜,对于单个用户和单端用途,成本很高。考虑到某些产品(如数码相机和数码投币式自动唱机)逐渐要求量身定制,ASIC的适用性也会成为问题。

  一个替代办法是使用可编程逻辑,它是试验设计理念的有效方法,但这会造成终端设计价格和功耗都将大为增加的后果。RISC 解决方案符合可编程性、功率和成本需求,但对于实时信号处理,TI相信,加上能够提供标准产品的优势,DSP会给出最佳解决方案。

  实时处理用于视频录像,例如,提供高分辨率、保持同步并避免画面遗漏,以使播放录像时动作连贯流畅。这些质量标准也适用于音频,CD质量满足消费者的需求。

  TI分析,DSP是融合技术的核心,无论是否包括视频、ADC和DAC,融合都是必要的。例如,若没有核心技术,模拟接口电路就不能与头戴式话筒会话。

功耗之战

  DSP厂商面临的下一场战役是降低DSP成本和功耗。这场战役已经打响,TI预言,在一年内,500 MHz版的C6412将从当前标价的40美元降到5~15美元。

  TMS320C6412是C6000路线图的最新产品。它从C5000 DSP平台发展而来,后者用于便携式录像机、高清晰度音频和压缩音频汽车头戴耳机。新产品为高性能视频录像如HDTV和视频电话,提供了软件、支持和开发工具箱。

  现在500和600MHz版本已有样品。C64xx一般有32位寄存器和8个并行功能单元,可以计算每个时钟周期内4个16位MAC。TI宣称,这个功能级别足以处理比竞争对手方案高8倍的同步远程通信频道。

  它包括由一个芯片上的EMAC(以太网媒体接入控制器)、PCI端口、HPI(主机端口接口)和288KB SRAM组成的外围。

  10/100Mb/s的EMAC节省了大量空间、系统成本和开发时间。和控制外围或与任何 I2C 总线兼容设备的I2C模块一样,设计人员可以用这个DSP同内部 66MHz PCI总线接口一起工作,或用于比较简单的主机处理器连接性的16/32位 HPI。凭借这款芯片上的内存容量,对于越来越高级的系统需求不应当造成I/O瓶颈。■(潘晓宇)(注:文中插图由TI提供)



评论


相关推荐

技术专区

关闭