揭秘FPGA：为什么比 GPU 的延迟低这么多？

作者：时间：2018-06-27来源：网络收藏

　　FPGA 为什么比 GPU 的延迟低这么多?

本文引用地址：http://www.eepw.com.cn/article/201806/382354.htm

　　这本质上是体系结构的区别。

　　FPGA 同时拥有流水线并行和数据并行，而 GPU 几乎只有数据并行(流水线深度受限)。

　　例如处理一个数据包有 10 个步骤，FPGA 可以搭建一个 10 级流水线，流水线的不同级在处理不同的数据包，每个数据包流经 10 级之后处理完成。每处理完成一个数据包，就能马上输出。

　　而 GPU 的数据并行方法是做 10 个计算单元，每个计算单元也在处理不同的数据包，然而所有的计算单元必须按照统一的步调，做相同的事情(SIMD，Single Instruction Multiple Data)。这就要求 10 个数据包必须一起输入、一起输出，输入输出的延迟增加了。

　　当任务是逐个而非成批到达的时候，流水线并行比数据并行可实现更低的延迟。因此对流式计算的任务，FPGA 比 GPU 天生有延迟方面的优势。

　　计算密集型任务，CPU、GPU、FPGA、ASIC 的数量级比较(以 16 位整数乘法为例，数字仅为数量级的估计

　　ASIC 专用芯片在吞吐量、延迟和功耗三方面都无可指摘，但微软并没有采用，出于两个原因：

　　数据中心的计算任务是灵活多变的，而 ASIC 研发成本高、周期长。好不容易大规模部署了一批某种神经网络的加速卡，结果另一种神经网络更火了，钱就白费了。FPGA 只需要几百毫秒就可以更新逻辑功能。FPGA 的灵活性可以保护投资，事实上，微软现在的 FPGA 玩法与最初的设想大不相同。

　　数据中心是租给不同的租户使用的，如果有的机器上有神经网络加速卡，有的机器上有 Bing 搜索加速卡，有的机器上有网络虚拟化加速卡，任务的调度和服务器的运维会很麻烦。使用 FPGA 可以保持数据中心的同构性。

　　接下来看通信密集型任务。

　　相比计算密集型任务，通信密集型任务对每个输入数据的处理不甚复杂，基本上简单算算就输出了，这时通信往往会成为瓶颈。对称加密、防火墙、网络虚拟化都是通信密集型的例子。

　　▲通信密集型任务，CPU、GPU、FPGA、ASIC 的数量级比较(以 64 字节网络数据包处理为例，数字仅为数量级的估计)

　　对通信密集型任务，FPGA 相比 CPU、GPU 的优势就更大了。

　　从吞吐量上讲，FPGA 上的收发器可以直接接上 40 Gbps 甚至 100 Gbps 的网线，以线速处理任意大小的数据包;而 CPU 需要从网卡把数据包收上来才能处理，很多网卡是不能线速处理 64 字节的小数据包的。尽管可以通过插多块网卡来达到高性能，但 CPU 和主板支持的 PCIe 插槽数量往往有限，而且网卡、交换机本身也价格不菲。

　　从延迟上讲，网卡把数据包收到 CPU，CPU 再发给网卡，即使使用 DPDK 这样高性能的数据包处理框架，延迟也有 4~5 微秒。更严重的问题是，通用 CPU 的延迟不够稳定。例如当负载较高时，转发延迟可能升到几十微秒甚至更高(如下图所示);现代操作系统中的时钟中断和任务调度也增加了延迟的不确定性。