专访 | UIUC陈德铭教授:「万能芯片」FPGA与深度学习

来源:机器之心时间:2018-06-25 16:00:42

原标题:专访 | UIUC陈德铭教授:「万能芯片」FPGA与深度学习

机器之心原创

作者:邱陆陆

人工智能的风潮从技术一路蔓延到硬件,让「芯片」成为今年行业里盛极一时的主题。人们关注通用芯片领域里 CPU 和 GPU 不断刷新的基准(benchmark),更对专用芯片(ASIC)领域不同场景下不断问世的解决方案表示出了空前的热情。

 

而众所周知,在专用芯片与通用芯片中间,还有一个更为灵活,也更为神秘的领域:FPGA。无论是英特尔天价的收购还是微软与 IBM 雄心勃勃的计划,都让人对其更加好奇。而「万能芯片」的名称,以及多样化的职责范围:它可以是智能手机里不起眼的一个小组件,也可以是数千美金一块的开发板,也让人对其真面目更加疑惑。

 

FPGA 与深度学习的关系究竟是什么?它适合加速何种类型的运算?适合应用于何种场景?6 月,机器之心采访了美国伊利诺伊大学香槟分校电气与计算机工程系(UIUC ECE)教授、深度学习算法硬件加速解决方案创业公司 Inspirit IoT 创始人陈德铭,与他聊了聊「万能芯片」FPGA 在深度学习领域的用法。陈教授于近期宣布兼任国内计算机视觉领域创业公司触景无限的首席科学家。

 

以下为采访实录。

 

机器之心:从算法的角度,FPGA 适合于加速哪些运算?

 

FPGA 的优势在于可定制化的并行。它可以为了特定算法专门定制逻辑单元。例如,算法中需要完成一个开三次方的运算,在通用芯片上需要一长串指令实现它,但是在 FPGA 上可以为这个特定运算设计一个单元。

 

定制化的一个「极限」的例子是,如果能够把神经网络中的参数全部二值化、特征图(feature map)也全部二值化,那么甚至可以不用乘法器,而是用异或门(XOR gate)完成计算,会有异常强大的表现。即使不全部二值化,因为全部二值化会让准确度明显下降,只要合理使用各种低位宽的运算,仍可以让 FPGA 大放异彩。比如在我们最近和 IBM 合作的 ELB-NN 项目中,我们可以在功耗低于 5 瓦的情形下,让神经网络在 FPGA 上的算力达到 10.3 TOPS,同时依然维持非常高的准确度。

 

另一个例子是微软的 Brainwave FPGA 项目,通过使用特殊的 8-bit 的浮点运算,可以在高容量的 FPGA 上达到 40 TOPS。

 

值得一提的是,LSTM 等神经网络每一步操作都很相似,这种整体运算过程是序列的算法也非常适用于用 FPGA 进行加速。FPGA 非常擅长处理流数据,可以设计流水线机制,使得在运算过程中不需要将中间数据存入内存而是直接送到下一步进行操作。

 

机器之心:相比于其他芯片,FPGA 在实现深度学习模型时有哪些结构带来的优势?

 

FPGA 的引脚比一般的芯片多,同时它的逻辑单元可以完全根据算法要求来重组从而产生定制化的数据通路(datapath),因此非常适合处理大批量流数据。它不像 GPU 一样需要反复调取片外存储中的数据,理想状态时,只要数据一次性流进去再流出来,算法就完成了,因此,FPGA 非常适合具有低延迟需求的任务。

 

另外 FPGA 的速度快、功率低的特点也让它在能耗方面相比于 CPU、GPU 也有很大优势。

 

比如我们在 FPGA 上实现了长期循环卷积网络(Long-term Recurrent Convolutional Network),它的速度 ( latency ) 比 GPU 快 3.1 倍,FPGA 的功率比 GPU 小 5.6 倍,最终整体能耗降低 17 倍左右。

 

机器之心:从行业的角度,FPGA 都能够用于哪些机器学习与深度学习任务的加速?

 

在终端,有些自动驾驶公司的车上系统中就采用了 FPGA 完成一些实时检测识别任务。例如,我曾经代表 UIUC 与小鹏汽车的副总裁、机器学习专家谷俊丽女士交流,她提到,FPGA 可以凭借信号处理和低能耗方面的优势,成为一个可靠的第二系统,在汽车的第一系统出现失误的时候,作为安全模式介入进来。IoT 方面的应用就更多了,无论是安防还是智能家居,FPGA 都会有机会进入市场。

 

在云端,也有结合 FPGA 的巨大空间。之前,微软的 Project Catapult 就搭建起了大规模的 FPGA 云服务器。现在 Catapult 正在运行搜索和数据存储方面的运算,同时,他们也在积极地思考如何把机器学习运算部署在上面,包括是否能将 FPGA 作为其 Azure 云的后端支持。亚马逊 AWS 的 FPGA 云计算已经很有规模了,并且一直在大力推动之中。最近,国内创业公司深鉴也开始结合华为的云端 FPGA 来进行深度学习算法的加速,特别在基于 LSTM 的语音识别上非常有优势。

 

机器之心:能否介绍一下使用高层次综合(HLS)自动生成寄存器级(RTL)实现与手工用硬件描述语言(HDL)进行实现的区别?

 

对于深度学习相关算法来说,HLS 是有优势的。

 

当你阅读用高层语言描述的深度学习模型时,你会发现模型是有规律的。比如,卷积操作在 C 语言里就是一个六层的嵌套循环。此时我就可以针对这个循环开发一个 IP 核,确定如何进行流水线设计(pipelining),如何分配存储等,然后再将 IP 核用在 FPGA 上,进而让神经网络中的所有卷积层来共享 IP 核即可。

 

此时设计的优化要点是 IP 核的大小、是否需要多个 IP 核并行运算等。这是一个非常适用 HLS 的场景,因为 HLS 可以自动化地、快速地探索不同的解决方案。如果采用 RTL,则需要很多工程师,组成多个团队,每个团队根据工程师过去的设计经验着重探索一个方向,这是一个成本非常高的过程。

 

RTL 是一种描述硬件的空间的关系和逻辑时序等逻辑关系的硬件描述语言。这是一门难学的语言,能够熟练掌握的从业者也不多,开发和测试都很慢。夸张点说,如果 HLS 开发周期以天和周来计算,那么 RTL 通常是以月和年。

 

从最终结果角度讲,RTL 完全手工调制的解决方案是很可能比 HLS 自动生成的方案效果好的。我们曾经做过比较,在深度学习的情境下,HLS 和 RTL 方法的差距在 10% 左右。

 

因此,问题在于是否愿意花 3-5 倍的时间获得额外 10% 的效果。

 

机器之心:在简化 FPGA 开发过程这一任务上,研究者做了哪些工作?

 

我们的团队开发了一个研究工具,是一个 C 语言的模板库,能够根据 Caffe 和 TensorFlow 的代码自动生成 C 语言的表达。然后研究者可以将 C 语言的代码再交给 HLS 工具生成 RTL 代码。

 

C 语言是软件工程师普遍掌握的语言,这样的工具让软件工程师也具有 FPGA 开发能力,而且让开发者更专注于算法,而不用过多考虑底层硬件。

 

而且,这个过程中的中间结果都可以导出,专业人员也可以在自动生成的基础上再进行优化,总而言之,整个开发的效率都得到了极大的提高。

 

这只是举一个例子。还有其它很多的研究人员在做相关的提升深度学习设计效率和质量的各类工具和平台。工业和学术届的都有。学术届比如 UCLA 的丛京生老师,以及 Cornell 的张志汝老师等。工业届比较领先的是赛灵思和英特尔自己设计的一些工具。

 

机器之心:各个大公司在 FPGA 的应用方面都进行了哪些工作?拓展市场的思路都有哪些?

 

IBM 和赛灵思正在 Power 系列上进行合作,致力于在 FPGA 上加更多的存储,在最新的原型机上,把存储加到了 64G,相比于市面上现在常见的最大 8 或 16G,极大扩展了数据带宽,来进行和大数据相关的处理。

 

英特尔收购了 Altera,并且致力于帮助 Altera 进行编译等工具的开发。这是一个 FPGA 商品化的思路,就像 GPU 一样,说不定未来的 PC 里就会有一个 FPGA 协处理器在 CPU 旁边完成工作。或者在芯片层面上,CPU 片上就有一块 FPGA。总而言之,一旦工具做好,整合的机会会有很多。英特尔在智能城市、智慧制造方面都有很多的构想,并且希望借由 FPGA 实现。

 

再就是微软。它的思路主要就是云计算,除了 Bing 之外,也希望在进行机器学习任务的 Azure 云中使用 FPGA。

 

机器之心:能否介绍一下 Inspirit IoT 通过哪些产品实现了深度学习算法在 FPGA 上的加速?

 


我们公司主要有三个产品,按照层次分别是 DNN 优化器、高层次综合加速编译器(HLS compiler),以及整体 FPGA 解决方案。

 

DNN 优化器的目标是定制一个 FPGA 友好的模型,把训练好的模型中对于推理来说冗余的部分去掉。例如,训练时使用的浮点数可以被替换为定点数,训练时每层有非常多的单元,但是在推理的时候可以进行剪枝(Pruning),等等。DNN 优化器就是以各种高层框架的模型为基础,根据硬件的特性和场景的特性进行自动的优化。

 

高层次综合编译器让开发者得以绕开写 Verilog 硬件描述语言,将 C、 C++、CUDA 等代码直接编成 FPGA,旨在降低硬件开发的门槛,提高软件工程师的生产力。我们的特色是这个编译器可以自然结合深度学习算法中的各种 IP 核,从而可以最好的优化各种深度学习算法在 FPGA 上的高速及高质量的实现。

 

除此之外,我们也有嵌入 FPGA 的开发板,用于声音相关的应用场景。其上嵌入了 FPGA 和 4 个麦克风,可以检测声音来源、提高声音质量,也可以和摄像头等其他设备连用。例如,捕捉到车辆撞击声、尖叫声等特定声音之后,能够调转摄像头,收录相关的视频等,希望获得一个「1+1>3」的效果。

 

特别鸣谢:北京大学高性能计算机研究中心博士生 王硕

本文为机器之心原创,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告 & 商务合作:bd@jiqizhixin.com

相关阅读

推荐阅读

两连阳为啥还没回本?买入绩优、白马、中大盘股才能轻松获利

两连阳为啥还没回本?买入绩优、白马、中大盘股才

一、大盘点评展望周二沪深两市小幅低开后,沪深300权重带动指数震荡上行。最终沪指上涨0 53%报收3410点,K线上收出一根中阳线;深成指上涨1 更多

2017-11-22 16:17:00
2017百度世界大会李彦宏透露无人车2018年量产 无人驾驶概念股备受期待

2017百度世界大会李彦宏透露无人车2018年量产 无

一年一度的百度世界大会11月16日在北京举行,每年的百度世界大会,百度创始人李彦宏都会带来他对过去,现在和未来关于互联网和整个IT领域的 更多

2017-11-16 11:17:37
贵州茅台股价突破700元 贵州茅台股价为什么那么高?

贵州茅台股价突破700元 贵州茅台股价为什么那么

今日贵州茅台延续昨日强势走势,继续大幅攀升,盘中最高价突破700元整数关口,刷新上市新高纪录,截至发稿,最高价报704 97元,总市值超越8 更多

2017-11-16 10:32:47
百度世界大会今日召开聚焦智能硬件 百度世界大会受益概念股一览

百度世界大会今日召开聚焦智能硬件 百度世界大会

据怀新资讯报道,2017百度世界大会将于16日在北京举行。从邀请函上出现的神秘的盒子推测,本次百度将会有AI硬件以及诸多AI新技术发布。从今 更多

2017-11-16 10:17:03
中国财富总值全球第二但是超4亿人家庭没有卫生厕所 你拖后腿了吗?

中国财富总值全球第二但是超4亿人家庭没有卫生厕

瑞士信贷研究所(CSRI)最新出炉的《全球财富报告》显示,全球财富总额现已达到280万亿美元,比十年前金融危机爆发时高出27%。美国占全球财 更多

2017-11-16 10:07:07
比特币今日价格大幅反弹逾9% 比特币价格再次突破7000美元

比特币今日价格大幅反弹逾9% 比特币价格再次突破

在短短两周时间内,比特币价格呈现了非常惊险的过山车。由于对于这款加密货币未来趋势存在争议,上周比特币价格出现暴跌,曾一度低于6000美 更多

2017-11-16 10:04:14
油价调整最新消息:国内油价今日24时或迎年内最大涨幅 附92号/93号汽油最新价格

油价调整最新消息:国内油价今日24时或迎年内最大

新一轮成品油调价窗口将于16日24时开启。国际原油价格一度涨至近两年高位,受此影响,国内油价或迎年内最大涨幅。隆众资讯统计数据显示,以 更多

2017-11-16 09:22:17
国际油价调整最新消息:EIA原油及汽油库存双双增长 延长减产协议预期支撑油市反弹

国际油价调整最新消息:EIA原油及汽油库存双双增

美国能源信息署(EIA)周三(11月15日)公布的数据显示,上周美国原油库存意外录得增加,同时汽油库存也意外增长。EIA公布,截至11月10日当 更多

2017-11-16 09:21:49
+ 点击查看更多精彩
29日零时将上调汽柴油限价  每吨汽油上调170柴油上调165元
    人民网北京3月28日电 (朱江)今日,记者从隆众、卓创社会监测机构...
今年政策方向没有变,“三去一降一补”具体该怎么干?
    2018年,我国开启高质量发展新征途。中央经济工作会议把深化供给...
蓝筹股带动大盘继续上攻 沪指重返3400点
    【盘面简述】今日早盘,随着油气股的拉升上涨,中国石油和中国石...
白马股崛起补涨强烈 短期恐慌性抛盘并不大
    今日市场点评:沪深两市早盘各股指纷纷小幅低开,开盘之后一度呈...
市场再度面临重要的时间窗口 一板块有望迎来年末行情
    【今日小结】今日,两市小幅高开,开盘回撤后快速上行翻红,金融...
不离谱的回落 三理由力挺节后机会
    今日市场点评:大盘在节后第一天走出了高开低走的行情。在国庆期...