我们如何利用我们在图像处理和压缩经验,建立一个更好的AI加速器(和易于使用由它在这个过程中)。

我们开发的AI视觉架构开始有问题的路径:是否有可能建立一个快速,智能和强大的系统能够运行以最小的努力,精度高,功耗低的最新神经网络的?

换种说法:那么将会创建一个专用AI加速踏板边缘的低功耗嵌入式系统而设计的,其性能是竞争对手,甚至超过-的的依赖于云计算系统的性能?

我们开始在2015年的调查在当时,新的研究已经表明,人脸识别和目标检测,可以在嵌入式平台上成功实施,我们的客户在智能视觉系统被越来越感兴趣,而不是传统相机。

在此之前,Ambarella的核心力量曾是我们进行视频压缩的专用硬件加速器,(尤其是H.264和H.265)以及图像处理递送在各种恶劣的光照环境出色的图像质量,而所有消耗最小功率。为了建立这些加速器,我们仔细研究了这个问题,并且执行关键任务精心设计的定制硬件,而丢弃的概念或提供一点好处或过于复杂的有效实施方案。十多年来,我们用这些加速器帮助推出数十个行业定义视频产品在消费者和专业市场:中GoPro的英雄相机运动原线,在Dropcam家庭安全设备,以及DJI幻影无人机系列,仅举几例。

因此,当它来到的时间来建立计算机视觉处理的嵌入式架构,我们遵循了类似的路径,使用之前得手,组合现有的设计元素与新的概念,以解决AI的独特挑战同样的方法。通过研究开发VisLab传统的计算机视觉常用算法,在卷积神经网络的新兴技术,并自主移动算法堆叠后(通过安霸在2015年取得),我们开发了一个优雅的硬件也就是精益,平均,具有很强的实用性,被称为CVflow®。

新架构的根源。

每个人一样,我们开始与神经网络。其优点是证据充分的,包括:(一)只有几个关键的操作占据主导地位的表现,特别是卷积和矩阵运算;和(b)所涉及的数学运算是充足的并行简单。最明显的架构方法本来部署处理器(例如,GPU)的或大的乘法器阵列(例如,TPU)的军队,它提供了在神经网络性能立即增益。然而,这种方法不适合于低功耗的嵌入式设备我们的客户进行了展望。

“从一开始,我们的目标是建立从地上爬起来用神经网络处理作为唯一的优先级的精简架构。”

而不是依靠现有的通用解决方案,我们在多年研究的各方面的神经处理设计专为嵌入式市场优化的引擎,消除瓶颈和低效存在的GPU或TPU的明确目标,基于网络的。从一开始,我们的目标是从地上爬起来用神经网络处理作为唯一的优先级创建一个精简架构。我们的成功需要的创造力,思想批判性的分析,设计权衡我们的VLSI,体系结构和软件团队之间的讨论,并最终解决与共识的复杂问题。经过三年的研究,实验和高度集中的协作,CVflow诞生了。

在我的学术生涯中,我研究设计处理器从小型处理器,用于科研大容量高速缓存相干的多处理器,基于VLIW的机器的历史,IA-64,图形处理器,SIMD机等。我那段时间的教训是最显着的结构倾向于在该站出来相对于白天的竞争理念的创新方式来解决特定的问题。例如,因为他们太多的管道有效更方便,更直接的程序比他们缓慢的基于CISC,RISC同行机器被认为是重要的。我们CVflow架构同样脱颖而出,成为一个高度优化和创新的解决方案,以计算机视觉和推理加速。

但它是用户友好?

任何加速器,不论其目的,是具有挑战性的工作。认识到这一点,我们自成立以来培养CVflow一个直观的,无痛的编程模型。我们以前的做法,缠绕一个复杂强大的硬件的清洁API提供一个简单的用户界面,wasn't的环境中的一个选项,客户有自己的网络,并在网络迅速改变。此外,管理计算精度是为了确保他们的网络将继续在我们的系统芯片表现良好,为客户的关键问题。这些和其他的考虑是我们心中的最前沿,我们开发了CVflow架构。

点击放大图片。

为了使编程尽可能容易为我们的客户,我们致力于显著的时间和资源,我们CVflow编译器和网络映射工具(CNNGen)的发展,构建一个工具集,它读取TensorFlow或PyTorch网络的高级别规格并优化网络为我们的硬件上运行,同时提供足够的控制,以使用户几乎达到精度原来的高精度网络的同一水平。这个工具集,建立在我们CVFlow架构之上,是足够强大提取设备的最佳性能,但也足够灵活的集成到外部服务如Sagemaker NEO亚马逊网络服务,允许客户自己的架构和网络适应我们对云计算的硬件。

点击放大图片。

使用这个强大的工具集,我们的内部团队,合作伙伴和客户迄今已适应了200的神经网络对我们的架构。停泊的网络满足广泛的使用例,包括2D / 3D对象检测,分割和光流,并取得合理的精度在很短的时间,一般小时以内。而且,重要的是,我们打开我们的工具所有网络拓扑结构,而不是限制用户在有限的一组唯一的设计使我们看起来不错的拓扑结构。

点击放大图片。

随着越来越多的客户使用我们的工具链,我们每天都添加新的网络。反过来,每一个新的网络提高自身综合素质,因为他们增加新的复杂性和层的工具集,建立在相同的架构之上。这种设计的不再是我的工作,我更加欣赏CVflow的灵活性,以适应计算机视觉变化趋势,这是只有加速随着时间的推移。神经网络现在看起来非常不同于当我们开始,但我们的架构通过引入新的层次和要求,跟上时代的步伐不断调整,所有的定制,为高性能和低功耗操作进行了优化。

要了解更多关于我们的嵌入式低功耗CVflow架构,或者如果你有兴趣使用我们的工具链迅速适应自己国家的最先进的网络,我们的硬件上运行,请联系我们