AI开发现状

从过去AlphaGo在职业围棋中击败世界冠军，到现在大火的自动驾驶，人工智能(AI)在过去几年中取得了许多成就。其中人工智能的成功离不开三要素：数据、算法和算力。其中对于算力，除了训练(train)，AI实际需要运行在硬件上，也需要推理(inference)，这些都需要强大算力的支撑。

AI训练硬件平台：GPU、CPU、TPU

常见的模型训练硬件平台主要有：GPU、CPU和TPU。

CPU（Central Processing Unit） 具有最佳的可编程性，因此，它们为CNN实现了最高的FLOPS利用率，并且由于内存容量大而支持最大的模型；

GPU（ Graphical Processing Unit ） 对于不规则计算（例如小批量和nonMatMul计算）显示出更好的灵活性和可编程性；

TPU（Tensor Processing Unit） 已针对大型批次和CNN进行了高度优化，并且具有最高的训练能力。

截止目前为止，GPU是AI模型训练的硬件主力军，特别是以NVIDIA家的GPU为主。

AI推理引擎/部署工具：OpenVINO、TensorRT、Mediapipe

在模型训练过程完成后，我们需要将算法的模型进行上线部署。在此过程中，可能会遇到诸多挑战，例如，模型的性能（包括大小、精度和速度等方面）是否达到线上应用的要求，这些问题都将影响最终的投入与产出的比例。因此，对模型的性能评估和优化是至关重要的，以确保其在实际应用中的有效性和高效性。

OpenVINO介绍

OpenVINO是由英特尔公司专门为其硬件平台打造的一套深度学习工具包，其中涵盖了诸如推理库、模型优化等一系列与深度学习模型部署紧密相关的功能。

OpenVINO是一款功能强大的Pipeline工具集，它能够兼容多种开源框架训练出的模型，并具备将算法模型部署到Intel CPU、VPU等设备上的能力。通过运用这款工具，你将能够轻松地实现预训练模型的快速部署，从而充分利用Intel的硬件资源。

TensorRT介绍

TensorRT是一款卓越的深度学习推理优化器，以其低延迟和高吞吐量的特性，为深度学习应用提供了无与伦比的部署推理性能。这款工具不仅可以应用于超大规模的数据中心，还可以广泛应用于嵌入式平台以及自动驾驶平台等领域的推理加速。

MediaPipe介绍

MediaPipe是一个跨平台的框架，专为构建支持多模态应用的机器学习管道而设计。该框架能够在移动设备、工作站和服务器上实现跨平台运行，同时兼容移动GPU加速。借助MediaPipe，我们能够将应用程序的机器学习管道转化为模块化组件的图形表示。

上述中，只有OpenVINO具有专属为CPU优化的特质，提供的Demo和Samples都很充足，上手比较容易，可以用来快速部署开发，在英特尔的硬件平台上性能超过了大部分开源库，因此本文将重点对OpenVINO进行介绍。

OpenVINO

官网：https://docs.openvinotoolkit.org

OpenVINO 概述

OpenVINO（Open Visual Inference & Neural Network Optimization，开放视觉推理及神经网络优化）是英特尔基于自身现有的硬件平台开发的一种可以加快高性能计算机视觉和深度学习视觉应用开发速度工具套件，支持各种英特尔平台的硬件加速器上进行深度学习，并且允许直接异构执行。支持在Windows、Linux、macOS系统上运行，也支持Python /C / C++语言。

OpenVINO™ 工具套件：

在边界上启用基于卷积神经网络的深度学习推理；

作为文章写作高手，我会将原文进行重新组织，使其表达更为专业和高水平。在支持方面，我们致力于跨越英特尔® CPU、英特尔® 集成显卡、英特尔® 神经电脑棒 2以及搭载英特尔® Movidius™ 视觉处理器的英特尔® Vision Accelerator Design的异构执行。

通过一套易用的计算机视觉功能库和预优化内核库来加速上线时间；

包括了针对计算机视觉标准进行优化的调用，包括 OpenCV 和 OpenCL。

以下图表显示了典型的 OpenVINO™ 工作流程：

模型准备，转换和优化

在创作和训练深度学习模型的过程中，您可以选择利用自己构建的框架，或从Open Model Zoo中获取预训练模型。Open Model Zoo是一个丰富的资源库，其中涵盖了针对诸如物体识别、人脸识别、姿态估计、文本检测以及动作识别等各类视觉问题的深度学习解决方案。

OpenVINO™ 工具套件的一个核心组件是模型优化器（Model Optimizer），它是一个跨平台命令行工具，可将经过训练的神经网络从源框架转换为与 nGraph 兼容的开源中间表示 (IR)，用于推理运算。

在PyTorch、Caffe、TensorFlow、MXNet和ONNX等主流深度学习框架中，模型优化器的应用广泛。其核心任务是加载已经通过训练的模型，对其进行适当的优化处理，以便在保持较高准确性的同时，尽可能减少网络中的层数和计算量，从而简化结构，提高运算效率。

推理运行和调优推理

OpenVINO™ 的另一个核心组件是推理引擎（Inference Engine），它管理经过优化的神经网络模型的加载和编译，在输入数据上运行推理运算，并输出结果。推理引擎可以同步或异步执行，其插件架构管理用于在多个英特尔® 设备上执行的适当编译，包括主力 CPU 以及专用显卡和视频处理平台。

你可以将 OpenVINO™ 调优实用程序与推理引擎一起使用，在模型上试用和测试推理。基准测试应用程序使用输入模型运行迭代测试，以检测吞吐量或延迟，交叉检查应用程序对配置不同的推理的性能进行比较。训练后优化工具集成了一套基于量化和精度校准的工具，以进一步提升性能。