OpenVINO™工具包英特尔预训模型概述

作者：时间：2021-06-17来源：英特尔收藏

　　OpenVINO™工具包提供了一组预先训练好的模型，您可以将其用于学习和演示目的，或者用于开发深度学习软件。

本文引用地址：http://www.eepw.com.cn/article/202106/426378.htm

　　GitHub上的回购中提供了最新版本。

　　可以通过Model Downloader下载模型(<OPENVINO_INSTALL_DIR&gt>/deployment_tools/open_model_zoo/tools/downloader).

　　提示:您还可以在OpenVINO™深度学习工作台(DL工作台)中下载和配置英特尔®预训练模型。DL Workbench是基于OpenVINO™构建的平台，提供基于web的图形环境，使您能够在各种Intel®架构配置下优化、微调、分析、可视化和比较深度学习模型的性能。在DL工作台中，您可以使用大多数OpenVINO™工具箱组件。

　　从Docker开始进行一个简单的安装。

目标检测模型

　　几个检测模型可以用来检测一组最受欢迎的对象——例如，人脸、人、车辆。大多数网络都基于固态硬盘，并提供合理的精度/性能权衡。检测相同类型对象的网络(例如，face-detection-adas-0001和face-detection-retail-0004)以较慢的性能为代价，提供更高精度/更广泛适用性的选择，因此您可以期望“更大”的网络更好地检测相同类型的对象。

目标识别模型

　　目标识别模型用于分类、回归和字符识别。在各自的检测器之后使用这些网络(例如，人脸检测之后的年龄/性别识别)。

再识别模型

　　精确跟踪视频中的对象是计算机视觉的一个常见应用(例如，用于人数统计)。它通常被一系列事件复杂化，这些事件可以被描述为“相对长时间没有物体”。例如，它可以由遮挡或帧外移动引起。在这种情况下，最好将对象识别为“以前见过”，而不管它在图像中的当前位置或自上次已知位置以来经过的时间。

　　以下网络可用于此类场景。他们拍摄一个人的图像，并评估一个嵌入——在高维空间中表示这个人的外观的向量。该向量可用于进一步评估:对应于同一个人的图像将具有“接近”L2度量(欧几里德距离)的嵌入向量。

　　有多种模型可以在性能和准确性之间进行各种权衡(期望更大的模型性能更好)。

语义分割模型

　　语义分割是目标检测问题的扩展。

　　语义分割模型不返回边界框，而是返回输入图像的“绘制”版本，其中每个像素的“颜色”表示某个类别。

　　这些网络比各自的目标检测网络大得多，但它们提供了更好的(像素级)目标定位，并且它们可以检测形状复杂的区域(例如，道路上的空闲空间)。

实例分割模型

　　实例分割是目标检测和语义分割问题的延伸。与预测每个对象实例周围的边界框不同，实例分割模型为所有实例输出像素级掩码。

人体姿态估计模型

　　人体姿态估计任务是为输入图像或视频中的每个人预测一个姿态:由关键点和关键点之间的联系组成的人体骨架。重点是身体关节，即耳朵，眼睛，鼻子，肩膀，膝盖等。这种方法主要有两类:自上而下和自下而上。首先检测给定帧中的人、作物或重标检测，然后运行每次检测的姿态估计网络。这些方法非常精确。第二种方法查找给定帧中的所有关键点，然后根据个人实例对它们进行分组，因此比前一种方法更快，因为网络只运行一次。

图像处理

　　深度学习模型在各种图像处理任务中得到应用，以提高输出的质量。

文本检测

　　深度学习模型的文本检测在各种应用。

文本识别

　　深度学习模型在文本识别中的应用。

文本定位

　　深度学习模型的文本定位(同时检测和识别)。

动作识别模型

　　动作识别模型预测正在短视频剪辑上执行的动作(通过堆叠来自输入视频的采样帧形成的张量)。一些模型(例如driver-action-recognition-adas-0002可以使用从单个剪辑片段预先计算的高级空间或时空特征(嵌入)，然后将它们聚合到一个时间模型中，以预测具有分类评分的向量。计算嵌入的模型称为编码器，而预测实际标签的模型称为解码器。