OpenVINO™工具包英特尔预训模型概述
OpenVINO™工具包提供了一组预先训练好的模型,您可以将其用于学习和演示目的,或者用于开发深度学习软件。
本文引用地址:https://www.eepw.com.cn/article/202106/426378.htmGitHub上的回购中提供了最新版本。
可以通过Model Downloader下载模型(<OPENVINO_INSTALL_DIR>>/deployment_tools/open_model_zoo/tools/downloader).
提示:您还可以在OpenVINO™深度学习工作台(DL工作台)中下载和配置英特尔®预训练模型。DL Workbench是基于OpenVINO™构建的平台,提供基于web的图形环境,使您能够在各种Intel®架构配置下优化、微调、分析、可视化和比较深度学习模型的性能。在DL工作台中,您可以使用大多数OpenVINO™工具箱组件。
从Docker开始进行一个简单的安装。
目标检测模型
几个检测模型可以用来检测一组最受欢迎的对象——例如,人脸、人、车辆。大多数网络都基于固态硬盘,并提供合理的精度/性能权衡。检测相同类型对象的网络(例如,face-detection-adas-0001和face-detection-retail-0004)以较慢的性能为代价,提供更高精度/更广泛适用性的选择,因此您可以期望“更大”的网络更好地检测相同类型的对象。
目标识别模型
目标识别模型用于分类、回归和字符识别。在各自的检测器之后使用这些网络(例如,人脸检测之后的年龄/性别识别)。
再识别模型
精确跟踪视频中的对象是计算机视觉的一个常见应用(例如,用于人数统计)。它通常被一系列事件复杂化,这些事件可以被描述为“相对长时间没有物体”。例如,它可以由遮挡或帧外移动引起。在这种情况下,最好将对象识别为“以前见过”,而不管它在图像中的当前位置或自上次已知位置以来经过的时间。
以下网络可用于此类场景。他们拍摄一个人的图像,并评估一个嵌入——在高维空间中表示这个人的外观的向量。该向量可用于进一步评估:对应于同一个人的图像将具有“接近”L2度量(欧几里德距离)的嵌入向量。
有多种模型可以在性能和准确性之间进行各种权衡(期望更大的模型性能更好)。
语义分割模型
语义分割是目标检测问题的扩展。
语义分割模型不返回边界框,而是返回输入图像的“绘制”版本,其中每个像素的“颜色”表示某个类别。
这些网络比各自的目标检测网络大得多,但它们提供了更好的(像素级)目标定位,并且它们可以检测形状复杂的区域(例如,道路上的空闲空间)。
实例分割模型
实例分割是目标检测和语义分割问题的延伸。与预测每个对象实例周围的边界框不同,实例分割模型为所有实例输出像素级掩码。
人体姿态估计模型
人体姿态估计任务是为输入图像或视频中的每个人预测一个姿态:由关键点和关键点之间的联系组成的人体骨架。重点是身体关节,即耳朵,眼睛,鼻子,肩膀,膝盖等。这种方法主要有两类:自上而下和自下而上。首先检测给定帧中的人、作物或重标检测,然后运行每次检测的姿态估计网络。这些方法非常精确。第二种方法查找给定帧中的所有关键点,然后根据个人实例对它们进行分组,因此比前一种方法更快,因为网络只运行一次。
图像处理
深度学习模型在各种图像处理任务中得到应用,以提高输出的质量。
文本检测
深度学习模型的文本检测在各种应用。
文本识别
深度学习模型在文本识别中的应用。
文本定位
深度学习模型的文本定位(同时检测和识别)。
动作识别模型
动作识别模型预测正在短视频剪辑上执行的动作(通过堆叠来自输入视频的采样帧形成的张量)。一些模型(例如driver-action-recognition-adas-0002可以使用从单个剪辑片段预先计算的高级空间或时空特征(嵌入),然后将它们聚合到一个时间模型中,以预测具有分类评分的向量。计算嵌入的模型称为编码器,而预测实际标签的模型称为解码器。
图像检索
用于图像检索的深度学习模型(根据“图库”图像与一些“探测”图像的相似性对它们进行排序)。
压缩模型
深度学习压缩模型
问答
机器翻译
文本到语音转换
语音合成的深度学习模型(mel声谱图生成和波形生成)。
评论