新闻中心

EEPW首页 > 智能计算 > 进阶指南 > OpenVINO™工具包英特尔预训模型概述

OpenVINO™工具包英特尔预训模型概述

作者:时间:2021-06-17来源:英特尔收藏

  ™工具包提供了一组预先训练好的模型,您可以将其用于学习和演示目的,或者用于开发深度学习软件。

本文引用地址:http://www.eepw.com.cn/article/202106/426378.htm

  GitHub上的回购中提供了最新版本。

  可以通过Model Downloader下载模型(<OPENVINO_INSTALL_DIR&gt>/deployment_tools/open_model_zoo/tools/downloader).

  提示:您还可以在™深度学习工作台(DL工作台)中下载和配置英特尔®。DL Workbench是基于™构建的平台,提供基于web的图形环境,使您能够在各种Intel®架构配置下优化、微调、分析、可视化和比较深度学习模型的性能。在DL工作台中,您可以使用大多数OpenVINO™工具箱组件。

  从Docker开始进行一个简单的安装。

目标检测模型

  几个检测模型可以用来检测一组最受欢迎的对象——例如,人脸、人、车辆。大多数网络都基于固态硬盘,并提供合理的精度/性能权衡。检测相同类型对象的网络(例如,face-detection-adas-0001和face-detection-retail-0004)以较慢的性能为代价,提供更高精度/更广泛适用性的选择,因此您可以期望“更大”的网络更好地检测相同类型的对象。

1623921849306589.jpg

1623921849506536.jpg

目标识别模型

  目标识别模型用于分类、回归和字符识别。在各自的检测器之后使用这些网络(例如,人脸检测之后的年龄/性别识别)。

1623921910950348.jpg

再识别模型

  精确跟踪视频中的对象是计算机视觉的一个常见应用(例如,用于人数统计)。它通常被一系列事件复杂化,这些事件可以被描述为“相对长时间没有物体”。例如,它可以由遮挡或帧外移动引起。在这种情况下,最好将对象识别为“以前见过”,而不管它在图像中的当前位置或自上次已知位置以来经过的时间。

  以下网络可用于此类场景。他们拍摄一个人的图像,并评估一个嵌入——在高维空间中表示这个人的外观的向量。该向量可用于进一步评估:对应于同一个人的图像将具有“接近”L2度量(欧几里德距离)的嵌入向量。

  有多种模型可以在性能和准确性之间进行各种权衡(期望更大的模型性能更好)。

1623921945441982.jpg

语义分割模型

  语义分割是目标检测问题的扩展。

  语义分割模型不返回边界框,而是返回输入图像的“绘制”版本,其中每个像素的“颜色”表示某个类别。

  这些网络比各自的目标检测网络大得多,但它们提供了更好的(像素级)目标定位,并且它们可以检测形状复杂的区域(例如,道路上的空闲空间)。

1623921970504861.jpg

实例分割模型

  实例分割是目标检测和语义分割问题的延伸。与预测每个对象实例周围的边界框不同,实例分割模型为所有实例输出像素级掩码。

1623922043411763.jpg

人体姿态估计模型

  人体姿态估计任务是为输入图像或视频中的每个人预测一个姿态:由关键点和关键点之间的联系组成的人体骨架。重点是身体关节,即耳朵,眼睛,鼻子,肩膀,膝盖等。这种方法主要有两类:自上而下和自下而上。首先检测给定帧中的人、作物或重标检测,然后运行每次检测的姿态估计网络。这些方法非常精确。第二种方法查找给定帧中的所有关键点,然后根据个人实例对它们进行分组,因此比前一种方法更快,因为网络只运行一次。

1623922070808861.jpg

图像处理

  深度学习模型在各种图像处理任务中得到应用,以提高输出的质量。

1623922082122011.jpg

文本检测

  深度学习模型的文本检测在各种应用。

1623922178884245.jpg

文本识别

  深度学习模型在文本识别中的应用。

1623922092782891.jpg

文本定位

  深度学习模型的文本定位(同时检测和识别)。

1623922105966691.jpg

动作识别模型

  动作识别模型预测正在短视频剪辑上执行的动作(通过堆叠来自输入视频的采样帧形成的张量)。一些模型(例如driver-action-recognition-adas-0002可以使用从单个剪辑片段预先计算的高级空间或时空特征(嵌入),然后将它们聚合到一个时间模型中,以预测具有分类评分的向量。计算嵌入的模型称为编码器,而预测实际标签的模型称为解码器。

1623922200309816.jpg

图像检索

  用于图像检索的深度学习模型(根据“图库”图像与一些“探测”图像的相似性对它们进行排序)。

1623922212349797.jpg

压缩模型

  深度学习压缩模型

1623922225909340.jpg

问答

1623922235289876.jpg

机器翻译

1623922246774878.jpg

文本到语音转换

  语音合成的深度学习模型(mel声谱图生成和波形生成)。

1623922246974069.jpg



评论


相关推荐

技术专区

关闭