新闻中心

EEPW首页 > 智能计算 > 进阶指南 > OpenVINO™工具包公共模型概述

OpenVINO™工具包公共模型概述

作者: 时间:2021-06-17 来源:英特尔 收藏

  ™工具包提供了一组,您可以将其用于学习和演示目的,或者用于开发深度学习软件。

  最新版本可在Github上的回购中找到。

  您可以下载模型并使用™模型下载器和其他自动化工具将它们转换为推理引擎格式(*.xml+*.bin)。

分类

1623913733175158.png

分割

  语义分割是目标检测问题的延伸。

  语义分割模型不返回边界框,而是返回输入图像的“绘制”版本,其中每个像素的“颜色”表示某个类别。

  这些网络比各自的目标检测网络大得多,但它们提供了更好的(像素级)目标定位,并且它们可以检测到形状复杂的区域。

语义分割

1623915693621405.jpg

实例分割

  实例分割是目标检测和语义分割问题的延伸。与预测每个对象实例周围的边界框不同,实例分割模型为所有实例输出像素级掩码。

1623915725857867.jpg

3D语义分割

1623915768793650.jpg

目标检测

  几个检测模型可以用来检测一组最流行的对象——例如,人脸、人、车辆。大多数网络都基于固态硬盘,并提供合理的精度/性能权衡。

1623915800298729.jpg

1623915800564775.jpg

1623915800974137.jpg

面部识别

1623915883238989.jpg

人体姿态估计

  人体姿态估计任务是为输入图像或视频中的每个人预测一个姿态:身体骨架,它由关键点和它们之间的联系组成。关键点是身体关节,即耳朵、眼睛、鼻子、肩膀、膝盖等。这种方法有两大类:自上而下和自下而上。首先在给定的帧中检测人,裁剪或重新缩放检测,然后为每个检测运行姿态估计网络。这些方法非常准确。第二个查找给定帧中的所有关键点,然后按个人实例对它们进行分组,这样比以前更快,因为网络只运行一次。

1623915905924790.jpg

单目深度估计

  单目深度估计的任务是基于单一输入图像预测深度(或逆深度)地图。由于这个任务在一般情况下包含一些模糊性,所以得到的深度图通常只定义一个未知的比例因子。

表8.JPG

图像修复

  图像修复的任务是估计合适的像素信息来填充图像中的空洞。

1623915956897181.jpg

风格转移

  风格转移任务是将一个图像的风格转移到另一个图像。

表10.JPG

动作识别

  动作识别的任务是预测正在短视频剪辑上执行的动作(通过堆叠来自输入视频的采样帧形成的张量)。

1623915978520968.jpg

彩色化

  彩色化任务是从灰度图像中预测场景的颜色。

1623916000926760.jpg

声音分类

  声音分类的任务是预测音频片段中有哪些声音。

1623916028742272.jpg

语音识别

  语音识别的任务是识别口语并将其翻译成文本。

1623916045579807.jpg

图像翻译

  图像翻译的任务是基于样本生成输出。

1623916062232202.jpg

位置识别

  地点识别的任务是快速准确地识别给定查询照片的位置。

1623916077957722.jpg

使(模糊的图像)变清晰

  图像去模糊的任务。

1623916094423429.jpg



评论


相关推荐

技术专区

关闭