博客专栏

EEPW首页 > 博客 > ECCV 2022丨轻量级模型架构火了，力压苹果MobileViT（附代码和论文下载）

ECCV 2022丨轻量级模型架构火了，力压苹果MobileViT（附代码和论文下载）

发布人：CV研究院时间：2022-08-20 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

论文地址：https://arxiv.org/abs/2203.03952

代码地址：https://github.com/hkzhang91/ParC-Net

01

概述

最近，vision transformers开始显示出令人印象深刻的结果，显着优于基于大型卷积的模型。然而，在移动或资源受限设备的小型模型领域，ConvNet在性能和模型复杂度方面仍然具有自己的优势。研究者提出了ParC-Net，这是一种纯基于ConvNet的骨干模型，通过将vision transformers的优点融合到ConvNet 中，进一步增强了这些优势。

ConvNet与ViT模型图像分类实验结果对比

具体来说，研究者提出了位置感知循环卷积（ParC），这是一种轻量级的卷积运算，它拥有全局感受野，同时产生与局部卷积一样的位置敏感特征。将ParCs和squeeze-exictation ops结合起来形成一个类似于元模型的模型块，它还具有类似于transformers的注意力机制。上述块可以即插即用的方式使用，以替换ConvNets或transformers中的相关块。

实验结果表明，在常见的视觉任务和数据集中，所提出的ParC-Net比流行的轻量级ConvNets和基于vision transformers的模型具有更好的性能，同时具有更少的参数和更快的推理速度。对于ImageNet-1k上的分类，ParC-Net在大约500万个参数的情况下实现了78.6%的top-1准确率，节省了11%的参数和13%的计算成本，但准确率提高了0.2%，推理速度提高了23%（基于ARM的Rockchip RK3288)与MobileViT相比，仅使用0.5倍的参数，但与DeIT相比获得了2.7%的准确度。在MS-COCO目标检测和PASCAL VOC分割任务上，ParC-Net也表现出更好的性能。

02

背景

然而，我们认为ViTs和ConvNets都是不可或缺的，原因如下：1）从应用的角度来看，ViTs和ConvNets都有其优点和缺点。ViT模型通常具有更好的性能，但通常计算成本高且难以训练。与ViTs相比，ConvNets可能表现出较差的性能，但它们仍然具有一些独特的优势。例如，ConvNets具有更好的硬件支持并且易于训练。此外，正如[Jianyuan Guo, Kai Han, Han Wu, Chang Xu, Yehui Tang, Chunjing Xu, and Yunhe Wang. Cmt: Convolutional neural networks meet vision transformers.]和研究者的实验中总结的那样，ConvNets在移动或边缘设备的小型模型领域仍然占主导地位。2）从信息处理的角度来看，ViTs和ConvNets都具有独特的特征。ViT擅长提取全局信息，并使用注意力机制从输入数据驱动的不同位置提取信息。ConvNets专注于对局部关系进行建模，并且通过归纳偏置具有很强的先验性。上述分析自然提出了一个问题：我们能否向ViT学习以改进用于移动或边缘计算应用的ConvNet？

ViT论文：https://arxiv.org/abs/2010.11929

ConvNeXt论文：https://arxiv.org/abs/2201.03545

03

新框架

研究者们取ViT的三个亮点，将纯卷积结构变强。研究者认为，ViT和ConvNet有三个主要区别：ViT更擅长提取全局特征，采用meta-former结构，而且信息集成由数据驱动。ParC的设计思路便是从这三点着手来优化ConvNet。

普通ConvNet和ViT之间的三个主要区别。a)ConvNet常用的Residual block；b)ViT中常用的Meta-Former 结构；c)研究者提出的ParC block。

具体而言，研究人员设计了一种位置信息敏感的循环卷积（Position aware circular convolution, ParC）。这是一种简单有效的轻量卷积运算算子，既拥有像ViT类结构的全局感受野，同时产生了像局部卷积那样的位置敏感特征，能克服依赖自注意力结构提取全局特征的问题。

Position aware circular convolution

水平方向的全局循环卷积可以看到ParC-H沿着通过连接输入的开始和结束生成的圆执行卷积。因此，研究者将提出的卷积命名为循环卷积。提议的ParC引入了三个修改：

结合circular padding和大感受野低秩分解卷积核提取全局特征；
引入位置嵌入，保证输出特征对于空间位置信息的敏感性；
动态插值实时生成尺寸适配的卷积核和位置编码，应对输入分辨率变化情况，这增强了对不同尺寸输入的适应能力。

研究者还将ParC和squeeze exictation结合起来，构建了一个纯卷积结构的meta former结构。该结构舍弃了自注意力硬件支持不友好的操作，但保留了传统Transformer块提取全局特征的特点。研究者还在channel mixer部分引入硬件支持较友好的通道注意力机制，使其纯卷积meta former结构也具备自注意力的特点。

基于ParC结构最终得到的ParC块，可作为一个即插即用的基础单元，替换现有ViT或ConvNet模型中的相关块，从而提升精度，并降低计算成本，有效克服硬件支持的问题。

三种主要的混合结构。(a) serial structure; (b) parallel structure; (c) bifurcate structure。

04

实验分析

在图像分类实验中，对于ImageNet-1k的分类，ParC-Net使用的参数规模最小（约500万个参数），却实现了最高准确率78.6%。

MobileViT是Apple2022年在国际深度学习顶会ICLR22上提出的轻量级通用ViT模型。同样部署在基于Arm的瑞芯微RK3288芯片上，相较基线模型MobileViT，ParC-Net节省了11%的参数和13%的计算成本，同时准确率提高了0.2%，推理速度提高了23%。

MS-COCO物体检测实验结果

PASCAL VOC分割任务实验结果

研究者将ParC-Net和基线模型MobileVit均部署到自研低功耗芯片DP上进行推理速度测试。从实验结果可以看到，ParC-Net的推理速度能够达到MobileViT速度的3~4倍。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。

linux操作系统文章专题:linux操作系统详解（linux不再难懂）

<a href='https://ad.eepw.com.cn/www/delivery/ck.php?n=a7a83b30&cb=INSERT_RANDOM_NUMBER_HERE' target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a href='https://ad.eepw.com.cn/www/delivery/ck.php?n=a3d98779&cb=INSERT_RANDOM_NUMBER_HERE' target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a href='https://ad.eepw.com.cn/www/delivery/ck.php?n=abca108c&cb=INSERT_RANDOM_NUMBER_HERE' target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a href='https://ad.eepw.com.cn/www/delivery/ck.php?n=a1775170&cb=INSERT_RANDOM_NUMBER_HERE' target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a href='https://ad.eepw.com.cn/www/delivery/ck.php?n=a449048b&cb=INSERT_RANDOM_NUMBER_HERE' target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

关键词： AI

相关推荐

苹果承认：AI模型使用谷歌定制芯片训练

智能计算苹果 AI 谷歌定制芯片 | 2024-07-30

EEPW2018年6月刊(5G)

资源下载 5G AI | 2018-06-11

WTC-AI太阳能热水器电路图

设计方案 WTC-AI 太阳能热水器电路图 | 2012-07-24

海联达（Aigale）Ai-HD1 无线全高清套件拆解

zhuwei0710 | 2013-04-28

继上次海联达Ai-ap100拆机之电源改造

zhuwei0710 | 2013-04-03

2021春晚黑科技，火爆全网的\"打工牛\"是什么来头？

视频 AI 机器人 | 2021-02-26

CSR8670CSR8675智能语音Alexa蓝牙方案开发

资源下载 AI 智能语音 | 2017-12-14

AI+机器视觉成趋势，图文详解N大应用场景

智能计算安森美 AI 机器视觉 | 2024-07-31

释说芯语16：硬科技：构建企业未来之路（附PPT）

jackwang | 2018-10-22

万家乐JSYZ5-AI燃气热水器电路图

设计方案电路图热水器燃气 JSYZ5-AI 万家乐 | 2013-01-17

Nvidia的CEO谈AI的未来：“我们将需要三台电脑... 一台来创建AI... 一台来模拟AI... 一台来运行AI”

智能计算 AI | 2024-07-31

WTC-AI型太阳能热水器电路图

设计方案电子电路图，WTC-AI 太阳能热水器电路热水器 | 2012-07-30

国际奥委会：最大限度发挥 AI 工具影响力，体育人才选拔方式有望得到革新

智能计算 AI 奥运会体育 | 2024-07-26

深圳加快打造 AI 先锋城市，今年将建成 4000PFLOPS 算力智算中心

智能计算 AI 智能计算深圳 | 2024-07-30

加大调整力度，教育部支持高校布局集成电路、AI 等专业

智能计算教育 AI 集成电路 | 2024-07-25

AI驱动的嵌入式声音和振动识别

视频 ADI AI 嵌入式 OtoSense | 2018-10-23

iCAN-4017 AI功能模块

资源下载周立功单片机功能模块 iCAN-4017 AI | 2007-03-30

iPhone 16将不会预装AI功能？计划通过iOS 18.1发布

iPhone AI iOS | 2024-07-30

如何快速搭建手写体识别演示系统

视频 digikey AI 手写体识别 | 2022-07-29

瑞萨电子AI单元解决方案成功提高GE医疗（日本）日野工厂的生产力

winni945 | 2018-09-12

人工智能是如何帮助阻止造假者的？

谢丫丫 | 2018-08-14

苹果表示其AI模型是在谷歌的定制芯片上训练的

智能计算 AI | 2024-07-30

大嘴业话-AI目前市场分析

视频人工智能，AI，ChatGPT，互联网技术 | 2023-04-25

攻击成功率从 3% 到接近 100%，利用空格键可绕过 Meta AI 模型安全系统

智能计算 Meta AI | 2024-07-31

EEPW2018年3月刊(工业物联网)

资源下载工业物联网 AI | 2018-03-12

电子元件培训教材

资源下载 NBA 电子元件识别电阻识别电容识别 AI MI SMT DIP 静电防护 | 2008-09-20

“破局AI开发，释放边缘算力开发者访谈”，干货满满！

视频 intel AI OpenVINO | 2021-06-10

摩根士丹利：仅 GB200 AI 服务器业务，就为英伟达创造 2100 亿美元年收入

智能计算 GB200 AI 英伟达 GPU | 2024-07-26

焦点

推荐视频

更多>>

技术专区

关闭