"); //-->
数据常常分散在客户服务器;
有些数据是动态生成、无法导出;
板端资源有限,难以长期驻留模型或数据。
优点:
无需开发板,部署轻量;
适合多模型结构快速迭代验证;
缺点:
本地仿真推理因为缺少了专用板端硬件参与,速度相对较差。
优点:
数据留在服务端,可动态调度;
使用板端 硬件推理,速度较快,且度评估基于真实 BPU,结果可靠;
缺点:
网络带宽影响推理效率;
需依赖板端资源;
优点:
推理速度最快,完全无网络瓶颈;
精度结果与部署完全一致;
缺点:
需预先准备所有测试数据;
动态输入或在线调试能力较弱
重度需依赖板端资源;
# 安装核心组件 1. hbm_infer的使用依赖算法工具发布的docker环境,因此在使用hbm_infer前需要先构建后DOCKER环境,然后在容器中安装hbm_infer组件 2. 在NDA支持下获取hbm_infer python安装包,进入docker环境后使用pip install 安装后使用
import torch
import time
from hbm_infer.hbm_rpc_session import HbmRpcSession
def test_hbm_infer():
hbm_model = HbmRpcSession(
host="192.168.1.100", # 板端 IP
local_hbm_path="./model.hbm"
)
hbm_model.show_input_output_info()
data = {
"input_0_y": torch.randint(0, 256, (1, 512, 960, 1), dtype=torch.uint8),
"input_0_uv": torch.randint(0, 256, (1, 256, 480, 2), dtype=torch.uint8),
}
begin = time.time()
for _ in range(10):
outputs = hbm_model(data)
print({k: v.shape for k, v in outputs.items()})
print(f"Avg time: {round((time.time()-begin)*1000 / 10, 2)} ms")
hbm_model.close_server()
if __name__ == "__main__":
test_hbm_infer()from hbm_infer.hbm_rpc_session_flexible import (
HbmRpcSession, init_server, deinit_server, init_hbm, deinit_hbm
)
import torch, time
def test_flexible():
server = init_server(host="192.168.1.100")
handle = init_hbm(hbm_rpc_server=server, local_hbm_path="./model.hbm")
hbm_model = HbmRpcSession(hbm_rpc_server=server, hbm_handle=handle)
data = {
"input_0_y": torch.randint(0, 256, (1, 512, 960, 1), dtype=torch.uint8),
"input_0_uv": torch.randint(0, 256, (1, 256, 480, 2), dtype=torch.uint8),
}
begin = time.time()
for _ in range(10):
outputs = hbm_model(data)
print({k: v.shape for k, v in outputs.items()})
print(f"Avg time: {round((time.time()-begin)*1000 / 10, 2)} ms")
hbm_model.close_server()
deinit_hbm(handle)
deinit_server(server)
if __name__ == "__main__":
test_flexible()板端与服务端建议处于同网段或直连,降低传输延迟;
对于批量推理任务,可提前批量加载数据并串行发送;
支持 with_profile=True 打开性能日志分析;
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
有关指纹算法
PID算法
面向算法硬件加速的FPGA实现方法
采用Mean-Shift和Camshift算法相结合的火焰视频图像跟踪设计
vxwokrs下静态图像压缩算法(上)
曲面显示屏取代传统汽车挡风玻璃
无线传感器网络低功耗分簇路由算法设计
加密算法之MD5算法
地平线征程 6 系列集成 Cadence Tensilica Vision DSP,实现规模化量产,合作加速智能驾驶解决方案部署
Ouster推出 Rev8 OS 激光雷达系列 原生彩色激光雷达正式落地
掘金自动驾驶,不要把大坑当机会
自动驾驶正推动汽车行业加速布局人形机器人
实时训练驾驶人工智能
2035年自动驾驶出租车市场规模将达1680亿美元
基于LPC2138的血压测量算法开发平台电路图
高阶智驾要落地,线控底盘为什么必须执行得准
76-81GHz自动驾驶CMOS RADAR
恩智浦第三代雷达收发器助力高性能成像雷达规模量产,赋能L2+至L4级自动驾驶
加快实现自动驾驶(完整小组讨论)
计算机科学与技术反思录(2)
目标跟踪算法在红外热成像跟踪技术上的应用
CRC算法原理及C语言实现
自动驾驶的现状与未来(节选)
[转帖]us/os就绪表的维护算法分析
携手ADI赢得未来
数字PID控制及其改进算法的应用
ADI:传感技术助力未来自动驾驶的发展
求FSK信号的解调算法,主要是铁路上的移频信号!
简单实用的单片机CRC 快速算法
数字PID控制算法之一