专栏中心

EEPW首页 > 专栏 > 聆思CSK6大模型多模态语音交互开源SDK介绍

聆思CSK6大模型多模态语音交互开源SDK介绍

发布人:ListenAI 时间:2024-06-13 来源:工程师 发布文章

聆思CSK6大模型多模态SDK除了支持语音交互之外,还支持图像方面的交互,包括对图像的识别以及图片生成。用户可以通过语音交互、摄像头拍照作为交互入口,实现与大模型的多模态交互。


SDK主要包含以下功能:

●语音交互:支持按键录音或唤醒后通过语音与大模型进行对话

●拍照识图:支持通过摄像头拍摄图像并上传给大模型进行识别,支持依据识图内容进行提问

●图片生成:支持通过语音交互描述画面内容,令大模型生成图片并显示至套件屏幕上



语音交互模式支持的语音交互模式

多模态SDK支持三种交互方式,其特点如下:

模式

唤醒方式

交互方式

按键交互

按下屏幕麦克风图标或开发板K3按键

按住按键说话,松开提交

语音唤醒(单轮)

唤醒词 “小美小美”

听到提示音 “在呢” 后进行提问,每次提问均需要唤醒

语音唤醒(多轮)

唤醒词 “小美小美”

听到提示音 “在呢” 后进行提问,可持续对话,当超过20秒无语音输入时自动结束本次交互


语音交互模式的切换

在待机页面,下滑可调出下滑菜单,点击下滑菜单中的 设置图标,可进行配置页面:

选中对应的模式后,点击左上角即可回到待机页面并生效。


按键交互模式

设置成按键交互(按键唤醒)模式下,按住屏幕上的麦克风按钮或开发板上的K3按键,即进入录音状态,松开按键则结束录音并提交。


语音唤醒模式

当设置为语音唤醒(单轮)语音唤醒(多轮),可通过唤醒词 —— “小美小美” 对设备进行唤醒,当听到 “在呢” 的提示音后,即可正常进行语音输入。

退出对话

在使用过程中,点击左上角结束本轮对话回到待机页面,此操作会同步清除本次对话的上下文信息。



拍照识图

在待机页,点击拍照按钮即可进入取景页面,对准要拍照的物体,点击右侧中间的拍照键完成抓拍,确认画面抓拍正常后(无晃动模糊的情况),点击右侧的 √ 进行提交识别:


文生图

在设备进入语音交互状态后,可以通过带有绘画意图的提示词让大模型进行作画,比如:

●“画一只熊猫”

●“画一个人正在使用电脑”

SDK资源下载

语音视觉大模型开发板 SDK:https://cloud.listenai.com/CSKG962172/duomotai_ap/-/tree/master/

DEMO固件下载:https://docs2.listenai.com/x/UzjbjIAxw



*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

关键词: 聆思csk6 大模型开发板 Zephyr RTOS CSK6011A

相关推荐

新版本GUI Guider驾到!多项重磅更新,让你的HMI开发更智能、更高效!

嵌入式系统 2025-02-08

RTOS课程建设

从系统设计到源代码:Tobias Kästner 谈 Zephyr

风河进一步扩展VxWorks RTOS实时容器领导地位

2025年需要考虑的6大实时嵌入式技术

实时系统的实现(PDF)

资源下载 2007-02-09

IAR加入Zephyr项目成为银牌会员,强化对开源协作的承诺

DSP开发全过程经典

资源下载 2007-12-29

RX系列软件的进化史和对未来的展望 #1

网络与存储 2023-11-17

RTOS和CPU指令设计—uc/os—||| 的启示

视频 2011-01-07

QNX 的 RTOS 平台

嵌入式MCU程序框架设计:三种经典模式,你该选哪种?

RTOS 姐妹花 - (陈明计专题)

学RTOS从配置文件开始!

2024-12-24

嵌入式系统的创新:RTOS与MCU的协同运作

Stella:Self-Balancing Robot Powered by Nucleus RTOS on TI Stellaris

视频 2012-03-30

IAR平台现已提供对Zephyr RTOS的量产级支持

嵌入式系统 2025-07-09
更多 培训课堂
更多 焦点
更多 视频

技术专区