TinyTTS —— 让照片“开口说话”的神经语音模块 一种完全离线的嵌入式神经语音相册方案
项目难度:初学者
制作时间:约 2 小时
提供完整说明与可直接运行 Demo

项目简介
TinyTTS 是一个运行在微控制器上的离线神经语音合成(TTS)模块。
在本项目中,它被用来实现一个极具情感表达力的应用:会说话的照片。
用户只需为每一张照片写下几句简短的文字,当相册被翻阅时,设备便会自动朗读这些文字,仿佛照片本身在讲述回忆。
公式非常简单:
照片 + 文本 → 语音
但最终呈现的效果,却远远不只是技术本身,而是情感。
设计初衷与故事背景
当我们翻看旧照片时,大脑会自动补全声音:
厨房里的笑声、车站的背景噪音、有人轻声说一句“还记得吗?”
这个项目的初衷,正是让这些声音不只存在于记忆中。
最初的形态是一个 Family Storyteller(家庭故事机):
几张童年照片、几句关于趣事的文字,按下播放键,相框便开始“说话”——完全离线。
随后,这个想法扩展成了 Talking Places(会说话的地点):
打开一张旅行照片,仿佛城市本身在低声讲述故事,指引你下一步该去哪里。
项目核心特点
完全离线运行(无云端、无网络、无延迟)
神经语音合成在本地 MCU 上完成
图像 + 文本 + 语音的高度整合
用户可控制播放顺序、节奏与停顿
极低系统复杂度,极高情感表现力
适用于家庭、博物馆、教育、旅行展示等场景
系统组成
硬件组件

TinyTTS 套件(Elecrow / Tindie)
内置神经网络 TTS 引擎的语音模块
CrowPanel Advanced(ESP32-S3)
显示控制、UI、存储与通信主控
扬声器(连接至 TinyTTS 音频输出)
软件环境
Arduino IDE(可选)
ESP-IDF(v5.4)
提供完整预编译固件与源码构建方式
快速开始(Ready Demo)
















评论