描述

<ul> <li> 多语种语音识别与交互：支持中文（普通话与粤语）、英语、日语、韩语等识别，通过 ESP-SR 实现离线语音唤醒，并通过 WebSocket 或 UDP 协议实现实时语音流对话。<a href="https://zhuanlan.zhihu.com/p/1889076543977919785?utm_source=chatgpt.com" target="_blank">知乎专栏</a> </li> <li> 大模型驱动的对话能力： <ul> <li> 使用 Qwen、DeepSeek、Doubao 等大语言模型提供智能文本对话（LLM）。 </li> <li> 利用火山引擎或 CosyVoice 提供自然语音合成（TTS）。 </li> </ul> </li> <li> 高级交互特性： <ul> <li> 支持点击和长按 BOOT 键唤醒与中断对话。 </li> <li> 集成声纹识别，辨认是谁在唤醒 AI。 </li> <li> 短期记忆机制，能够在每轮对话后自我总结以提升连贯性。 </li> </ul> </li> <li> 显示与反馈界面： <ul> <li> OLED 或 LCD 屏幕显示对话内容、信号强度，以及图片表情，增强互动体验。 </li> </ul> </li> <li> 联网方式灵活： <ul> <li> 支持 Wi-Fi 与 ML307 Cat.1 4G 模块连接，联网能力强和适应性高。 </li> </ul> </li> </ul>