描述
<ul>
<li>
<p><strong>多语种语音识别与交互</strong>:支持中文(普通话与粤语)、英语、日语、韩语等识别,通过 ESP-SR 实现离线语音唤醒,并通过 WebSocket 或 UDP 协议实现实时语音流对话。<a href="https://zhuanlan.zhihu.com/p/1889076543977919785?utm_source=chatgpt.com" target="_blank">知乎专栏</a></p>
</li>
<li>
<p><strong>大模型驱动的对话能力</strong>:</p>
<ul>
<li>
<p>使用 Qwen、DeepSeek、Doubao 等大语言模型提供智能文本对话(LLM)。</p>
</li>
<li>
<p>利用火山引擎或 CosyVoice 提供自然语音合成(TTS)。</p>
</li>
</ul>
</li>
<li>
<p><strong>高级交互特性</strong>:</p>
<ul>
<li>
<p>支持点击和长按 BOOT 键唤醒与中断对话。</p>
</li>
<li>
<p>集成声纹识别,辨认是谁在唤醒 AI。</p>
</li>
<li>
<p>短期记忆机制,能够在每轮对话后自我总结以提升连贯性。</p>
</li>
</ul>
</li>
<li>
<p><strong>显示与反馈界面</strong>:</p>
<ul>
<li>
<p>OLED 或 LCD 屏幕显示对话内容、信号强度,以及图片表情,增强互动体验。</p>
</li>
</ul>
</li>
<li>
<p><strong>联网方式灵活</strong>:</p>
<ul>
<li>
<p>支持 Wi-Fi 与 ML307 Cat.1 4G 模块连接,联网能力强和适应性高。</p>
</li>
</ul>
</li>
</ul>
评论(0)