在iOS中同时pipe理文本到语音和语音识别

我希望我的iOS应用程序使用文本到语音向用户读取从服务器接收的一些信息,并且还希望允许用户通过语音命令来停止这种语音。 我已经尝试过iOS的语音识别框架,比如OpenEars ,我发现它正在侦听和检测应用程序本身是“说”的信息,并干扰了用户语音命令的识别。

有人在iOS处理这种情况,并find了解决scheme吗? 提前致谢

这并不是一件微不足道的事情。 不幸的是,iOS和其他人logging了通过扬声器播放的声音。 您唯一的select是使用耳机。 在这种情况下,语音识别可以继续监听input。 在TTS期间,除非耳机插入,否则在Openers中识别被禁用。

如果你仍然想要实现这个被称为“插入”的function,你必须做到以下几点:

  1. 通过麦克风存储您播放的audio
  2. 执行噪音消除algorithm,有效地将录音中的audio去除。 您可以使用互相关在录音和频谱相减中find适当的偏移量以消除audio。
  3. 识别剩余信号中的语音。

如果没有对开放源代码进行重大修改,这是不可能的。

相关的问题是音乐播放时的Android语音识别