Tag: 语音识别

在iOS中同时pipe理文本到语音和语音识别

我希望我的iOS应用程序使用文本到语音向用户读取从服务器接收的一些信息,并且还希望允许用户通过语音命令来停止这种语音。 我已经尝试过iOS的语音识别框架,比如OpenEars ,我发现它正在侦听和检测应用程序本身是“说”的信息,并干扰了用户语音命令的识别。 有人在iOS处理这种情况,并find了解决scheme吗? 提前致谢

使用AVAudioEngine语音识别录制后的声音块

我试图运行苹果SpeakToMe:使用语音识别与AVAudioEngine样本从他们的网站在这里 。 我的问题是,当你停止AVAudioEngine和SpeechRecognizer你不能再使用系统声音。 如何释放AVAudioEngine和SpeechRecognizer以使声音在录制停止后再次工作? 要复制这个: 下载示例代码 添加一个UITextField到故事板。 运行项目并键入到文本字段(您会注意到您可以听到您的键入事件的声音)。 然后开始录制并停止录制 再次input文本字段(现在不会有声音) UPDATE 这只发生在一个真实的设备 – 不是在模拟器上。

手机连续语音识别

我想在Android和IOS中使用持续的语音识别在phonegap中创build应用程序。 我的应用程序应该等待用户的声音,当他/她说“下一个”,应用程序应该更新屏幕,并采取一些行动。 我find这个插件: https : //github.com/macdonst/SpeechRecognitionPlugin ,它的工作非常快。 但是在语音识别开始几秒之后,没有语音,语音识别器停止。 有没有像isSpeechRecognizerAlive或任何其他解决scheme的方法或标志? 或者有可能将其作为服务运行? 我也想知道IOS是否有类似的插件,以及如何pipe理它:)

iOS 10.0语音识别错误kAFAssistantErrorDomain

我尝试使用下面的语音识别 let urlpath = Bundle.main().pathForResource("myvoice2", ofType: "m4a") let url:URL = URL.init(fileURLWithPath: urlpath!) let recognizer = SFSpeechRecognizer() let request = SFSpeechURLRecognitionRequest(url: url) recognizer?.recognitionTask(with: request, resultHandler: { (result, error) in print (result?.bestTranscription.formattedString) }) 结果是零,我debugging,看到如下错误 Error Domain=kAFAssistantErrorDomain Code=1101 "(null)" 你有什么主意吗?

iOS Speech API是否支持语法?

我正在研究各种语音识别策略,并且喜欢Web Speech规范中定义的语法思想。 看起来,如果您可以告诉您的语音识别服务您期望“是”或“否”,服务可以更可靠地将“是”认定为“是”,“否”为“否”,并且希望也能够说“这听起来不像这些!” 但是,在SFSpeechRecognitionRequest ,我只能从SFSpeechRecognitionTaskHint confirmation , dictation , search和unspecified值中看到taskHint 。 我也看到SFSpeechRecognitionRequest.contextualStrings ,但它似乎是为了一个不同的目的。 也就是说,我想我应该把品牌/商标类的东西放在那里。 把“是”和“否”放在一起不会使这些单词更可能被选中,因为它们已经存在于系统字典中(这是基于文档说明的一个假设)。 用API来做更像语法的一种方式,或者更简单地说,只是提供一个预期的短语列表,以便语音识别更有可能产生我期待的结果,而不是类似听起来的乱码/同音字词? contextualStrings可能会增加系统select其中一个string而不是扩展系统字典的可能性吗? 或者,也许我采取了错误的做法,我应该强制执行我自己的语法和枚举SFSpeechRecognitionResult.transcriptions直到我find一个匹配的预期单词? 不幸的是,我无法亲自testing这些API。 我只是在研究编写本机iOS应用程序的可行性,而没有必要的开发环境。

iOS的声学指纹代码?

我已经开始关注声学指纹(http://en.wikipedia.org/wiki/Acoustic_fingerprint)这个主题,为我的iOS的宠物项目,我想知道是否有: 任何开源库或处理这个iOS的源代码? 假设我是所有交易编码器的老手,如果没有开源版本,自己实现这个问题是非常有问题的吗? iOS中的加速DSP库能够处理这样的任务吗? 谢谢

用户说完后停止语音识别

Siri在完成发言时如何能够确定。 我想知道的原因是,我想用我的应用程序与苹果的语音识别API实现类似的function。 这是可行的,还是通过用户input知道用户什么时候停止讲话的唯一途径?

ios语音转换为文本

我想将口语转换为文本,所以我可以在我的应用程序中使用nslinguistictagger。 我怎样才能将语言转换为文本? 有什么select? Opennears是否支持语音到文本的转换?

添加iOS语音识别支持的Web应用程序?

目前,HTML5networking语音API在除了移动iOS之外的所有设备的谷歌浏览器上效果很好。 文字到语音的作品,但不支持语音到文字。 webkitSpeechRecognition不受支持。 请参阅: Chrome iOS Webkit语音识别 我无法find解决方法。 我想添加语音识别支持iOS到我目前使用语音识别和语音合成的networking应用程序。 有什么build议么? 谢谢。

iOS / C:检测音素的algorithm

我正在寻找一种algorithm来确定实时audioinput是否与144个给定的(和舒适的不同的)音素对之一相匹配。 最好是做这项工作的最低级别。 我正在开发用于iPhone / iPad的激进/实验音乐培训软件。 我的音乐系统包括12个辅音音素和12个元音音素, 在这里演示。 这使得144个可能的音素对。 学生必须响应视觉刺激,唱出正确的音素“laa duu bee”等。 我已经做了大量的研究,看起来我最好的select可能是使用iOS Sphinx封装( iPhone App> Add voice recognition?是我find的最好的信息来源)。 然而,我看不出我将如何适应这样一个包,有经验的人使用这些技术之一是否会给出一个基本的步骤所需的概要? 用户需要培训吗? 我想不会,因为它是这样一个基本的任务,相比之下,与数千个单词和更大,更微妙的音素基地的全语言模型。 然而,让用户训练12个音素对是可以接受的(不理想的):{辅音1 +元音1,辅音2 +元音2,…,辅音12 +元音12}。 满144会太麻烦。 有一个更简单的方法吗? 我觉得使用全function的连续语音识别器是使用大锤来破解一个坚果。 使用能够解决问题的最低限度的技术将会更加优雅。 所以真的我正在寻找任何识别音素的开源软件。 PS我需要一个运行非常实时的解决scheme。 所以即使他们正在唱着这个音符,它也会先闪烁,说明它拿起了被唱过的音位,然后发光,以说明他们是否正在唱出正确的音符音调