VAD打断方案

jyqc688

浏览: 140554 次
性别:
来自: 北京

最近访客更多访客>>

lliiqiang

cyj1988jyc

hejin_sl

coollyj

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

FreeSWITCH

什么是打断

打断，就是机器人说话的时候，用户没等机器人说完，就开始说话。一般做法是检测到用户声音持续100-200ms就停止机器人说话，这样存在一个弊端，就是如果噪音很大的环境，或者用户身边有人说话，会导致错误的打断，本文主要介绍几个方法，来避免这个问题。

动态最小声音时间

VAD有这样一个参数 min_speak_ms [数字] 可选参数默认100ms 最小的声音时间单位毫秒，默认值 100ms。

这个参数的含义是，设置一个最小的声音时间，只有声音持续时间超过这个值才认为是有效声音，触发打断和提交到ASR服务器识别。

为什么我选择了这个100ms作为这个默认值呢，因为电话接通后，很多人习惯说一声”喂”，或者”您好”, “喂”的持续时间一般是100-200s,”您好”的持续时间是 200-300ms.

开发业务流程的时候，可以动态设置这个值，来避免无效声音打断，比如电话接通后的第一个声音，设置100ms,后续声音设置，200-300ms。就可以非常有效避免错误打断。

关键词打断

2.1版本已经实现，用户停顿一下就提交ASR识别，把识别结果发送给业务程序，就是让业务程序控制是否需要打断。

检测到说话声音先暂停放音，识别不到有效文字后，恢复放音

VAD模块检测到用户声音后，暂停播放机器人说话声，同时开始提交声音流到ASR服务器识别，如果ASR服务器返回的不是有效语句，恢复机器人说话（不是简单的从暂停的地方开始，而是利用VAD算法，定位到最近声音的起点，然后开始播放）下面举个例子说明。

机器人：你好，我是XX售楼部，请问你最近有（这个时候检查到用户端声音，暂停播放）

ASR识别到的文字不是有效回答。可能是环境噪音等。机器人恢复说话。

机器人：请问你最近有打算买房吗。（利用VAD检测到打断点最近一个句子的开始位置开始放音，不再重复播放“你好，我是XX售楼部”，也不是简单的从打断点开始播放）。

这个方案，可以有效的解决环境噪音等打断，导致机器人说话给停止，可以像真人一样，听到用户声音停顿一下继续接着说下去。

转自：http://www.ddrj.com/smartivr/break.html

分享到：

asterisk拨号方案的配置

2018-02-09 10:28
浏览 2379
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论