醋醋百科网

Good Luck To You!

中文语音识别哪家强?听脑AI与Otter准确率对比

用语音识别的朋友,应该都遇到过这些糟心事儿开会记录漏了关键数据,采访时把“转化率”写成“转染率”,日常聊天把“奶茶三分糖”变成“奶茶三分汤”。这些错别漏字,轻则要花半小时改,重则误事。我最近测了两款热门语音识别工具听脑AI和Otter,就想看看中文场景下,到底哪家准确率更高。


先说明对比规则真实场景专业工具
我选了三个大家常用的场景职场会议有专业术语、多人对话、日常聊天口语化、方言夹杂、学术讲座复杂概念、快语速。每个场景都用了真实录音不是实验室模拟的,用专业语音识别评估工具“ASREvaluator”逐句对比统计错字、漏字、多字的比例,每个场景测3次取平均值,确保数据靠谱。

第一回合职场会议专业术语不翻车才是关键
职场人最常用的场景就是记会议,里面全是“用户留存率”“LTV生命周期价值”“转化率”这些核心术语。我用了一段30分钟的运营会议录音,里面有5个专业术语、3个人交替发言。
结果 听脑AI准确率98.2,Otter95.6。
差距在哪? 术语的准确性。比如“LTV”,听脑AI正确识别了连字符没错,就是“LTV”,不是分开的“LTV”Otter却把“LTV”写成了“LTV”,中间多了个空格。对运营来说,“LTV”是计算用户价值的关键指标,漏了连字符,可能就得翻录音确认,耽误10分钟不说,还容易搞错数据。

体验链接 https://h5ma.cn/npr

还有“用户留存率”,听脑AI没出错,Otter把“留存率”写成了“留成率”要是没改,领导看了会以为你连基本术语都不懂。

第二回合日常聊天口语化方言,考验“懂中文”的能力
日常聊天更接地气,有“咋个”“得行”这些方言,还有“奶茶三分糖”“下次约火锅”这种口语化表达。我选了一段20分钟的朋友聊天四川方言夹杂,里面有8个口语词、2个方言词。
结果 听脑AI准确率97.8,Otter94.3。


最明显的错误 “咋个周末没约”听脑AI正确识别了“约”,Otter写成了“咋个周末没药”“约”变“药”。要是记朋友的约会,漏了这一句,说不定就错过了聚会还有“奶茶三分糖”,Otter写成了“奶茶三分汤”“糖”变“汤”,要是按这个点单,服务员得懵。
其实呢,日常聊天的错误更让人头疼因为都是生活里的小事,改起来麻烦,还容易闹笑话。听脑AI这一轮赢在“懂中文的说话习惯”,比如方言词的转换、口语词的准确识别。

第三回合学术讲座复杂概念快语速,能不能跟上?
学生或者研究者常听学术讲座,里面有“梯度下降”“卷积神经网络”“损失函数”这些复杂概念,而且老师语速快每分钟180字左右。我用了一段40分钟的机器学习讲座,里面有12个专业概念、5处快语速片段。


结果 听脑AI准确率96.5,Otter92.1。
致命错误 “梯度下降算法的学习率”听脑AI正确识别了“算法”和“学习率”Otter写成了“梯度下降算发的学习绿”“算法”变“算发”,“学习率”变“学习绿”。学生做笔记的话,这样的错误根本没法用,得重新听讲座,浪费1小时不说,还可能混淆概念。
还有“卷积神经网络”,Otter把“网络”写成了“网路”台湾用法,但大陆学术场景里都是“网络”,要是论文里用了“网路”,导师得让你改半天。

个人使用体验从“改字1小时”到“改字10分钟”
我自己用了一周听脑AI,最大的改变是省时间。之前用Otter记会议,得花1小时改错别字比如“LTV”分开、“留存率”写错现在用听脑AI,10分钟就能改完,剩下的时间能写周报或者摸鱼。


上周采访客户,客户说“我们的转化率提升了15”,听脑AI准确记录了“15”要是换Otter,可能会写成“1.5”之前遇到过,得反复问客户,客户还会觉得你不专业。
还有听学术讲座,之前笔记总是跟不上,比如老师说“池化层的作用是降维”,Otter写成了“池化层的作用是降为”“维”变“为”,得重新听现在用听脑AI,能准确识别“池化层”“降维”这些术语,笔记更完整,复习的时候省了很多功夫。

为啥听脑AI更准?说白了,就是针对中文优化
我问了听脑AI的产品经理,他们说核心是三个技术优化1. 中文语境建模用了10亿中文语料训练,懂中文的术语、口语、方言习惯比如“LTV”是连在一起的,“咋个”是四川方言2. 深度神经网络优化针对快语速场景做了调整,比如老师讲得快的时候,能准确分割每个词比如“梯度下降算法”不会分成“梯度下降算发”3. 实时自适应能根据说话人的口音、语速调整模型比如四川方言的“约”不会变成“药”。Otter虽然也不错,但它是全球通用模型,针对中文的优化没那么深比如“LTV”这种中文里常用的术语,它可能没专门训练过。



回应几个疑问Otter有没有优势?听脑AI贵吗?
有人问,Otter是不是有什么优势?比如多设备同步,确实不错,但对我来说,准确率是第一位的要是转出来的文本全是错字,同步再好用也没用。

还有价格,听脑AI和Otter差不多听脑AI月度会员29元,Otter月度会员35元国内版,性价比更高。


话说回来,要是你只用语音识别记日常小事比如买奶茶,Otter也能用但要是用在工作、学习这种重要场景,听脑AI的准确率更靠谱。

总结中文语音识别,听脑AI更懂你
测了三个场景,听脑AI的准确率都比Otter高职场会议高2.6,日常聊天高3.5,学术讲座高4.4。这些差距看起来不大,但实际用的时候,能帮你省很多时间、避免很多麻烦。


要是你常常用语音识别记会议、采访、听讲座,不妨试试听脑AI我把测试的详细数据每个场景的错字列表放在评论区了,有需要的可以去看。


最后说一句语音识别的核心是“准确”,要是连“准确”都做不到,再花里胡哨的功能也没用。听脑AI这一轮,赢在了“懂中文”。

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言