ag官方网站登录入口

ag登录 阿里巴巴通义现实室推出三款AI语音模子,庸碌话识别失误率仅4.97%

发布日期:2026-02-24 11:40    点击次数:190

ag登录 阿里巴巴通义现实室推出三款AI语音模子,庸碌话识别失误率仅4.97%

一个模子措置52种谈话,还认得了22种中国方言

要分解Qwen3-ASR究竟作念了什么,先把它想象成一位超等速记员。这位速记员不单会庸碌话和英语,还会广东话、阿拉伯语、德语、法语、西班牙语、葡萄牙语、印尼语、意大利语、韩语、俄语、泰语、越南语、日语、土耳其语、印地语、马来语、荷兰语、瑞典语、丹麦语、芬兰语、波兰语、捷克语、菲律宾语、波斯语、希腊语、匈牙利语、马其顿语和罗马尼亚语,悉数30种谈话。

光这30种谈话还不够。在汉文方言方面,这位速记员还有利学过安徽话、东北话、福建话、甘肃话、贵州话、河北话、河南话、湖北话、湖南话、江西话、宁夏话、山东话、陕西话、山西话、四川话、天津话、云南话、浙江话,加上香口岸音粤语、广东口音粤语、吴语和闽南语,悉数22种方言。两者相加,这套系统共支合手52种谈话和方言。

张开剩余85%

四个阶段的"养成之路":从海量数据到强化学习

Qwen3-ASR的老师经由,像极了培养一位顶级翻舌人的旅途,总共履历了四个阶段。

第一阶段是打地基。AuT编码器需要先孤独学习若何"听",用的是粗豪4000万小时的语音数据,主若是汉文和英语。这个阶段产出的编码器,约略在不同长度的音频片断下都褂讪责任,因为它经受了动态珍倡导窗口机制,窗口大小不错在1秒到8秒之间纯真转换。

第二阶段是"见世面"。通盘Qwen3-Omni多模态基础模子,用3万亿个词元(token,不错分解为翰墨或语音的最小处理单元)的音频、视觉和翰墨夹杂数据进行预老师,让模子具备对多种信息体式的概括分解才略。0.6B和1.7B两个版块都履历了这一阶段。

第四阶段是"考验"。酌量团队使用了一种叫作念GSPO(群体序列政策优化)的强化学习要害,用约5万条语音数据对模子进行终末的打磨。这5万条数据里,中英文占35%,多谈话数据占35%,各样功能性测试数据占30%。强化学习的效能出乎意象地显赫——它对模子在嘈杂环境下的褂讪性、转录一致性以及处理难点案例的才略,都有显明熏陶。

三跑得有多快?0.6B版块每秒能处理2000秒音频

以"首字恭候时分"(TTFT,即用户说完话到模子开动输出第一个字的蔓延)为斟酌要领:在单用户使用的情况下,平均恭候时分低至92毫秒,95%的恳求在105毫秒内就能看到第一个字。换个直不雅的说法,从你说完话到模子开动输出,粗豪只需要一眨眼的十分之一。

当同期有128个用户并发恳求时,及时因子(RTF,即处理1秒音频需要些许秒)为0.064,糊涂量达到每秒处理2000秒音频。也就是说,每过1秒钟,模子就能处理完终点于2000秒的语音内容。关于需要大范围部署的工业场景,这个数字意味着不错用很低的本钱复古大都用户同期使用。

1.7B的大版块稍慢一些,单用户情况下TTFT平均102毫秒,a8体育app128并发时糊涂量约为每秒1220秒音频。两个版块均支合手离线批量处理和在线异步推理两种形态,均基于vLLM v0.14.0框架运行。

在内容测试中,流式形态比拟离线形态照实会带来一定的准确率亏损,但亏损幅度在可秉承范围内。以Qwen3-ASR-1.7B为例,在LibriSpeech要领测试集上,离线形态的词失误率是1.63%(clean)和3.38%(other),流式形态则是1.95%和4.51%。在Fleurs英语测试集上,离线3.35%,流式4.02%;汉文测试集上,离线2.41%,流式2.84%。总体来看,流式形态引入的异常症结约在0.3到1.1个百分点之间。

{jz:field.toptypename/}

为了全面评估模子性能,酌量团队不仅测试了公开基准数据集,还有利构建了一套里面测试集,粉饰了好多公开测试集里较少出现的确凿场景。

在公开英语基准测试中,Qwen3-ASR-1.7B在GigaSpeech(众包网罗语音)上达到8.45%词失误率,在Common Voice英语集上达到7.39%,在VoxPopuli上达到9.15%,ag国际概括阐扬优于GPT-4o-Transcribe、Gemini-2.5-Pro等生意API,并全面超过Whisper-large-v3等开源模子。在LibriSpeech朗诵语音测试集上,1.7B版块的clean集词失误率为1.63%,接近最优水平。

庸碌话方面,Qwen3-ASR的上风愈加显明。在包含多种声学环境会通议灌音的WenetSpeech测试集上,1.7B版块的CER(字符失误率)为4.97%(网罗语音)和5.88%(会议灌音),大幅优于GPT-4o-Transcribe的15.30%和32.27%,以及Gemini-2.5-Pro的14.43%和13.47%。Doubao-ASR在这个测试集上致使无法给出合理戒指(标注为N/A)。

里面压力测试的戒指更能讲解问题。在包含16种口音英语的测试集上,Qwen3-ASR-1.7B达到16.07%词失误率,优于整个对比系统。在老东谈主儿童庸碌话测试中,1.7B版块达到3.81%字符失误率,而Gemini-2.5-Pro在同场景下高达36.93%。极点杂音环境下,1.7B版块达到16.17%,Whisper-large-v3则高达63.17%。粉饰22种方言的夹杂方言测试集上,Qwen3-ASR-1.7B达到15.94%,优于Doubao-ASR的19.85%和Whisper-large-v3的44.55%。

现存的失误主要靠拢在马来语(ms)和印度尼西亚语(id)之间的污染,因为这两种谈话在发音和词汇上都相配接近,即即是东谈主类未必也难以别离。

有利为字幕生成而生的"时分戳神器":Qwen3-ForcedAligner

假定你有一段15秒的灌音,里面说了"你好,我是通义千问",ForcedAligner能告诉你:"你"出当今0.5秒到0.66秒,"好"在0.66秒到0.89秒,"我"在0.89秒到1.10秒……依此类推。这个功能在字幕生成、语音数据标注、白话评测等场景里相配实用。

Qwen3-ForcedAligner的遐想念念路弥漫不同。它把时分戳算计再行界说为一个"填空"任务:给定一段音频和对应翰墨,在每个词或字的前后插入特殊的时分槽记号[time],然后让模子径直算计每个槽对应的时分索引。时分索引以80毫秒为一个单元,最多支合手3750个单元,对应最长300秒的音频。

老师数据方面,由于东谈主工标注时分戳极为崇高,酌量团队用MFA生成的伪标注数据行为老师素材,但并非粗浅复制MFA的输出——模子经过"索要和平滑"处理,最终算计戒指比MFA本人更褂讪、偏移更小。

时分戳准确度测试:比竞争敌手精准67%到77%

斟酌时分戳准确度的计算叫作念AAS(积攒平均偏移),数值越小讲解算计时分戳和确凿时分戳之间的差距越小。

在MFA标注的短句测试集上,Qwen3-ForcedAligner-0.6B的平均AAS为42.9毫秒,而NFA为129.8毫秒,WhisperX为133.2毫秒,相对减少了约67%到68%。汉文单独测试中,Qwen3-ForcedAligner的AAS为33.1毫秒,而Monotonic-Aligner高达161.1毫秒。

长音频场景下,差距愈加悬殊。在长度拼接至300秒的测试集上,Qwen3-ForcedAligner的平均AAS为52.9毫秒,NFA为246.7毫秒,WhisperX更是高达2708.4毫秒(近3秒的偏移)。传统器具在处理长音频时准确率急剧下跌,而Qwen3-ForcedAligner的性能基本不受音频长度影响。

在东谈主工标注的测试集上(这是更接近确凿情况的"黄金要领"),Qwen3-ForcedAligner的各项AAS均在24.8到42.5毫秒之间,而NFA在86.7到140毫秒之间,阐扬出相对减少约53%到77%的偏移量。

至顶AI现实室洞见

论文地址:

https://arxiv.org/pdf/2601.21337

{jz:field.toptypename/}

END

本文来自至顶AI现实室,一个专注于探索生成式AI前沿时刻过甚运用的现实室。奋发于于鼓动生成式AI在各个边界的转换与冲突,挖掘其潜在的运用场景,为企业和个东谈主提供切实可行的解决有遐想。

Q&A

Q1:Qwen3-ASR支合手哪些谈话和方言?

A:Qwen3-ASR-1.7B和Qwen3-ASR-0.6B共支合手52种谈话和方言,包括30种谈话(汉文、英语、日语、韩语、法语、德语、西班牙语等)和22种中国方言(四川话、粤语、闽南语、吴语、东北话等)。Qwen3-ForcedAligner-0.6B则支合手其中11种主要谈话的时分戳对皆。

Q3:Qwen3-ForcedAligner和MFA等传统时分戳器具比拟有什么上风?

A:Qwen3-ForcedAligner-0.6B用一个调解模子支合手11种谈话,无需针对每种谈话单独成立,还支合手跨谈话混用场景。在时分戳精度上,积攒平均偏移比NFA和WhisperX减少约67%到77%,且在长音频下性能不左迁,而传统器具在长音频场景下准确率会急剧下滑。

发布于:北京市



Copyright © 1998-2026 ag官方网站登录入口™版权所有

efuchina.com 备案号 备案号: 

技术支持:®ag国际  RSS地图 HTML地图