ag登录阿里巴巴通义现实室推出三款AI语音模子，庸碌话识别失误率仅4.97%

发布日期：2026-02-24 11:40 点击次数：195

一个模子措置52种谈话，还认得了22种中国方言

要分解Qwen3-ASR究竟作念了什么，先把它想象成一位超等速记员。这位速记员不单会庸碌话和英语，还会广东话、阿拉伯语、德语、法语、西班牙语、葡萄牙语、印尼语、意大利语、韩语、俄语、泰语、越南语、日语、土耳其语、印地语、马来语、荷兰语、瑞典语、丹麦语、芬兰语、波兰语、捷克语、菲律宾语、波斯语、希腊语、匈牙利语、马其顿语和罗马尼亚语，悉数30种谈话。

光这30种谈话还不够。在汉文方言方面，这位速记员还有利学过安徽话、东北话、福建话、甘肃话、贵州话、河北话、河南话、湖北话、湖南话、江西话、宁夏话、山东话、陕西话、山西话、四川话、天津话、云南话、浙江话，加上香口岸音粤语、广东口音粤语、吴语和闽南语，悉数22种方言。两者相加，这套系统共支合手52种谈话和方言。

张开剩余85%

四个阶段的"养成之路"：从海量数据到强化学习

Qwen3-ASR的老师经由，像极了培养一位顶级翻舌人的旅途，总共履历了四个阶段。

第一阶段是打地基。AuT编码器需要先孤独学习若何"听"，用的是粗豪4000万小时的语音数据，主若是汉文和英语。这个阶段产出的编码器，约略在不同长度的音频片断下都褂讪责任，因为它经受了动态珍倡导窗口机制，窗口大小不错在1秒到8秒之间纯真转换。

第二阶段是"见世面"。通盘Qwen3-Omni多模态基础模子，用3万亿个词元（token，不错分解为翰墨或语音的最小处理单元）的音频、视觉和翰墨夹杂数据进行预老师，让模子具备对多种信息体式的概括分解才略。0.6B和1.7B两个版块都履历了这一阶段。

第四阶段是"考验"。酌量团队使用了一种叫作念GSPO（群体序列政策优化）的强化学习要害，用约5万条语音数据对模子进行终末的打磨。这5万条数据里，中英文占35%，多谈话数据占35%，各样功能性测试数据占30%。强化学习的效能出乎意象地显赫——它对模子在嘈杂环境下的褂讪性、转录一致性以及处理难点案例的才略，都有显明熏陶。

三跑得有多快？0.6B版块每秒能处理2000秒音频

以"首字恭候时分"（TTFT，即用户说完话到模子开动输出第一个字的蔓延）为斟酌要领：在单用户使用的情况下，平均恭候时分低至92毫秒，95%的恳求在105毫秒内就能看到第一个字。换个直不雅的说法，从你说完话到模子开动输出，粗豪只需要一眨眼的十分之一。

当同期有128个用户并发恳求时，及时因子（RTF，即处理1秒音频需要些许秒）为0.064，糊涂量达到每秒处理2000秒音频。也就是说，每过1秒钟，模子就能处理完终点于2000秒的语音内容。关于需要大范围部署的工业场景，这个数字意味着不错用很低的本钱复古大都用户同期使用。

1.7B的大版块稍慢一些，单用户情况下TTFT平均102毫秒，博亚体育app中国官网入口128并发时糊涂量约为每秒1220秒音频。两个版块均支合手离线批量处理和在线异步推理两种形态，均基于vLLM v0.14.0框架运行。

在内容测试中，流式形态比拟离线形态照实会带来一定的准确率亏损，但亏损幅度在可秉承范围内。以Qwen3-ASR-1.7B为例，在LibriSpeech要领测试集上，离线形态的词失误率是1.63%（clean）和3.38%（other），流式形态则是1.95%和4.51%。在Fleurs英语测试集上，离线3.35%，流式4.02%；汉文测试集上，离线2.41%，流式2.84%。总体来看，流式形态引入的异常症结约在0.3到1.1个百分点之间。

{jz:field.toptypename/}

为了全面评估模子性能，酌量团队不仅测试了公开基准数据集，还有利构建了一套里面测试集，粉饰了好多公开测试集里较少出现的确凿场景。

在公开英语基准测试中，Qwen3-ASR-1.7B在GigaSpeech（众包网罗语音）上达到8.45%词失误率，在Common Voice英语集上达到7.39%，在VoxPopuli上达到9.15%，ag国际概括阐扬优于GPT-4o-Transcribe、Gemini-2.5-Pro等生意API，并全面超过Whisper-large-v3等开源模子。在LibriSpeech朗诵语音测试集上，1.7B版块的clean集词失误率为1.63%，接近最优水平。

庸碌话方面，Qwen3-ASR的上风愈加显明。在包含多种声学环境会通议灌音的WenetSpeech测试集上，1.7B版块的CER（字符失误率）为4.97%（网罗语音）和5.88%（会议灌音），大幅优于GPT-4o-Transcribe的15.30%和32.27%，以及Gemini-2.5-Pro的14.43%和13.47%。Doubao-ASR在这个测试集上致使无法给出合理戒指（标注为N/A）。

里面压力测试的戒指更能讲解问题。在包含16种口音英语的测试集上，Qwen3-ASR-1.7B达到16.07%词失误率，优于整个对比系统。在老东谈主儿童庸碌话测试中，1.7B版块达到3.81%字符失误率，而Gemini-2.5-Pro在同场景下高达36.93%。极点杂音环境下，1.7B版块达到16.17%，Whisper-large-v3则高达63.17%。粉饰22种方言的夹杂方言测试集上，Qwen3-ASR-1.7B达到15.94%，优于Doubao-ASR的19.85%和Whisper-large-v3的44.55%。

现存的失误主要靠拢在马来语（ms）和印度尼西亚语（id）之间的污染，因为这两种谈话在发音和词汇上都相配接近，即即是东谈主类未必也难以别离。

有利为字幕生成而生的"时分戳神器"：Qwen3-ForcedAligner

假定你有一段15秒的灌音，里面说了"你好，我是通义千问"，ForcedAligner能告诉你："你"出当今0.5秒到0.66秒，"好"在0.66秒到0.89秒，"我"在0.89秒到1.10秒……依此类推。这个功能在字幕生成、语音数据标注、白话评测等场景里相配实用。

Qwen3-ForcedAligner的遐想念念路弥漫不同。它把时分戳算计再行界说为一个"填空"任务：给定一段音频和对应翰墨，在每个词或字的前后插入特殊的时分槽记号[time]，然后让模子径直算计每个槽对应的时分索引。时分索引以80毫秒为一个单元，最多支合手3750个单元，对应最长300秒的音频。

老师数据方面，由于东谈主工标注时分戳极为崇高，酌量团队用MFA生成的伪标注数据行为老师素材，但并非粗浅复制MFA的输出——模子经过"索要和平滑"处理，最终算计戒指比MFA本人更褂讪、偏移更小。

时分戳准确度测试：比竞争敌手精准67%到77%

斟酌时分戳准确度的计算叫作念AAS（积攒平均偏移），数值越小讲解算计时分戳和确凿时分戳之间的差距越小。

在MFA标注的短句测试集上，Qwen3-ForcedAligner-0.6B的平均AAS为42.9毫秒，而NFA为129.8毫秒，WhisperX为133.2毫秒，相对减少了约67%到68%。汉文单独测试中，Qwen3-ForcedAligner的AAS为33.1毫秒，而Monotonic-Aligner高达161.1毫秒。

长音频场景下，差距愈加悬殊。在长度拼接至300秒的测试集上，Qwen3-ForcedAligner的平均AAS为52.9毫秒，NFA为246.7毫秒，WhisperX更是高达2708.4毫秒（近3秒的偏移）。传统器具在处理长音频时准确率急剧下跌，而Qwen3-ForcedAligner的性能基本不受音频长度影响。

在东谈主工标注的测试集上（这是更接近确凿情况的"黄金要领"），Qwen3-ForcedAligner的各项AAS均在24.8到42.5毫秒之间，而NFA在86.7到140毫秒之间，阐扬出相对减少约53%到77%的偏移量。

至顶AI现实室洞见

论文地址：

https://arxiv.org/pdf/2601.21337

END

本文来自至顶AI现实室，一个专注于探索生成式AI前沿时刻过甚运用的现实室。奋发于于鼓动生成式AI在各个边界的转换与冲突，挖掘其潜在的运用场景，为企业和个东谈主提供切实可行的解决有遐想。

Q&A

Q1：Qwen3-ASR支合手哪些谈话和方言？

A：Qwen3-ASR-1.7B和Qwen3-ASR-0.6B共支合手52种谈话和方言，包括30种谈话（汉文、英语、日语、韩语、法语、德语、西班牙语等）和22种中国方言（四川话、粤语、闽南语、吴语、东北话等）。Qwen3-ForcedAligner-0.6B则支合手其中11种主要谈话的时分戳对皆。

Q3：Qwen3-ForcedAligner和MFA等传统时分戳器具比拟有什么上风？

A：Qwen3-ForcedAligner-0.6B用一个调解模子支合手11种谈话，无需针对每种谈话单独成立，还支合手跨谈话混用场景。在时分戳精度上，积攒平均偏移比NFA和WhisperX减少约67%到77%，且在长音频下性能不左迁，而传统器具在长音频场景下准确率会急剧下滑。

发布于：北京市

ag登录阿里巴巴通义现实室推出三款AI语音模子，庸碌话识别失误率仅4.97%

热点资讯

推荐资讯

ag登录 阿里巴巴通义现实室推出三款AI语音模子，庸碌话识别失误率仅4.97%

热点资讯

推荐资讯

ag登录阿里巴巴通义现实室推出三款AI语音模子，庸碌话识别失误率仅4.97%