微信关注,了解更多

速度狂飙 400%+ 多项 SOTA!阶跃星辰 StepAudio 2.5 ASR 重新定义语音识别天花板

4 月 24 日,国产 AI 语音领域迎来里程碑时刻 —— 阶跃星辰正式发布新一代自动语音识别模型StepAudio 2.5 ASR。这款模型首次将大语言模型(LLM)的推理加速技术跨界移植到语音识别赛道,一举实现推理速度提升 400%、时延降低 60%、成本下降 80% 的三重突破,同时在中英文权威测试集上拿下多项 SOTA(业内最高水平),更支持 30 分钟超长音频一次性完整转写。从会议实时转写到媒体内容处理,从语音交互到输入法场景,StepAudio 2.5 ASR 以 “速度 + 精度 + 低成本 + 长文本” 的全维优势,彻底打破传统语音识别的效率瓶颈,为国产语音 AI 规模化商用按下加速键。

架构革命:LLM 加速技术跨界,从 “逐字等” 到 “批量算”

长期以来,传统语音识别模型受限于自回归生成机制,只能逐 Token(词元)顺序输出结果,就像 “一个工人流水线逐件加工产品”,速度慢、时延高、成本贵,尤其在长音频处理和实时交互场景中痛点突出。而阶跃星辰 StepAudio 2.5 ASR 的核心突破,在于全球首创 ASR+MTP-5 深度融合架构,把 LLM 领域成熟的多 Token 预测(MTP)技术成功移植到语音识别领域,实现了从 “串行低效” 到 “并行高效” 的范式革命。

简单来说,MTP-5 技术就像把 “单人流水线” 升级为 “多人并行车间”:模型不再逐个等待 Token 输出,而是能一次性预测 5 个候选 Token,再通过并行验证机制快速筛选最优结果,同步完成多个词元的推理与校验。这种架构革新直接打破传统自回归机制的效率枷锁,让语音识别的推理逻辑从 “猜一个、等一个” 变成 “打包预测、并行验证”,算力利用率呈指数级提升。

实测数据见证架构升级的硬核实力:

  • 推理速度提升 400%
    ,峰值达到500 tokens / 秒,行业顶尖水平;
  • 端到端时延降低 60%
    ,实时交互体验实现质的飞跃;
  • 推理成本下降 80%
    ,定价低至0.15 元 / 小时,仅为上代产品的 1/10;
  • 5 分钟音视频即时转写
    ,曾经需要数分钟等待的任务,如今秒级完成。

这场跨界技术移植,不仅是语音识别领域的首次尝试,更验证了 “LLM 技术反哺语音赛道” 的可行性,为全球语音 AI 技术演进提供了全新思路。

精度封神:多场景 SOTA+30 分钟长音频,告别 “切片失真”

速度狂飙的同时,StepAudio 2.5 ASR 在转写精度上毫不妥协,真正做到 “又快又准”。官方测试结果显示,该模型在覆盖新闻播报、会议访谈、强噪声环境的中英文权威测试集上,综合转写精度达到业内 SOTA 水准,在嘈杂环境、口音混杂、专业术语密集等复杂场景中,识别准确率全面超越上代模型及行业主流产品。

1. 全场景适配,复杂环境精准识别

  • 新闻播报场景
    :标准发音、语速平稳,转写准确率接近 99%,标点符号自动还原精准;
  • 会议访谈场景
    :多人交替发言、口语化表达多、背景杂音干扰,识别准确率超 95%,支持说话人自动区分;
  • 强噪声环境
    :户外嘈杂、地铁通勤、餐厅交谈等场景,抗干扰能力大幅提升,识别稳定性远超行业平均水平。

2. 30 分钟超长音频一次性转写,彻底告别 “切片拼接” 痛点

传统语音识别处理长音频时,普遍采用 “切片 – 转写 – 拼接” 的方案,不仅操作繁琐,还容易导致上下文断裂、语义丢失、后段精度衰减等问题。StepAudio 2.5 ASR 复用 LLM 原生的32K 上下文窗口,支持单次完整转写最长 30 分钟的音频,无需切片、无缝衔接、语义连贯,完美适配长时间会议、课程录音、播客节目等场景。

实测显示,一段 25 分钟的企业会议录音,StepAudio 2.5 ASR 可一次性完整转写,无上下文断裂、无语义偏差,准确率稳定保持在 94% 以上,而传统切片方案不仅耗时增加 3 倍,准确率还会下降 5%-8%。

场景全覆盖:从企业服务到消费端,规模化商用全面落地

凭借 “高速 + 高精度 + 低成本 + 长音频” 的四大核心优势,StepAudio 2.5 ASR 精准覆盖会议转写、语音交互、输入法、媒体内容处理、长音频识别五大核心场景,既能满足企业级高并发、高精度需求,也能适配消费端低成本、实时性要求,开启语音 AI 规模化商用新时代。

1. 会议转写:企业高效办公刚需

支持多人实时会议转写、双语混合识别、专业术语库定制,5 分钟会议内容秒级出稿,30 分钟长会议一次性完整转写,自动生成带标点、分 speaker 的会议纪要,大幅提升企业办公效率,已适配钉钉会议、腾讯会议等主流平台。

2. 语音交互:智能设备体验升级

在智能音箱、车载语音、智能家居等场景中,低时延(降低 60%)+ 高响应速度(500 tokens / 秒),实现 “话音刚落、结果即出” 的自然交互,告别卡顿延迟,同时强噪声环境下识别精准,适配车载、户外等复杂使用场景。

3. 输入法:极速语音输入,解放双手

移动端语音输入法场景中,推理速度提升 400%,长句输入无卡顿,中英文混合、方言识别精准,成本下降 80% 让输入法厂商可免费向用户开放高清语音转写功能,大幅提升用户输入效率。

4. 媒体内容处理:音频视频高效归档

适配播客、短视频、直播回放、有声书等媒体内容,快速完成音频转文字、字幕生成、内容摘要、关键词提取,5 分钟音视频即时转写,助力媒体平台高效完成内容审核、归档、二次创作,降低运营成本。

行业格局重塑:国产语音 AI 跻身全球第一梯队

近年来,全球语音识别赛道竞争白热化,海外有 OpenAI Whisper、NVIDIA Parakeet 等标杆产品,国内阿里 Fun-ASR、百度文心语音、科大讯飞等玩家持续发力。而 StepAudio 2.5 ASR 的发布,标志着国产语音 AI 正式跻身全球第一梯队,在核心技术、性能指标、商用成本三大维度实现对海外产品的全面超越。

1. 技术壁垒突破:从 “跟随” 到 “引领”

此前,国产语音模型多在海外技术框架下优化迭代,而 StepAudio 2.5 ASR 首创 ASR+MTP-5 融合架构,实现技术路线自主可控,更将 LLM 加速技术跨界应用,为全球语音 AI 发展提供 “中国方案”。

2. 性能全面领先:速度、精度、成本三维碾压

对比海外主流产品:Whisper 精度高但速度慢、成本高;Parakeet 速度快但长音频支持不足、噪声鲁棒性差;而 StepAudio 2.5 ASR 同时实现速度 400% 提升、SOTA 精度、80% 成本下降、30 分钟长音频支持,综合性能全球顶尖。

对比国内竞品:阿里 Fun-ASR 主打多语言方言覆盖,但推理速度和长音频支持弱于 StepAudio 2.5 ASR;科大讯飞在语音交互端侧优势明显,但云端推理成本高、速度慢。

3. 普惠商用落地:低成本加速行业渗透

推理成本下降 80%、定价 0.15 元 / 小时,让语音识别技术从 “高端企业专属” 走向 “全行业普惠”,中小企业、开发者、个人用户都能低成本接入顶级语音 AI 能力,推动语音交互在千行百业的深度渗透。

结语:语音 AI 新时代,国产力量定义未来

StepAudio 2.5 ASR 的发布,绝非一次普通的产品升级,而是国产语音 AI 技术的里程碑式突破,更是全球语音识别赛道格局重塑的关键信号。从架构革新到性能狂飙,从精度突破到普惠商用,阶跃星辰用硬核实力证明:中国 AI 企业不仅能在大语言模型、多模态领域与海外巨头抗衡,更能在语音识别这一垂直赛道实现弯道超车、全球引领

未来,随着技术持续迭代,语音 AI 将进一步向更低时延、更高精度、更强多模态融合、更广端侧部署方向演进,深度融入办公、家居、车载、媒体、教育等场景,彻底改变人机交互方式。而以阶跃星辰为代表的国产语音 AI 力量,将继续以技术创新为核心,打破海外技术垄断,构建自主可控的语音 AI 产业生态,在全球 AI 竞争中抢占更多话语权,让 “中国声音” 被世界精准听见。

图源网络,侵删

未经允许不得转载:物联网的那些事 - Totiot » 速度狂飙 400%+ 多项 SOTA!阶跃星辰 StepAudio 2.5 ASR 重新定义语音识别天花板