🔥 近7天热词
特朗普 同比增长 伊朗外交部 外交部 美媒 经纬度
首页 > 正文

阶跃星辰发布最新语音识别模型StepAudio_2.5_ASR

2026-04-24 18:32
基于ASR+MTP-5深度融合架构,StepAudio 2.5 ASR采用多Token预测技术,使模型能够一次预测多个候选Token并完成并行验证,打破了传统自回归机制逐Token输出的效率瓶颈。实测显示,该模型推理速度提升400%、时延降低60%,推理峰值达500 tokens/s,推理成本下降80%,5分钟左右的音视频几乎可实现即时转写。
在覆盖新闻播报、会议访谈及强噪声环境的多个中英文测试集上,StepAudio 2.5 ASR综合转写精度达到业内SOTA(技术领先)水平。针对长音频处理,该模型复用LLM原生的32K上下文窗口,支持单次完整转写最长30分钟的音频,避免了传统“切片-转写-拼接”方案可能导致的上下文断裂与后段精度衰减情况。(澎湃新闻记者 秦盛)