首页 > 正文

阶跃星辰发布最新语音识别模型StepAudio_2.5_ASR

2026-04-24 18:32

基于ASR+MTP-5深度融合架构，StepAudio 2.5 ASR采用多Token预测技术，使模型能够一次预测多个候选Token并完成并行验证，打破了传统自回归机制逐Token输出的效率瓶颈。实测显示，该模型推理速度提升400%、时延降低60%，推理峰值达500 tokens/s，推理成本下降80%，5分钟左右的音视频几乎可实现即时转写。

在覆盖新闻播报、会议访谈及强噪声环境的多个中英文测试集上，StepAudio 2.5 ASR综合转写精度达到业内SOTA（技术领先）水平。针对长音频处理，该模型复用LLM原生的32K上下文窗口，支持单次完整转写最长30分钟的音频，避免了传统“切片-转写-拼接”方案可能导致的上下文断裂与后段精度衰减情况。（澎湃新闻记者秦盛）

🔍 相关推荐

面临弹劾之际菲律宾副总统莎拉出国休假

2026上海国际咖啡文化节将启幕，不止咖啡还有跨界联动

牛市早报丨商务部：如中国企业因欧盟修订《网络安全法》遭歧视性待遇，将采取措施

戚发轫人民日报撰文：中国年轻一代一定能把航天事业推向新高度

民营园区被国企收购遭拖欠千万，民企负责人：我父亲失踪前花18年建造

伊朗驳斥“内讧”：我们非常团结