在当前AI产业向端侧部署加速迁移的背景下,IBM此次开源的Granite4.01B Speech展现了独特的技术路径。该模型采用创新的两阶段处理架构,首阶段完成音频到文本的转换,第二阶段通过专用语言模型进行推理,这种模块化设计使得推理延迟降低37%,内存占用减少52%,特别适合芯片算力受限的边缘设备。
文章图片 2
值得注意的是,该版本在保持英语、法语等6种语言互译能力的基础上,新增了对日语ASR的支持,并突破性实现了英语与中文普通话的双向翻译。其5.52%的平均字错率(WER)刷新了OpenASR榜单记录,这得益于IBM研发团队引入的关键词偏置技术——通过预置行业术语库,显著提升了医疗、金融等专业场景的识别准确率。 作为Apache2.0协议下的开源项目,开发者现可通过Hugging Face平台获取模型权重,并适配Transformers等主流框架。这种开放策略将加速语音大模型在工业物联网、移动终端等场景的落地,解决传统云端ASR方案存在的隐私泄露和网络延迟痛点。