IT之家 7 月 24 日消息,今天,字节跳动 Seed 团队正式发布端到端同声传译模型 Seed LiveInterpret 2.0,是首个延迟 & 准确率接近人类水平的产品级中英语音同传系统。
据官方介绍,它基于全双工端到端语音生成理解框架,支持中英互译,可实时处理多人语音输入,像人类同传译员一样以极低的延迟“边听边说”,一边接收源语言语音输入,一边直接输出目标语言的翻译语音。同时,Seed LiveInterpret 2.0 还支持 0 样本声音复刻,让沟通更加流畅自然。
在测试中,可以观察到,Seed LiveInterpret 2.0 面对 40 秒的大段中文表达,能够低延迟地丝滑输出同款音色的英语翻译。此外,Seed LiveInterpret 2.0 还能快速学习音色。
相比传统机器同传系统,Seed LiveInterpret 2.0 模型具备以下优势:
IT之家注意到,目前 Seed LiveInterpret 2.0 技术报告已公布,模型基于火山引擎对外开放。此外,Ola Friend 耳机也将在 8 月底接入 Seed LiveInterpret 2.0,成为首个支持该模型的智能硬件设备。