Meta推出了带有语音和文本翻译功能的人工智能模型

Meta发布了一款人工智能(AI)模型,可以为近100种语言进行语音和文本翻译。

Meta在周二(8月22日)的新闻发布会上表示,新的SeamlessM4T是一款多模式、多语言的一体化人工智能翻译模型。它支持语音识别、语音到文本翻译、语音到语音翻译、文本到文本翻译以及文本到语音翻译。

SeamlessM4T的优势之一是它的单一系统方法,通过减少翻译过程中的错误和延迟来提高效率和质量。

新闻稿称,SeamlessM4T是在研究许可下公开发布的。这使得研究人员和开发人员可以基于模型的功能进行构建。

此外,Meta还发布了SeamlessAlign的元数据,这是一个开放的多模态翻译数据集,其中包括27万小时的语音和文本对齐数据。该数据集将作为该领域未来研究和发展的资源。

根据新闻稿,SeamlessM4T建立在Meta之前在语言翻译技术方面的进步之上。去年,该公司发布了一款支持200种语言的文本到文本机器翻译模型——No Language Left Behind (NLLB)。NLLB已被整合到维基百科作为翻译提供商之一。

Meta还演示了Universal Speech Translator,这是首个针对闽南语的直接语音到语音翻译系统,闽南语是一种没有广泛使用的书写系统的汉语。今年早些时候,Meta公司推出了大规模多语言语音技术,提供语音识别、语言识别和语音合成技术,涵盖1100 多种语言。

SeamlessM4T整合了来自所有这些项目的见解和学习,以提供最先进的多语言和多模式翻译体验。

据2022年2月的报道,Meta公司正致力于利用人工智能创建通用语言翻译,并改善与语音助手的口头互动。在该公司当时提供的演示中,一个语音助手注意到,当一个家庭正在准备一顿饭时,盐供应不足,于是订购了更多的盐。

在该技术的另一个用例中,生成式人工智能语言翻译服务可以实现客户和提供商之间的无缝沟通,打破语言障碍,将电信服务的覆盖范围扩大到不同的市场。