type
status
date
slug
summary
tags
category
password
icon
Meta最近公开了SeamlessM4T大语言模型,可以实现转录和翻译任意语言的音频内容。
SeamlessM4T(无缝M4T)旨在提供高质量翻译,让来自不同语言社区的人们能够通过语音和文本轻松进行交流。
这种统一的模型可以实现语音转语音(S2ST)、语音转文本(S2TT)、文本转语音(T2ST)翻译等多项任务,而无需依赖多个单独的模型。
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2Fb292e379-f239-4cf9-a3bf-521cedaf6f4c%2FseamlessM4T.png?table=block&id=c5b7be0c-6a3c-4654-bc01-45ff00a69383)
1.本地运行
2.Colab在线运行
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F93b61711-66a8-4b07-b7c3-cb387649929c%2FUntitled.png?table=block&id=5e2412e9-e234-437f-9d07-a93876f034c3)
执行代码,打开webui界面如下:
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F6e9acbba-be77-4b67-ab54-d2b44b1d1a1c%2FUntitled.png?table=block&id=cde72b64-7d39-456f-b88d-4bd8cf0565e6)
先选择目标语言,将要音频文件拖入右边上传文件框,点击Translate,就可以开始处理了。
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2Fcb42f47e-5103-4768-b87e-6e15563b9723%2FUntitled.png?table=block&id=3e4a9040-7457-4f7a-876b-5c961085cc8d)
稍微测试了下,Colab执行速度很快,效果看着还行,但是准确性方面跟OpenAI的Whisper大模型还是差了点,会有缺漏的情况。
📎 相关链接
- 作者:AZ智能
- 链接:https://azsou.com/article/meta-seamlessm4t-ai-translate
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。