Meta發布新AI模型支持多語言語音翻譯

2023年6月14日，在法國巴黎凡爾賽門展覽中心舉行的技術及創新博覽會上，一個參觀者在Meta的展台前觀看扎克伯格的視頻演講。 Alain Jocard/AFP via Getty Images)

人氣：508

大小正|简

【2023年09月02日訊】（英文大紀元記者記者趙孜濟編譯報導）社交媒體巨頭Meta公司8月22日發布了一款新的人工智能（AI）模型，可以翻譯和轉換數十種語音或文本文字，可望成為實現跨語言即時通訊工具的基石。

據稱，這款新模型被命名為SeamlessM4T，它代表大規模多語言和多模式機器翻譯。Meta公司表示，它可以支援近100種語言的語音到文本，或從文本到文本的翻譯，以及35種語言的語音到語音翻譯。

它是在Creative Commons CC BY-NC 4.0許可證下發布的，允許研究人員對其進行迭代。

除了 SeamlessM4T，Meta 還發布了其開放翻譯數據集 SeamlessAlign 的源數據。

Meta公司表示，「建立一個通用的語言翻譯器，就像《銀河系漫遊指南》中虛構的巴別魚一樣，具有挑戰性，因為現有的語音到語音和語音到文本系統只覆蓋世界上一小部分語言，」。

Meta表示，SeamlessM4T代表了「重大突破」，因為這種新模型可以一次性完成整個翻譯任務，不像其他大型翻譯模型將翻譯劃分到不同的系統。

如果SeamlessM4T 能夠正常運行，那麼它的一個有趣功能是它據稱能夠識別說話者何時進行代碼切換，或何時有人在一個句子中在兩種或多種語言之間轉移。例如，Meta在一段視頻中演示了該模型可以立即區分印地語、泰盧固語和英語。

SeamlessM4T建立在Meta以前的翻譯模型之上。去年，Meta發布了其「不落下任何一種語言」（No Language Left Behind）文本到文本機器翻譯模型，該模型支持200種語言。它還開發了SpeechMatrix，一個用於多語言語音到語音翻譯的數據集和用於語音識別的大規模多語言語音。Meta去年演示了其通用語音翻譯器，將閩南語口語（一種在中國南方廣泛使用的方言）轉換為英語。

語言翻譯對於像Meta這樣的公司來說很重要，這些公司僱傭了數千名員工來審核大量不同語言的Facebook和Instagram帖子。很多時候，小眾語言的團隊規模較小，最終依賴於自動審核，而自動審核在這些語言中效果不佳。如果允許人工智能訪問這些小眾語言的數據集，那麼審核將變得更為簡單。

根據部落格文章，Meta正將這套模型提供給公眾用於非商業用途。

Meta今年發布一連串多為免費的人工智慧模型，其中包括名為Llama的大型語言模型，對微軟（Microsoft）公司支持的OpenAI和Alphabet旗下的谷歌（Google）出品的專利模型構成嚴峻挑戰。

扎克伯格說，開放的AI生態系統對Meta更有利，因為公司透過有效群眾外包（Crowd-sourcing）方式，為旗下社群平臺創建面向消費者的工具，比向這些模型的使用者收費獲益更多。

關於SeamlessM4T模型，Meta研究人員在一篇研究論文中表示，他們從400萬個小時的「原始音檔」中蒐集相關訓練素材。這些音檔源自公開的網路資料庫，但研究人員未具體說明是哪一個。

研究論文提到，文本資料取自去年創建的資料集，內容源於維基百科（Wikipedia）和相關網站。◇