Google 支持一千种语言的大 AI 模型取得进展
2023-3-7 23:4:3 Author: www.solidot.org(查看原文) 阅读量:13 收藏

Google 宣布它正朝着支持一千种语言的大 AI 模型的目标前进。搜索巨人是在去年 11 月宣布千种语言倡议(1,000 Languages Initiative),旨在构建一个机器学习模型能翻译世界上最常用的 1000 种口语,给全世界居民带来更大的包容性。本周一,Google 分享了其 Universal Speech Model(USM)的更多信息。USM 是一个语音模型家族,有 20 亿个参数,使用 1200 万小时的语音和逾 300 种语言的 280 亿文本语句训练。Google 研究人员在预印本平台 arXiv 上发表了论文《Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages》,利用无标签多语言大数据集预训练模型,在较小的有标签数据集上微调,使之能识别代表性不足的语言。USM 已被 YouTube 用于生成隐藏式字幕,它还支持自动语音识别(ASR),自动检测和翻译语言,包括英语、普通话、阿姆哈拉语、宿务语、阿萨姆语等。现在 USM 支持逾 100 种语言,将作为一个基础去构建更庞大的语言系统。

https://arxiv.org/abs/2303.01037
https://ai.googleblog.com/2023/03/universal-speech-model-usm-state-of-art.html


文章来源: https://www.solidot.org/story?sid=74324
如有侵权请联系:admin#unsafe.sh