当前位置:首页  >  行业动态  > 正文

谷歌的野心:通用语音识别大模型已经支持100+语言 世界热推荐

谷歌的野心:通用语音识别大模型已经支持100+语言 世界热推荐
2023-03-08 16:00:20 来源:站长之家

去年11月,谷歌宣布推出「1000种语言计划」,旨在构建一个机器学习 (ML) 模型,支持世界上使用最广泛的1000种语言,从而为全球数十亿人带来更大的包容性。然而,其中一些语言的使用人数不到两千万,因此核心挑战是如何支持使用人数相对较少或可用数据有限的语言。

现在,谷歌公开了更多有关通用语音模型 (USM) 的信息,这是支持1000种语言的第一步。USM 包含一系列 SOTA 语音模型,带有20亿参数,经过1200万小时的语音和280亿个文本句子的训练,涵盖300多种语言。USM 不仅可以对英语和普通话等广泛使用的语言执行自动语音识别(ASR),还可以对阿姆哈拉语、宿雾语、阿萨姆语、阿塞拜疆语等使用人数很少的语言执行自动语音识别。

谷歌证明了利用大型未标记的多语言数据集来预训练模型的编码器,并用较小的标记数据集进行微调,能够让模型识别使用人数非常少的语言。此外,谷歌的模型训练过程可以有效地适应新的语言和数据。


(相关资料图)

USM 支持的语言示例。

当前的挑战

为了实现「1000种语言计划」,谷歌需要解决 ASR 中的两个重大挑战。

首先,传统的监督学习方法缺乏可扩展性。将语音技术扩展到多种语言的一个基本挑战是获得足够的数据来训练高质量的模型。使用传统方法,音频数据需要手动标记,这既费时又昂贵;或者从已有数据中收集可用数据,但这对于使用人数很少的语言来说很难找到。

相比之下,自监督学习可以利用纯音频数据,这些数据包含大量不同的语言,使得自监督学习成为实现跨数百种语言扩展的好方法。

另一个挑战是,在扩大语言覆盖范围和提升模型质量的同时,模型必须以计算高效的方式进行改进。这就要求学习算法具有灵活性、高效性和泛化性。更具体地说,算法需要python能够使用来自各种来源的大量数据,在不需要完全重新训练的情况下启用模型更新,并推广到新的语言和用例。

解决方法:带有微调的自监督学习

USM 使用标准的编码器 - 解码器架构,其中解码器可以是 CTC、RNN-T 或 LAS。对于编码器,USM 使用 Conformer 或卷积增强型 transformer。Conformer 的关键组件是 Conformer 块,它由注意力模块、前馈模块和卷积模块组成。它将语音信号的 log-mel 声谱图作为输入并执行卷积下采样,之后应用一系列 Confo编程客栈rmer 块和投影层以获得最终嵌入。

USM 的训练流程如下图所示:

第一步先从对涵盖数百种语言的语音音频进行自监督学习开始。

第二步是可选步骤,谷歌通过使用文本数据进行额外的预训练来提高模型的质量和语言覆盖率。是否采用这个步骤取决文本数据是否可用。

训练 pipeline 的最后一步是使用少量有监督数据微调下游任务(例如,ASR 或自动语音翻译)。

USM 的整体训练流程。

第一步中谷歌使用了 BEST-RQ,因为它已经在多语言任务上展示了 SOTA 结果,并且在使用大量无监督音频数据时被证明是有效的。

在第二步中,谷歌使用了多目标有监督预训练来整合来自额外文本数据的知识。USM 模型引入了一个额外的编码器模块将文本作为输入,并引入了额外的层来组合语音编码器和文本编码器的输出,然后再在未标记语音、标记语音和文本数据上联合训练模型。

凭借在预训练期间获得的知识,最后一步 USM 模型仅需来自下游任务的少量有监督数据即可获得良好的模型性能。

主要结果展示

YouTube Captions 测试集上不同语言的性能

谷歌的编码器通过预训练整合了300多种语言,并通过在 YouTube Caption 多语言语音数据上微调证明了该预训练编码器的有效性。监督式 YouTube 数据包括73种语言,每种语言平均具有不超过3000小时的数据。尽管监督数据有限,USM 仍在73种语言中平均实现了低于30% 的词错率(WER,越低越好),这是以往从未实现的里程碑。对于 en-US,与当前谷歌内部 SOTA 模型相比,USM 的 WER 相对降低了6%。

谷歌还与 OpenAI 近期发布的大模型 Whisper (large-v2) 进行了比较,后者使用超过400k 小时的标注数据进行训练。为了便于比较,谷歌仅使用 Whisper 可以成功解码且 WER 低于40% 的18种语言。结果如下图所示,USM 的平均 WER 比 Whisper 低了32.7%。

对于下游 ASR 任务的泛化性能

对于公开可用的数据集,USM 在 CORAAL(非裔美国人土语)、SpeechStew(en-US)和 FLEURS(102种语言)数据集上显示出了较 Whisper 更低的 WER。USM 在接受和没有接受域内数据训练的情况下都实现了更低的 WER。具体结果如下图所示。

自动语音翻译(AST)性能

对于语音翻译,谷歌在 CoVoST 数据集上进行微调。谷歌的模型(包括通过 pipeline 第二阶段的文本)在有限监督数据下实现了 SOTA 性能。此外,为了评估模型性能的广度,谷歌根据资源可利用性将 CoVoST 数据集中的语言分为了高(high)、中(medium)和低(low),并计算相应的 BLEU 分数(越高越好)。

如下图所示,USM 在所有语言细分中超越了 Whisper。

未来将支持1000种语言

USM 的开发是实现「谷歌组织全球信息并使人人皆可访问」使命的关键努力。谷歌相信,USM 的基础模型架构和训练 pipjavascripteline 奠定了将语音建模扩展到未来1000种语言的根基。

更多细节请参阅相关论文:https://arxiv.org/abs/2303.01037v2

原文链接:https://ai.googleblog.com/2023/03/universal-speech-model-usm-state-of-art.html

标签:

(责任编辑:news01)
谷歌的野心:通用语音识别大模型已经支持100+语言 世界热推荐

谷歌的野心:通用语音识别大模型已经支持100+语言 世界热推荐

去年11月,谷歌宣布推出「1000种语言计划」,旨在构建一个机器学习(ML)模型,支持世界上使用最广泛的1...
03-08 16:00:20
环球观速讯丨cfp

环球观速讯丨cfp

1、CFP(CertifiedFinancialPlanner)即国际金融理财师、注册金融理财师或者注册理财规划师
03-08 15:44:48
prohibited和forbidden_prohibited 环球快播报

prohibited和forbidden_prohibited 环球快播报

1、prohibit英[prəˈhɪbɪt]美[proˈhɪbɪt]vt 禁止。2、阻止
03-08 13:53:38
极品假太监混后宫的相关小说-全球微资讯

极品假太监混后宫的相关小说-全球微资讯

1、《假太监的幸福生活》,作者是小肥猪07。2、《绝世太监》,作者是心梦无恨。3、《御女心经之极品太监...
03-08 12:50:38
电影板块异动拉升 上海电影涨停

电影板块异动拉升 上海电影涨停

3月8日电,电影板块异动拉升,上海电影涨停,带动横店影视、幸福蓝海、金逸影视、万达电影、华谊兄弟等...
03-08 11:22:03
长安鑫兴混合A基金经理变动:刘学通不再担任该基金基金经理 焦点信息

长安鑫兴混合A基金经理变动:刘学通不再担任该基金基金经理 焦点信息

2023年3月8日,长安鑫兴混合(005186)发布公告,刘学通不再担任该基金基金经理,离任日期为2023年3月8...
03-08 09:26:47
历史上有没有丁默群这个人

历史上有没有丁默群这个人

没有。丁默群是电视剧《旗袍》中的主要人物之一,(王志文饰),是一个阴险毒辣的汉奸。电视剧中的“丁...
03-08 09:26:55
摔角动态巨石强森缘何在 RAW期间不按剧本走?

摔角动态巨石强森缘何在 RAW期间不按剧本走?

在本周《RAW2016 01 26》中,在观众席前排有几位粉丝穿着打扮成胡克·霍根(HulkHogan),送葬者(T
03-08 07:00:21
彭铠立 天天头条

彭铠立 天天头条

1、彭铠立,女,1965年出生,中国女导演,钢琴家,毕业于美国新英格兰音乐学院。2、曾经任教辅仁大学。...
03-08 06:26:03
速看:gai安慰焦虑妻子什么综艺(gai安慰焦虑妻子)

速看:gai安慰焦虑妻子什么综艺(gai安慰焦虑妻子)

1、最近嗑GAI和王斯然的糖嗑到齁,特意去把“拯救了全宇宙”的王斯然的微博翻了个遍。2、不翻不知道,一...
03-08 02:17:17
岳阳县职业中专_头条焦点

岳阳县职业中专_头条焦点

1、岳阳县职业中等专业学校创办于1994年,是岳阳县唯一的公办职业中专。2、学校设施齐全,师资力量雄厚...
03-07 22:36:12
天天要闻:飞行巴士机甲战士好玩吗 飞行巴士机甲战士玩法简介

天天要闻:飞行巴士机甲战士好玩吗 飞行巴士机甲战士玩法简介

期待已久的手游飞行巴士机甲战士即将登陆九游,这款手机游戏吸引了大批玩家的关注,想下载这款游戏,有...
03-07 22:04:55
当前热门:凯中精密:公司欧洲研发中心已针对部分客户需求开发了用于固体氧化物燃料电池的热交换器等零组件

当前热门:凯中精密:公司欧洲研发中心已针对部分客户需求开发了用于固体氧化物燃料电池的热交换器等零组件

每经AI快讯,有投资者在投资者互动平台提问:潍柴动力公司全球首款大功率金属支撑固体氧化物燃料电池SOF...
03-07 19:27:51
十二五末期是什么时候-天天观焦点

十二五末期是什么时候-天天观焦点

1、“十二五”规划的起止时间2011-2015年。2、规划编制工作大体包括前期调研、编制起草、论证衔接、审批...
03-07 19:10:05
2023年南宁鼓鸣寨养生旅游度假区妇女节优惠活动

2023年南宁鼓鸣寨养生旅游度假区妇女节优惠活动

一、门票优惠(一)3月8日出生的女神,当天凭身份证可免费入园。(二)3月4日-12日,所有女神享门票半价优惠...
03-07 17:03:06
结婚对联大全集锦

结婚对联大全集锦

1、上联;燕尔新婚恭迎亲人聚下联:良缘喜结诚欢朋友来横批:喜结良缘2、上联:高朋满座庆新婚下联:美酒...
03-07 16:10:52
中泰证券(600918)3月7日主力资金净卖出3445.97万元_焦点精选

中泰证券(600918)3月7日主力资金净卖出3445.97万元_焦点精选

截至2023年3月7日收盘,中泰证券(600918)报收于6 81元,下跌1 87%,换手率0 77%,成交量20 07万手,成交额1 38亿元。
03-07 15:39:57
观察:北京东城将建成1300套保障性住房 计划年底完成

观察:北京东城将建成1300套保障性住房 计划年底完成

北京东城将建成1300套保障性住房计划年底完成
03-07 13:00:18
手机QQ怎样退出登录_手机qq怎么退出登录 今头条

手机QQ怎样退出登录_手机qq怎么退出登录 今头条

1、首先打开【手机QQ】块。2、点击您的[QQ头像]3、单击[设置]。4、单击[帐户管理]。5、点按“注销”(或直接切换
03-07 12:58:16
向前迈出一大步!芝商所拟4月推出离岸人民币期权,人民币国际影响力渐显

向前迈出一大步!芝商所拟4月推出离岸人民币期权,人民币国际影响力渐显

向前迈出一大步!芝商所拟4月推出离岸人民币期权,人民币国际影响力渐显
03-07 11:07:54
手机五笔打字教程视频教程_手机五笔打字教程

手机五笔打字教程视频教程_手机五笔打字教程

1、打开软件,选择一个朋友。2、进入聊天界面,点击图标。3、在弹出的界面中,点击菜单图标。4、点按输...
03-07 09:51:48
中工漫评丨加强政策解读,给民企送上“定心丸”

中工漫评丨加强政策解读,给民企送上“定心丸”

绘画 刘琪  文字 陈婉扬在全国政协委员、新希望集团董事长刘永好看来,当前民营企业发展面临的最大...
03-07 09:05:00
什么是变阻器_世界时讯

什么是变阻器_世界时讯

变阻器可以调节电阻大小的装置,接在电路中能调整电流的大小。一般的变阻器用电阻较大的导线和可以改变...
03-07 06:18:00
龙抬头,可不要乱理头,你们那边都有哪些讲究呢?

龙抬头,可不要乱理头,你们那边都有哪些讲究呢?

我们这里二月二龙抬头这天,都流行剃头理发!这天理发店里生意好得不得了!这天剃头都翻倍!我带我儿子...
03-07 05:45:39
2-0!中国男足大爆发,赢2场=进世青赛,沙特球员被羞辱后,却哭了-环球时讯

2-0!中国男足大爆发,赢2场=进世青赛,沙特球员被羞辱后,却哭了-环球时讯

在乌兹别克斯坦举行的新一届U20亚洲杯,中国男足迎来了扬眉吐气的一场胜利,依靠木塔力甫的传射建功,以...
03-07 01:05:58
长途电信加什么

长途电信加什么

电信手机打长途中可加拨的有17900、17901、17908、17909。因为电信是网络电话,但是因为网络电话的语音...
03-06 22:48:28
天天微速讯:武侯墓地位于哪里_武侯墓在哪里_

天天微速讯:武侯墓地位于哪里_武侯墓在哪里_

2、张骞墓武侯墓在哪里。3、武侯墓葬在哪里。4、武侯墓位置在哪里。以下内容关于《武侯墓在哪里》的解答...
03-06 21:14:05
全球快看:封顶是什么意思

全球快看:封顶是什么意思

1、完成屋顶混凝土浇筑,框架、框剪结构以浇筑屋面层算封顶;现浇屋面的砖混结构的以浇筑屋面算封顶;木...
03-06 19:17:25
今热点:箭毒蛙_说一说箭毒蛙的简介

今热点:箭毒蛙_说一说箭毒蛙的简介

夏弥来为大家解答以下的问题,箭毒蛙,说一说箭毒蛙的简介,现在让我们一起来看看吧!1、箭毒蛙是世界上...
03-06 18:44:32
【世界独家】第二届三亚芒果节暨直播电商大赛启动

【世界独家】第二届三亚芒果节暨直播电商大赛启动

为持续增强三亚芒果品牌市场竞争力,促进农业增效和农民增收,打造全民参与、全民带货、全民品尝芒果的...
03-06 16:57:10

精彩推送