智东西(公众号:zhidxcom)
编辑 | ZeR0

智东西6月1日(ri)报道(dao),近期,字(zi)节跳动火山语(yu)音(yin)团队的最(zui)新音(yin)乐检索系统ByteCover2入(ru)选了国际语(yu)音(yin)技术领域顶(ding)会ICASSP 2022。

该系统主要面向音乐信息检索(MIR)领域的重要任务之一——翻唱识别(CSI,通过表征学习方法让其具备提取音乐核心特征的能力,并且该特征能够对种类繁多的音乐重演绎具有良好的鲁棒性,检索速度提高8

经Da-Tacos数据集上的评估,其准确率远超其他方案的SoTA性能。 

除了ByteCover2,字节跳动火山语音团队还有多篇论文被ICASSP 2022收录,内容涵盖智能音乐、音频合成、音频理解、超脑等多个方向

一、翻唱识别:设计隐式嵌入降维方法 

翻唱识别往往需要对音乐中的一些常见变化具有鲁棒性,从而保证系统专注于对音乐旋律走向的建模。在设计翻唱识别系统时,音乐调式偏移、音乐结构变化、音乐节奏变化这(zhei)三(san)种音乐变化通常会(hui)被重点考虑。

此(ci)外,抖音(yin)平台(tai)上(shang)每日新增千万量(liang)级的(de)用户投稿(gao),如何快速应对巨量(liang)查询需(xu)求,提(ti)高识别系统(tong)的(de)整(zheng)体吞吐量(liang)并同时(shi)确(que)保识别准确(que)性,也是亟待解决的(de)问题。

在内(nei)部开发(fa)返厂识别时,字节跳动还面临另(ling)一挑(tiao)战,即在设计特征时,如(ru)何在保障其他性(xing)质的(de)前提下尽(jin)可能(neng)减小特征大小,从而减少存储空间,降低系统复杂度和(he)成(cheng)本(ben)。

在ByteCover2系统中,字节跳动火山语音团队通过多任务学习范式联合ResNet-IBN模型,做到从音频输入中提取鲁棒且具备区分性的向量表征。针对效率优化问题,团队还提出了PCA-FC模块,实践证明该模块在保证ByteCover2模型性能不变甚至提高的前提下,可将向量尺寸压缩至ByteCover1的1/8

字节跳动将音乐检索速度提高8倍,多篇论文入选语音顶会▲Bytecover模型结构与训练流程

1、多任务学习提高音乐检索能力

翻唱识别(bie)(bie)领域(yu)通常(chang)存在两(liang)种训练范式,分别(bie)(bie)是(shi)多分类学习和(he)度(du)量学习。

前(qian)者将每个(ge)曲(qu)目(mu)视为(wei)一个(ge)独立类(lei)别,在(zai)特(te)征层(ceng)(ceng)后(hou)(hou)(hou)加上全(quan)连接层(ceng)(ceng),并通过(guo)交叉熵等分(fen)类(lei)损(sun)失对模型进行(xing)训练(lian),训练(lian)完成后(hou)(hou)(hou)去掉(diao)全(quan)连接层(ceng)(ceng),使用特(te)征层(ceng)(ceng)的(de)输出(chu)作为(wei)歌曲(qu)的(de)表征;后(hou)(hou)(hou)者直(zhi)接在(zai)特(te)征层(ceng)(ceng)之上,使用triplet loss等度量学(xue)习(xi)损(sun)失训练(lian)网络。

总(zong)体来(lai)看(kan),两(liang)种(zhong)训练范式(shi)各有优劣(lie),团队通过实验发现,分类损(sun)失(shi)往(wang)往(wang)能(neng)提高(gao)模型对(dui)同(tong)曲目(mu)不同(tong)风格版(ban)本的(de)检(jian)索能(neng)力,细致设计的(de)度量(liang)学习损(sun)失(shi)则能(neng)提高(gao)翻(fan)唱网络对(dui)相似风格不同(tong)曲目(mu)音乐的(de)区分能(neng)力。

因此ByteCover系列模型对这两种学(xue)习范式进行了(le)(le)结合(he),并通(tong)过引入BNNeck模块,提(ti)高了(le)(le)两种损失的兼容性(xing)。

2ResNet网络与IBN正则化方法(ResNet & Instance-Batch Normalization

为了简(jian)化音乐特(te)征提(ti)取的流程,加快特(te)征提(ti)取速(su)度,团队使(shi)用(yong)CQT频谱图作(zuo)为模(mo)型的输(shu)入,而(er)不使(shi)用(yong)在同期其(qi)他翻唱识(shi)别方法中常(chang)用(yong)的cremaPCP或其(qi)他更为复杂的特(te)征,但此设计(ji)会天(tian)然地在输(shu)入特(te)征层面(mian)上损害模(mo)型对音频频移的鲁棒(bang)性。

因此,团队选(xuan)择卷积(ji)神经网络(luo)做(zuo)了音乐表征提取网络(luo),希望能利用卷积(ji)网络(luo)的平移不变(bian)性来实(shi)现模型(xing)对频移的不变(bian)性。

实验证明,CQT谱+普通(tong)ResNet组合(he)已(yi)在效率(lv)和性能(neng)上超过CremaPCP+CNN的设计(ji)。

深(shen)入探究,团(tuan)队引入了Instance-Batch Normalization来从网络隐(yin)表(biao)示的(de)层(ceng)面进一(yi)步学(xue)习和风(feng)格(ge)无(wu)关的(de)音(yin)乐特(te)征(zheng),即特(te)征(zheng)图上(shang)(shang)不(bu)同通(tong)(tong)道间的(de)均(jun)值方差等(deng)统计量(liang)与输入的(de)风(feng)格(ge)化(hua)特(te)征(zheng)相关。IN通(tong)(tong)过对特(te)征(zheng)图的(de)通(tong)(tong)道维(wei)度做的(de)归一(yi)化(hua)处理(li),一(yi)定程度上(shang)(shang)实(shi)现了在(zai)隐(yin)藏表(biao)征(zheng)层(ceng)面上(shang)(shang)去除风(feng)格(ge)化(hua)信息,从而提高翻(fan)唱(chang)识别模型对音(yin)色变化(hua)的(de)鲁棒(bang)性。

3、特征降维模块(PCA-FC

通过(guo)测算,团队发现工业级别的(de)(de)翻唱(chang)系(xi)统大(da)部(bu)分(fen)耗时集中(zhong)在特(te)征(zheng)检索阶段,而这一(yi)阶段的(de)(de)时间消耗基本和曲库的(de)(de)大(da)小以及特(te)征(zheng)向量(liang)(liang)的(de)(de)尺寸(cun)线性相关。曲库中(zhong)歌(ge)曲的(de)(de)数(shu)目会(hui)随着业务的(de)(de)增(zeng)长(zhang)而不(bu)断增(zeng)加,因此降低(di)特(te)征(zheng)向量(liang)(liang)尺寸(cun)成(cheng)为优化(hua)检索系(xi)统整体耗时的(de)(de)必由(you)之路(lu),而同期其他翻唱(chang)向量(liang)(liang)特(te)征(zheng)降维的(de)(de)工作(zuo)往往采用一(yi)个全连接层来将高(gao)维向量(liang)(liang)投(tou)影到维度更低(di)的(de)(de)空(kong)间。

实(shi)验结(jie)果发现,单纯使(shi)用(yong)全连接层进行(xing)降(jiang)维会明显降(jiang)低系统(tong)的检索(suo)能(neng)(neng)力(li),团队认为(wei)这种现象不仅(jin)是因为(wei)更小的尺寸限制了向量(liang)的表征能(neng)(neng)力(li),性(xing)能(neng)(neng)的损失(shi)也来(lai)自于随机(ji)初始化的全连接层对特征各(ge)向同性(xing)的破坏(huai)。

随后(hou)对数据可视化之后(hou)可发现,降(jiang)维后(hou)特征分(fen)布在一个(ge)锥形空间(jian),表(biao)现出明(ming)显的(de)(de)各(ge)向异性,此种性质不(bu)利于使用余弦距离为度量的(de)(de)向量检索。

因此团队尝试(shi)使(shi)用PCA对(dui)特征向(xiang)量进行降维(wei)操作并(bing)随后用PCA的变换矩阵(zhen)初始化(hua)一(yi)个全连接层,把该(gai)层和特征提(ti)取网络(luo)连接进来并(bing)联合(he)训(xun)练,并(bing)将模块称作PCA-FC。

实验结果显示,PCA-FC能显著提升降维模型的检索性能,在保持检索性能不变的前提下向量尺寸可以被压缩8倍

字节跳动将音乐检索速度提高8倍,多篇论文入选语音顶会▲对比结果

从结果来看,一直以来Da-Tacos是作为评估翻唱识别的基准测试数据集,在该数据集上,采用1536维的ByteCover2模型取得了远超其他方案的SoTA性能,全类平均正确率指标(mAP)达到79.1%,而ByteCover系(xi)列以(yi)外的最(zui)好方法Re-MOVE的该项指标只有(you)52.5%。

值得一提的是,128的ByteCover2模型甚至超过了2048的ByteCover1和Re-MOVE方法。

此外,ByteCover1系统还参加了2020国际音频检索评测大赛MIREX,过程中大幅刷新了翻唱识别赛道历年最好记录,mAP指标达到84%,是同年参加该竞赛的其他方案性能的14

字节跳动将音乐检索速度提高8倍,多篇论文入选语音顶会

二、智能音乐:提高挑选音乐片段效率,创新自监督音乐预训练算法

在(zai)智能(neng)音(yin)乐方(fang)向,字节(jie)跳动火山语音(yin)团队基于Transformer的(de)声音(yin)事件检(jian)测模型HTS-AT、基于层级式(shi)Transformer的(de)自监督音(yin)乐预训(xun)练算(suan)法(fa)S3T两篇论文均被ICASSP 2022收录。

1HTS-AT:用于声音分类和检测的分层标记语义音频

HTS-AT针对音频任务(wu)的特性,该结构能有效提高音频频谱(pu)信(xin)息在深度Transformer网络中的流(liu)动(dong)效率,提高了模(mo)型(xing)对声音事件的判别能力(li),并(bing)且通过降(jiang)低输出特征图的大小,显著降(jiang)低了模(mo)型(xing)地(di)计算量与内存消耗。HTS-AT还(hai)引入(ru)了Token Semantic模(mo)块,使(shi)模(mo)型(xing)具(ju)备(bei)预测声音时(shi)间(jian)起始与终止点的能力(li),并(bing)且无需使(shi)用额外有标注数据(ju)进(jin)行(xing)训练。

字节跳动将音乐检索速度提高8倍,多篇论文入选语音顶会▲HTS-AT模(mo)型的结构

综合以上技术,HTS-AT在标准数据集AudioSet上的mAP指标达到0.471是当前的该数据集上的最佳水平,且参数与计算量都小于之前的最佳方法;另外,在声音事件定位任务上,HTS-AT无需额外标注数据,即达到有监督定位模型的性能水平。 

在音(yin)(yin)乐识别场景中,声音(yin)(yin)事件检测模型会挑(tiao)选包含音(yin)(yin)乐的片(pian)段送(song)入音(yin)(yin)乐检索系(xi)统,以此来提高整个系(xi)统的效率与准确性。

2S3T:针对音乐分类基于Swin Transformer的自监督预训练

这篇文章提出了一种创新(xin)的、基于(yu)层级式Transformer的自监(jian)督(du)音乐预训(xun)练算法S3T。

S3T使用(yong)了大规模音(yin)乐预训(xun)练(lian)配合少量标签数(shu)(shu)据微(wei)调的(de)范式,充分利(li)用(yong)大量无标签的(de)音(yin)乐数(shu)(shu)据,通过挖掘时(shi)域和频域的(de)信息(xi),学习(xi)具有(you)较(jiao)强泛(fan)化性(xing)的(de)通用(yong)音(yin)乐表征(zheng)。S3T在多个下(xia)游任务上均取(qu)得很好效果(guo),特(te)别是仅使用(yong)10%的(de)标签数(shu)(shu)据进行微(wei)调效果(guo)便能超(chao)过使用(yong)以往全(quan)量标签数(shu)(shu)据训(xun)练(lian)的(de)模型,大幅降低了人工数(shu)(shu)据标注的(de)成本。

字节跳动将音乐检索速度提高8倍,多篇论文入选语音顶会▲S3T模(mo)型结构与训练流程

音(yin)乐自(zi)监(jian)督(du)学(xue)习无需大量(liang)人(ren)工标签便可利用(yong)大量(liang)音(yin)乐数(shu)据充分挖掘其(qi)自(zi)身的表(biao)征(zheng),且拥有较强的通用(yong)性(xing)。本文提出(chu)的音(yin)乐表(biao)征(zheng)自(zi)监(jian)督(du)学(xue)习,为音(yin)乐理解构筑了基础(chu)。

S3T目前(qian)已经应(ying)用在音(yin)乐(le)标(biao)签、音(yin)乐(le)指纹(wen)等(deng)(deng)场(chang)景,微调后的(de)S3T可以为音(yin)乐(le)打上风格、语种、情绪等(deng)(deng)标(biao)签,可靠的(de)音(yin)乐(le)标(biao)签可以进一步服务音(yin)乐(le)推(tui)荐系统,使其精(jing)准(zhun)地(di)向来(lai)自不同地(di)区的(de)用户(hu)推(tui)送合适的(de)音(yin)乐(le)。

三、音频合成:实现数字人个性化穿搭和场景自由

在音(yin)频合成(cheng)方向,字节跳(tiao)动火山语音(yin)团(tuan)队(dui)基(ji)于(yu)服装风格迁移(yi)实现场景感知下的人物视频生成(cheng)论(lun)文被(bei)ICASSP 2022收录。

该方向(xiang)致力于解决视频中人物个(ge)(ge)性化穿搭(da)和(he)背景(jing)场景(jing)自由的选择问题,设计了多(duo)个(ge)(ge)解耦encoder学习(xi)人物不(bu)同(tong)的属性(身份、衣服(fu)和(he)姿态),通过共享decoder融合多(duo)层面(mian)信息。

不(bu)同于图片任务,视频(pin)需要学(xue)习帧之间的变(bian)化,所(suo)以团(tuan)队(dui)设计了(le)帧间判别器(qi)(Inner-frame Discriminator)来(lai)大(da)幅(fu)提升稳(wen)定性。具(ju)体(ti)来(lai)说,在模型生成的结果上(shang)应(ying)用掩码,人物可切换到任意(yi)场景上(shang)。

工作在公开数据集TEDXPeople,相对baseline系统(CVPR2021)视频中衣服个性化的多项客观指标均有显著改善,可以达到SOTA效果:SSIM +0.047,PSNR +4.6,FID(越小越好) -0.4, FVD(越小越好)-0.543

字节跳动将音乐检索速度提高8倍,多篇论文入选语音顶会▲场景感知的服(fu)装风格迁移模型框架(jia)

在数(shu)字(zi)人多模态生成的(de)场(chang)景(jing)和业(ye)务中(zhong),数(shu)字(zi)人主播衣(yi)服的(de)个(ge)性化穿搭和场(chang)景(jing)自(zi)由的(de)选(xuan)择(ze),为用户提供(gong)了自(zi)主可控的(de)个(ge)性化能力,可大幅增加数(shu)字(zi)人生态的(de)多样性。

四、音频理解:提升语音识别定制化性能,优化数据标注质量

在音频理解方向,字节(jie)跳(tiao)动(dong)火山语音团队基于细粒度语境(jing)(jing)知(zhi)识(shi)(shi)选择的(de)端(duan)到端(duan)(语境(jing)(jing))语音识(shi)(shi)别提升方法(fa)、非自(zi)回归(gui)Transformer自(zi)动(dong)语音识(shi)(shi)别的(de)最小词(ci)误差训练、使用(yong)梯度掩码改进端(duan)到端(duan)语音识(shi)(shi)别的(de)伪标签训练论(lun)文被(bei)ICASSP 2022收(shou)录。

此外,面(mian)向会(hui)议场景(jing),火山语音团(tuan)队在(zai)ICASSP 2022多方会(hui)议转录挑战赛(M2MeT)的两个限定训练(lian)数据子赛道上分获第二名和第四名。

1、基于细粒度语境知识选择的端到端(语境)语音识别提升方法

该工(gong)(gong)作在(zai)(zai)一(yi)种被称(cheng)为协(xie)(xie)同解码(ma)(Collaborative Decoding,ColDec)的语(yu)音(yin)识(shi)(shi)(shi)别(bie)定(ding)制化/个(ge)性化方法的基础上,提(ti)出了细粒度语(yu)境(jing)(jing)知识(shi)(shi)(shi)选择机制(Fine-grained Contextual Knowledge Selection),来进一(yi)步增强该方法在(zai)(zai)大热词列表和较多干(gan)扰(rao)热词情境(jing)(jing)下的语(yu)音(yin)识(shi)(shi)(shi)别(bie)定(ding)制化性能。在(zai)(zai)先前工(gong)(gong)作中,一(yi)种被称(cheng)为协(xie)(xie)同解码(ma)(Collaborative Decoding)的语(yu)音(yin)识(shi)(shi)(shi)别(bie)定(ding)制化技术(shu)有效(xiao)地(di)提(ti)升了定(ding)制化识(shi)(shi)(shi)别(bie)性能。

本文针(zhen)对其在大热(re)词列表和较多干(gan)扰热(re)词情(qing)境下的性能衰减问题,提(ti)出(chu)了(le)(le)细粒度语境知(zhi)识选择机(ji)制,进(jin)一步增强了(le)(le)协同解码技术在定(ding)制化场景下的能力(li)。

在公开数据集Librispeech上,本文方法在基础CIF语音识别模型的test-clean 2.12%的WER基础上,进一步为WER带来了约5%的相对下降;在内部16w小时工业级ASR数据集训练的语音识别模型的基础上,该方法在真实会议测试集上为CER带来了最高约16%的相对下降。

字节跳动将音乐检索速度提高8倍,多篇论文入选语音顶会▲a. 协同解码    b.细粒度(du)语境(jing)知(zhi)识选择(ze)

应用(yong)场景方面,该方法可被用(yong)于语音识别定制化,例如在(zai)(zai)智能语音助手和在(zai)(zai)线视(shi)频会议等应用(yong)场景中,许多(duo)同背(bei)景相关的关键(jian)短语、个(ge)性化信息(xi)、热词等内容都较(jiao)难识别。

此外(wai),它也可以用(yong)在移动端智能(neng)语音助手(shou)的(de)应用(yong)场(chang)(chang)景下(xia),联系人列表(biao)中的(de)联系人姓名,频繁(fan)出(chu)没的(de)地点位置(zhi)等个(ge)性化(hua)信(xin)息;在线会(hui)议场(chang)(chang)景下(xia),参会(hui)人员(yuan)的(de)姓名,会(hui)议主题相关的(de)专业术(shu)语等,针对性地提升这(zhei)些定(ding)制化(hua)和个(ge)性化(hua)文(wen)本内容的(de)语音识别性能(neng),在实(shi)际应用(yong)场(chang)(chang)景中有重要意义。

2、非自回归Transformer自动语音识别的最小词误差训练

这篇论文由字节跳动(dong)和南洋理(li)工大(da)学(NTU)共同(tong)完成(cheng)。近年(nian)来由于基于非(fei)自回归Transformer(NAT)的(de)自动(dong)语音识(shi)别(ASR)框架的(de)以(yi)下优点,分(fen)别是“当前的(de)输(shu)出与历(li)史的(de)输(shu)出无关”以(yi)及“其推理(li)速度非(fei)常快”,其在业(ye)界日益受(shou)到重视(shi)。

对此,团队对于其在语码转换语音识别任务(CSSR)上的性能有所期待。另外据不完全了解,似乎并没有出现将最小词错率(MWER)准则应用于NAT模型的先例,所以该工作在一定程度上填补了此项空白,且在SEAME语码转换数据集上得到了验证。

本文的(de)(de)(de)贡献主要在两个方面:(1)在语码转换的(de)(de)(de)场(chang)景下,提出了多种CTC掩(yan)蔽的(de)(de)(de)方式训(xun)练NAT模型;(2)在MWER训(xun)练准则下,提出了多种N-best假设的(de)(de)(de)生成(cheng)方法。

其发现及结论(lun)(lun)是:(1)无(wu)论(lun)(lun)在单(dan)语言(yan)还是跨语言(yan)的(de)(de)(de)场景下,上(shang)下文相关的(de)(de)(de)场景信息非常重要,而NAT没有历史(shi)信息,NAT模型(xing)相比自回归的(de)(de)(de)Transformer(AT)得到了一(yi)致性更差的(de)(de)(de)结果;(2)严重受限(xian)于N-best假设的(de)(de)(de)生成方法,在NAT模型(xing)上(shang)进行基于N-best的(de)(de)(de)MWER训练只(zhi)得到了细微(wei)的(de)(de)(de)提升,所以如何生成更丰富的(de)(de)(de)N-best有待进一(yi)步研(yan)究。

3、使用梯度掩码改进端到端语音识别的伪标签训练

一直以来,打伪(wei)标签在自(zi)监(jian)(jian)督(du)学习中都是(shi)最重要(yao)的方(fang)法,最近在语音识别领域也展现出极(ji)好(hao)的效果,但(dan)是(shi)自(zi)监(jian)(jian)督(du)学习对(dui)伪(wei)标签的质量极(ji)其敏感,主要(yao)是(shi)因为伪(wei)标签中的错(cuo)误或者噪(zao)声常常会(hui)导致模型(xing)训练的不(bu)稳定并(bing)最终(zhong)收敛到非最佳的状态,特别是(shi)对(dui)于(yu)e2e的模型(xing)比如RNNT。

对(dui)(dui)此该论文提出了(le)Gradient-mask的方法来应对(dui)(dui)以上问(wen)题。此方法在训练过程中(zhong)抹去了(le)encoder中(zhong)可(ke)见input的对(dui)(dui)应梯度,从而鼓励(li)模(mo)型从不可(ke)见的部(bu)分进行推测,并(bing)且能有(you)效(xiao)降(jiang)低模(mo)型对(dui)(dui)corrupted label的overfit。

应(ying)用场景(jing)方面(mian),此方法(fa)可(ke)以有效(xiao)应(ying)对模型overfit到corrupted label并提升模型训练的效(xiao)果,例如半监督自(zi)学习中,因(yin)(yin)为domain不match等原因(yin)(yin)导致pseudo-label质量(liang)过差,以及(ji)已知一部分数据标注质量(liang)过差的问题。

4ICASSP 2022多方会议转录挑战赛的火山语音系统

会议(yi)场景是(shi)语(yu)音(yin)识别和说话(hua)人日(ri)志技术应用中最有价(jia)值(zhi)和挑战的场景之一(yi),会议(yi)场景包含了丰(feng)富的说话(hua)风格和复杂的声学(xue)条件(jian),需要考虑重叠语(yu)音(yin)、未知(zhi)数量说话(hua)人、远场信号(hao)、噪(zao)音(yin)、混响等挑战。

ICASSP 2022多通(tong)(tong)道(dao)(dao)多方会(hui)议(yi)转录挑战(M2MeT)提供了120小时真(zhen)实记录的中文会(hui)议(yi)数据(ju)(ju),包含8通(tong)(tong)道(dao)(dao)麦(mai)克(ke)风远场数据(ju)(ju)和(he)对应耳机(ji)麦(mai)克(ke)风采(cai)集(ji)的近(jin)场数据(ju)(ju)。M2MeT挑战赛(sai)(sai)包括多说话人语音识(shi)别和(he)说话人日(ri)志两(liang)个赛(sai)(sai)道(dao)(dao),团队在限(xian)定训练数据(ju)(ju)子赛(sai)(sai)道(dao)(dao)上(shang)分别获(huo)得(de)第(di)二(er)名和(he)第(di)四名。

针(zhen)对(dui)(dui)多(duo)说(shuo)话人语(yu)音(yin)(yin)(yin)识(shi)别赛道(dao),团队(dui)提出一种神经网络前端模块(kuai)和(he)语(yu)音(yin)(yin)(yin)识(shi)别模块(kuai)端到(dao)端联合训练(lian)的(de)方(fang)法,输(shu)入8通(tong)道(dao)音(yin)(yin)(yin)频输(shu)出多(duo)说(shuo)话人识(shi)别文本(ben),除(chu)此之(zhi)外加入了丰富(fu)的(de)8通(tong)道(dao)数据仿(fang)真,在(zai)测试集上和(he)官方(fang)基(ji)线相(xiang)比CER相(xiang)对(dui)(dui)下降(jiang)32.6%。

在说话人日志赛道中,结合前端信号处理技术,团队提出一种融合声源定位信息的说话人日志方法,提高识别准确率;同时针对竞赛数据中存在的说话人重叠问题,提出一种多通道融合算法,减少重叠部分的说话人漏检,最后采用修改的DOVER-Lap算法对多套系统进行融合,最终在测试集上的DER(说话人日志错误率)相比官方基线相对下降53.7%

该技术可以被用在会议室多(duo)(duo)通道麦克风场景下,生(sheng)成(cheng)包含说话(hua)人(ren)信息的多(duo)(duo)说话(hua)人(ren)语音转录结果。

五、超脑方向:单一模型支持跨语言语音识别,减轻部署维护成本

在超脑方向(xiang),火山语(yu)音团队(dui)基于稀疏共享子网络的跨语(yu)言语(yu)音表征学习论文(wen)被ICASSP 2022收录(lu)。

该(gai)工(gong)作提(ti)出了一种(zhong)基于稀疏共享结构(gou)的多语言语音表征学习方法,即从模型中划分出多个稀疏子网络来分别(bie)对不同语言进(jin)行建(jian)模,进(jin)而实现语言自适应(ying)训练(lian),每个语言的子网络都通过裁剪不重要的参数进(jin)行提(ti)取。

基于此(ci),文中探索了一种(zhong)(zhong)基于彩(cai)票假设(Lottery Ticket Hypothesis)的(de)(de)提取方法(fa)以及另(ling)一种(zhong)(zhong)基于一阶泰(tai)勒展开的(de)(de)快速(su)提取方法(fa)。在下游(you)多语言语音识别任务上,所提出的(de)(de)方法(fa)可以大幅降低基线XLSR模型的(de)(de)错误率,并超过Gating Network、Adapter等其他自适应训练方法(fa)。

字节跳动将音乐检索速度提高8倍,多篇论文入选语音顶会▲基于稀疏共享结构的多语言预训练(lian)流程(cheng)

在国(guo)际(ji)化背景(jing)下,为了满(man)足(zu)不同语(yu)言(yan)(yan)(yan)的(de)字幕、审核和(he)翻译等需求(qiu),需要针对各个(ge)语(yu)言(yan)(yan)(yan)去搭建(jian)语(yu)音(yin)识别(bie)(bie)系统(tong)。多(duo)(duo)语(yu)言(yan)(yan)(yan)语(yu)音(yin)识别(bie)(bie)的(de)目标是(shi)用单一(yi)模型去支持(chi)多(duo)(duo)个(ge)语(yu)言(yan)(yan)(yan)的(de)语(yu)音(yin)识别(bie)(bie),可以有效的(de)减轻部(bu)署和(he)维护的(de)成(cheng)本,并能在一(yi)些(xie)低资源场景(jing)下提升识别(bie)(bie)效果,具有非常重要的(de)意义。

结语:AI语音正在业务场景释放更大价值

字节(jie)跳动火山(shan)语(yu)音团(tuan)队是原字节(jie)跳动AI Lab Speech & Audio智能语(yu)音与(yu)音频团(tuan)队,致力于为公司各个业务提供音频理解、音频合成、对话(hua)交(jiao)互(hu)、音乐(le)检(jian)索(suo)和(he)智能教(jiao)学等AI能力与(yu)方案。

自2017年成立以(yi)来,字节跳(tiao)动(dong)火山语音(yin)团队研发的AI智能语音(yin)技术,已经为(wei)今日(ri)头条、抖音(yin)、剪映、西瓜视频、番(fan)茄小说、飞(fei)书办(ban)公套(tao)件等字节跳(tiao)动(dong)旗(qi)下重量级(ji)产(chan)品(pin)提供了(le)各类AI解(jie)决方(fang)案。

截至目前,该团(tuan)队已服务上百个业(ye)务合作伙伴。伴随字(zi)节(jie)跳动(dong)业(ye)务的快速发展,其语音(yin)(yin)识别(bie)和(he)语音(yin)(yin)合成覆盖了(le)多种语言(yan)(yan)和(he)方言(yan)(yan),已有多篇论文入选各类AI顶(ding)级会议,未(wei)来希望继续发展70+语言(yan)(yan)和(he)20+方言(yan)(yan),用于满足内(nei)容创作与(yu)交流平台的需求。随着字(zi)节(jie)跳动(dong)火山(shan)语音(yin)(yin)团(tuan)队不断(duan)探索AI与(yu)业(ye)务场景的高效结合,我(wo)们期待(dai)看(kan)到其智能语音(yin)(yin)技术实现更大的用户价值(zhi)。