新智元ACL最佳论文公布59年,中 - 编程语言应用

TUhjnbcbe - 2021/12/18 15:03:00

白癜风早期发病原因 https://m-mip.39.net/woman/mipso_4656573.html

新智元报道

编辑：yaxin、好困

ACL最佳论文公布啦！字节跳动摘得唯一一篇最佳论文桂冠。这是ACL成立59年以来，中国科学家团队第2次摘得最高奖项。

上个月，ACL公布了最佳论文、最佳主题论文和杰出论文，共8篇论文入选！

其中，字节跳动摘得唯一一篇最佳论文（bestpaper）桂冠。

这是ACL成立59年以来，中国科学家团队第2次摘得最高奖项！

这篇获奖论文题目为VocabularyLearningviaOptimalTransportforMachineTranslation。

该研究提出了一种新的词表学习方案VOLT，在多种翻译任务上取得了优秀的结果。

今年是自然语言处理领域顶级会议ACL的第59届年会，于8月2日-5日在线上举行。

在8月5日进行的ACL大会上，主办方为最佳论文正式颁奖。

要说这次获奖的idea，离不开一个「执念」。

拼算力有用，节能环保同样值得探索

如今AI在全世界都很火，AI模型的强度往往和算力成正比，占用大量算力资源、消耗大量电能去训练超大模型成为一股风潮，而且确实创造了巨大的效益。

但是在字节AILab很多研究人员看来，在实现同样效果的前提下，降低模型复杂度、推动节能环保也是很有价值的一个研究方向。

VOLT论文第一作者许晶晶，就以「机器学习节能减排」的研究当选为AAAI今年评选的学术新星（NewFacultyHighlight）。

从VOLT的测试效果来看，其对促进AI产业节能环保极具潜力。

以主流词表BPE为例，业界普遍会通过大量自然语言处理下游任务的训练以寻找最优大小。

相比之下，使用VOLT方案可以节省大约92%的算力，这同时意味着所需电能的大量减少。

这篇论文得到ACL评审们的一致好评：

想法新颖；显著减少词表的学习和搜索时间；有效性已经通过几个实验得到了很好的证明。ACL官方评审意见认为：字节跳动的VOLT方案对机器翻译中一个重要问题提出了有效且新颖的解决方案，能显著减少词表的学习和搜索时间，相信其不仅会在研究界产生重要影响，在工业应用方面也有着巨大潜力。根据ACL官方信息，本届大会共计收到篇论文投稿，最终有21.3%的论文录用，并接收了14.9%的论文到Findings子刊，综合录用率为36.2%。那么，字节跳动AILab的VOLT为何能在篇论文中脱颖而出？

什么是VOLT？

VOLT最为突出的贡献便是去解决自然语言处理（NLP）的两个基本问题：什么是最优词表；如何生成最优词表。最优词表：以边际收益定义词表评价指标MUV子词级别词表的效果在多个任务上已经得到了验证，由此，作者表示子词是目前来说比较好的选择。相比于传统的词为基础单位的词表，子词规模小不会面临稀疏标记（token）的问题。其中，稀疏标记是指在语言中出现概率比较小的子词。相比于字结构的词表，子词也不会面临熵太大语义无法区分的问题。于是，在确定最优词表的评价指标方面，作者综合考虑了信息熵和词表大小这两个主要因素。信息熵信息熵也可以理解成为蕴含在每个字中的平均语义含量。直观上理解信息熵越小表示每个字或者词表示的信息越简单，那么更加利于模型学习。作者使用基于字的熵计算方式来评估该属性，其中v为词表，i为词表中的标记，P为标记在训练集出现的频率：词表大小机器学习对训练数据的数量要求很高，稀疏标记的出现概率较低，因此稀疏标记越多，需要的训练数据往往也就越多。在基于频率的方法下，词表越小，稀疏标记越少，参数也越少，因此，小的词表更加有利于模型学习。然而，信息熵和词表大小不可以兼得。词表越大，所需参数越大，稀疏标记越多，但是信息熵在减小。边际收益为了建模这种平衡，作者为此引入了边际收益的概念。边际收益衡量了付出单位代价所能获得的利益的数量。边际收益越大，那么投入产出比越高。将信息熵看成是边际收益中的利益，词表大小看成是边际收益中的代价。随着词表的增加，不同大小的词表的信息熵收益是不同的。因此，利用边际收益的概念便可以对衡量词表质量的指标MUV进行定义，并且可以观测到MUV指标和下游任务的相关性。生成最优词表：将词表搜索变为最优运输问题在确定词表评价指标MUV之后，学习最优词表的问题可以粗略地等价为寻找具有最大MUV的词表问题。但是词表搜索空间不仅庞大，而且是离散空间。为了解决这一问题，作者将词表搜索转化为最优运输的过程。词表搜索比如cat在训练集中出现了20次，那么cat需要20个c，20个a，和20个t来组成该标记。为了避免不合法的搬运，作者将不合法的搬运设为无穷大（比如字e搬运给标记cat是不合法的）。由于字的个数是有限的，有一些标记候选就无法拿到对应的字，那么这些标记将会从最终的词表中踢出去。为了将词表学习的问题转化成为最优运输的代价，就需要进行一些重构操作了：MUV可以理解成为熵对词表大小的一阶导数，为了建模连续的导数，作者引入了相对分数来模拟导数：H代表的是信息熵，分子是信息熵的相对变化量，而分母中的i代表词表大小的变化量，S是一个递增序列，每个元素代表以该时刻大小为上届的所有词表组合。因此对于每个步骤来说，都存在一个具有最大MUV分数的词表，只要对所有的步骤做遍历，就可找到最优词表。为了进一步降低求解难度，作者对每一步的求解公式做了一个近似：因此，每个步骤的问题就转化成了每个步骤寻找熵最大词表的问题。接着使用基于熵的最优运输解法就可以将最优运输的目标定义成为寻找熵最大词表的问题。如此便可以使用标准的求解算法去求解该公式：找到词表的最大熵并且计算出当前的最大MUV分数，最后遍历所有的步骤即可找到具有最优的MUV的词表。由于篇幅限制，这儿就不展开说了。相关细节可查看论文作者blog：