• 金鼎卫生院信息网
  • 您的位置:首页 >> 国内新闻 >> 正文

    ACL 2019 论文:谷歌提出增强神经网络机器翻译鲁棒性的新方法

    发表时间:2019-08-27 信息来源:www.giaoxuphuoc.com 浏览次数:1220

     

    雷锋我想分享4天前

    尽管近年来使用变压器模型的神经机器翻译(NMT)取得了巨大成功,但NMT模型仍然对输入中的小扰动敏感,导致各种误差。来自Google Research Institute的ACL 2019论文提出了一种方法,使用生成的对抗样本来提高机器翻译模型的稳健性,并防止输入中存在的小干扰影响它。结果表明,该方法在标准基础上提高了NMT模型的性能。在本文中,作者Yong Cheng,Lu Jiang和Wolfgang Macherey描述了他们在ACL 2019中发表的《具有双对抗性输入的鲁棒神经机器翻译》论文。

    具有双重对偶输入的鲁棒神经机器翻译

    近年来,使用变压器模型进行神经机器翻译(NMT)取得了巨大成功。基于深度神经网络的NMT模型通常在非常大的并行语料库(输入/输出文本对)上以完全数据驱动的方式执行端到端训练,而无需强制执行显式语言规则。

    尽管取得了巨大的成功,但NMT模型仍然对输入中的小扰动很敏感,这可能导致各种错误,例如翻译不足,翻译过错或翻译错误。例如,给定德语句子,最先进的NMT模型Transformer将生成正确的翻译:

    “Der Sprecher des Untersuchungsausschusseshatangekündigt,vor Gericht zu ziehen,the sich die geladenen Zeugen weiterhin weigern sollten,eine Aussage zu machen。”

    将机器翻译成英文:“机器翻译成英文:”调查委员会发言人宣布,如果被传唤的证人继续拒绝作证,他将被带上法庭(调查委员会发言人宣布如果被传唤证人继续拒绝作证,他将被带上法庭)“。

    但是,当我们对输入语句进行细微更改时,例如用同义词vorgeladenen替换geladenen,翻译会变得非常不同(在这种情况下翻译是错误的):

    “Der Sprecher des Untersuchungsausschusseshatangekündigt,vor Gericht zu ziehen,fall sich die vorgeladenen Zeugen weiterhin weigern sollten,eine Aussage zu machen。”

    将机器翻译成英文:“调查委员会宣布,如果被邀请的证人继续拒绝作证,他将被绳之以法”(调查委员会宣布,如果被邀请的证人继续拒绝作证,他将被绳子依据法律。“

    由于NMT模型缺乏稳健性,很难将其实际应用于许多无法承受其非稳健性的商业系统中。因此,学习健壮的翻译模型不仅有价值,而且还需要许多场景应用程序。然而,尽管神经网络的鲁棒性已经在计算机视觉领域进行了广泛的研究,但是在相关文献中对于学习鲁棒NMT模型的研究很少。

    在《具有双对抗性输入的鲁棒神经机器翻译》中,我们提出了一种方法来使用生成的对抗样本来提高机器翻译模型的鲁棒性,以防止输入中存在的小干扰影响它。我们学习了一个强大的NMT模型,通过直接使用模型知识和模型预测的意图来克服对抗样本。结果表明,该方法在标准基础上提高了NMT模型的性能。

    理想的NMT模型将为具有小差异的独立输入生成类似的转换结果。我们的方法的想法是使用拮抗输入来干扰翻译模型,以便提高模型的稳健性。它使用名为AdvGen的算法实现上述方法,该算法生成可信的反样本以干扰模型,然后将它们反馈到模型中以进行防御训练。尽管该方法受到产生反网络(GAN)思想的启发,但它不依赖于鉴别器网络,而是简单地将对抗样本应用于训练,有效地实现训练集的多样化和扩展。

    第一步是使用AdvGen干涉模型。我们首先使用Transformer根据源输入句子,目标输入句子和目标输出句子计算平移损失。然后AdvGen随机选择源句子中的一些单词,假设它们是均匀分布的。每个单词都有一个相似的单词列表。例如,可以使用“候选”一词代替“替换”,AdvGen从中选择最有可能在Transformer输出中导致错误的单词。然后,这个产生的对抗性声明反馈给Transformer,后者反过来启动防御阶段。

    image.php?url=0MpI8UyXul

    图1

    首先,将Transformer模型应用于输入句子(左下角)并与目标输出句子(右上角)和目标输入句子(右中心;从占位符“”开始)组合以计算翻译损失。 AdvGen函数采用源句,单词选择分布,单词“纪念品”和翻译损失作为输入来构建对抗源的样本。

    在防御阶段,对抗性声明被反馈到变压器模型中。变压器再次计算翻译损失,但这次使用反向源输入。Advgen使用上述方法,通过目标输入句、单词替换“纪念品”、注意矩阵计算的单词选择分布以及翻译损失,构造了一个对抗性目标样本。

    0×251d

    图2

    在防御阶段,将对抗源样本作为变压器模型的输入,计算转换损耗。然后,AdvGen使用与之前相同的方法从目标输入中生成一个对抗性目标样本。

    最后,将对抗语句反馈到变压器中,利用对抗源样本、对抗目标输入样本和目标语句计算鲁棒性损失。如果干扰造成了显著的损失,则损失最小化,这样当模型遇到类似的干扰时,不会产生相同的误差。另一方面,如果扰动造成的损失很小,则不会发生任何情况,表明模型能够处理这种扰动。

    将该方法应用于标准的中英、英汉翻译基准中,证明了该方法的有效性。与竞争变压器模型相比,我们观察到BLeu值分别显著增加了2.8(中英翻译)和1.6(中英翻译),并取得了新的最佳性能。

    0×251e

    图3

    在标准基准上与变压器模型的比较(Vaswani等人,2017年)

    然后,我们使用类似于AdvGen描述的过程生成的噪声数据集评估我们的模型。我们使用干净的输入数据集,例如标准翻译基准上使用的数据集,并随机选择单词进行类似的单词替换。我们发现我们的模型显示出比其他近期模型更好的稳健性。

    image.php?url=0MpI8UwIs8

    图4

    与Miyao等人工输入的变压器模型相比较。 (链接:)和程(论文链接:)

    结果表明,该方法可以克服输入语句中的小扰动,提高泛化性能。其性能优于同类翻译模型,并在标准基准测试中实现最先进的翻译性能。我们希望我们的翻译模型可以作为一个强大的构建块来改进许多下游任务,特别是那些对有缺陷的翻译输入敏感或无法容忍的任务。

    这项研究由Yong Cheng,Lu Jiang和Wolfgang Macherey完成。还要感谢我们的领导人Andrew Moore和Julia(Wenli)朱。

    通过:雷锋网雷锋网雷锋网络

    雷锋网原创文章,禁止擅自复制。有关详细信息,请参阅重印说明。

    收集报告投诉

    尽管近年来使用变压器模型的神经机器翻译(NMT)取得了巨大成功,但NMT模型仍然对输入中的小扰动敏感,导致各种误差。来自Google Research Institute的ACL 2019论文提出了一种方法,使用生成的对抗样本来提高机器翻译模型的稳健性,并防止输入中存在的小干扰影响它。结果表明,该方法在标准基础上提高了NMT模型的性能。在本文中,作者Yong Cheng,Lu Jiang和Wolfgang Macherey描述了他们在ACL 2019中发表的《具有双对抗性输入的鲁棒神经机器翻译》论文。

    具有双重对偶输入的鲁棒神经机器翻译

    近年来,使用变压器模型进行神经机器翻译(NMT)取得了巨大成功。基于深度神经网络的NMT模型通常在非常大的并行语料库(输入/输出文本对)上以完全数据驱动的方式执行端到端训练,而无需强制执行显式语言规则。

    尽管取得了巨大的成功,但NMT模型仍然对输入中的小扰动很敏感,这可能导致各种错误,例如翻译不足,翻译过错或翻译错误。例如,给定德语句子,最先进的NMT模型Transformer将生成正确的翻译:

    “Der Sprecher des Untersuchungsausschusseshatangekündigt,vor Gericht zu ziehen,the sich die geladenen Zeugen weiterhin weigern sollten,eine Aussage zu machen。”

    将机器翻译成英文:“机器翻译成英文:”调查委员会发言人宣布,如果被传唤的证人继续拒绝作证,他将被带上法庭(调查委员会发言人宣布如果被传唤证人继续拒绝作证,他将被带上法庭)“。

    但是,当我们对输入语句进行细微更改时,例如用同义词vorgeladenen替换geladenen,翻译会变得非常不同(在这种情况下翻译是错误的):

    “Der Sprecher des Untersuchungsausschusseshatangekündigt,vor Gericht zu ziehen,fall sich die vorgeladenen Zeugen weiterhin weigern sollten,eine Aussage zu machen。”

    将机器翻译成英文:“调查委员会宣布,如果被邀请的证人继续拒绝作证,他将被绳之以法”(调查委员会宣布,如果被邀请的证人继续拒绝作证,他将被绳子依据法律。“

    由于NMT模型缺乏稳健性,很难将其实际应用于许多无法承受其非稳健性的商业系统中。因此,学习健壮的翻译模型不仅有价值,而且还需要许多场景应用程序。然而,尽管神经网络的鲁棒性已经在计算机视觉领域进行了广泛的研究,但是在相关文献中对于学习鲁棒NMT模型的研究很少。

    在《具有双对抗性输入的鲁棒神经机器翻译》中,我们提出了一种方法来使用生成的对抗样本来提高机器翻译模型的鲁棒性,以防止输入中存在的小干扰影响它。我们学习了一个强大的NMT模型,通过直接使用模型知识和模型预测的意图来克服对抗样本。结果表明,该方法在标准基础上提高了NMT模型的性能。

    理想的NMT模型将为具有小差异的独立输入生成类似的转换结果。我们的方法的想法是使用拮抗输入来干扰翻译模型,以便提高模型的稳健性。它使用名为AdvGen的算法实现上述方法,该算法生成可信的反样本以干扰模型,然后将它们反馈到模型中以进行防御训练。尽管该方法受到产生反网络(GAN)思想的启发,但它不依赖于鉴别器网络,而是简单地将对抗样本应用于训练,有效地实现训练集的多样化和扩展。

    第一步是使用AdvGen干涉模型。我们首先使用Transformer根据源输入句子,目标输入句子和目标输出句子计算平移损失。然后AdvGen随机选择源句子中的一些单词,假设它们是均匀分布的。每个单词都有一个相似的单词列表。例如,可以使用“候选”一词代替“替换”,AdvGen从中选择最有可能在Transformer输出中导致错误的单词。然后,这个产生的对抗性声明反馈给Transformer,后者反过来启动防御阶段。

    image.php?url=0MpI8UyXul

    图1

    首先,将Transformer模型应用于输入句子(左下角)并与目标输出句子(右上角)和目标输入句子(右中心;从占位符“”开始)组合以计算翻译损失。 AdvGen函数采用源句,单词选择分布,单词“纪念品”和翻译损失作为输入来构建对抗源的样本。

    在防御阶段,对抗性陈述被反馈到变形金刚模型中。变压器再次计算转换损耗,但这次使用对抗源输入。使用上述方法,AdvGen使用目标输入句子,单词替换“纪念品”,由关注矩阵计算的单词选择分布和翻译损失构建拮抗目标样本。

    image.php?url=0MpI8U820n

    图2

    在防御阶段,拮抗源样本用作变换器模型的输入以计算平移损失。然后,AdvGen使用与以前相同的方法从目标输入生成拮抗目标样本。

    最后,将对抗性陈述反馈到变形金刚,并使用对抗源样本,对抗目标输入样本和目标句子计算鲁棒性损失。如果干扰导致显着损失,则损失最小化,以便当模型遇到类似干扰时,不会产生相同的误差。另一方面,如果由干扰引起的损失很小,则不会发生任何事情,表明模型已经能够处理这种干扰。

    通过将这种方法应用于标准的中英文和英汉翻译基准,我们的方法被证明是有效的。与竞争激烈的Transformer模型相比,我们观察到BLEU值分别显着增加2.8(中英翻译)和1.6(英汉翻译),并取得了新的最佳表现。

    image.php?url=0MpI8UsOTB

    图3

    与变压器模型(Vaswani等,2017)在标准基准测试中的比较

    然后,我们使用类似于AdvGen描述的过程生成的噪声数据集评估我们的模型。我们使用干净的输入数据集,例如标准翻译基准上使用的数据集,并随机选择单词进行类似的单词替换。我们发现我们的模型显示出比其他近期模型更好的稳健性。

    image.php?url=0MpI8UwIs8

    图4

    与Miyao等人工输入的变压器模型相比较。 (链接:)和程(论文链接:)

    结果表明,该方法可以克服输入语句中的小扰动,提高泛化性能。其性能优于同类翻译模型,并在标准基准测试中实现最先进的翻译性能。我们希望我们的翻译模型可以作为一个强大的构建块来改进许多下游任务,特别是那些对有缺陷的翻译输入敏感或无法容忍的任务。

    这项研究由Yong Cheng,Lu Jiang和Wolfgang Macherey完成。还要感谢我们的领导人Andrew Moore和Julia(Wenli)朱。

    通过:雷锋网雷锋网雷锋网络

    雷锋网原创文章,禁止擅自复制。有关详细信息,请参阅重印说明。

  • 热门标签

  • 日期归档

  • 友情链接:

    金鼎卫生院信息网 版权所有© www.giaoxuphuoc.com 技术支持:金鼎卫生院信息网 | 网站地图