神经机器翻译-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 会计>>

会计库

>>

神经机器翻译

神经机器翻译

发布:时光永痕 | 分类:会计库

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

神经机器翻译几个世纪以来,人们一直梦想着与外国人进行更轻松的交流。教计算机翻译人类语言的想法可能与计算机本身一样古老。建立此类技术的首次尝试可以追溯到1950年代。但是,最初的十年研究未能取得令人满意的结 ...
扫码加入财会交流群


神经机器翻译
几个世纪以来,人们一直梦想着与外国人进行更轻松的交流。教计算机翻译人类语言的想法可能与计算机本身一样古老。建立此类技术的首次尝试可以追溯到1950年代。但是,最初的十年研究未能取得令人满意的结果,直到1990年代后期,机器翻译的概念被遗忘了。当时,互联网门户网站AltaVista推出了名为Babelfish的免费在线翻译服务,该系统已成为包括Google Translate在内的众多类似服务的先驱。当前,现代机器翻译系统依赖于机器学习和深度学习 提高产出并可能解决理解上下文,语气,语言记录和非正式表达的问题的技术。
直到最近,包括Google翻译在内,一直使用的技术都是统计性的。尽管对相关语言非常有效,但对于不同族的语言,它们的性能往往较差。问题在于它们将句子分解成单个单词或短语,并且在生成翻译时一次只能跨越几个单词。因此,如果语言具有不同的单词顺序,则此方法将导致尴尬的文本块序列。
转向神经网络
神经网络的最新应用提供了更准确和流利的翻译,该翻译将考虑源语句的整个上下文以及到目前为止生成的所有内容。神经机器翻译通常是具有编码器/解码器体系结构的神经网络。一般而言,编码器推断出源句子的连续空间表示形式,而解码器则是基于编码器输出的神经语言模型。为了使来源句和目标句的可能性最大化,两个模型的参数都是从平行语料库中共同学习的(Sutskever等,2014; Cho等,2014)。根据推断,通过从左到右的解码来生成目标句子。
神经网络的优势
处理未知词
由于语言之间的自然差异,源句子中的单词通常在目标词汇表中没有直接翻译。在这种情况下,神经系统借助注意力机制实现的源和目标之间的软对齐,为未知单词生成占位符。然后,可以在根据培训数据构建的双语词典中查找翻译内容,以解决错别字,缩写和舌头滑脱的问题,而传统的统计方法并未完全解决该问题。
调整模型参数
神经网络具有可调参数来控制诸如模型的学习率之类的东西。找到最佳的超参数集可以提高性能,但是对于每个模型和每个机器翻译项目,这些参数可能都不同。因此,实际上,这对于大规模的机器翻译提出了重大挑战,因为每个翻译方向都由具有自己的超参数集的唯一模型表示。由于每个模型的最佳值可能不同,因此我们必须针对生产中的每个系统分别对其进行调整。
数据少
通常,神经机器翻译模型会计算目标词汇表中所有单词的概率分布,这会大大增加计算时间。但是,对于资源贫乏的语言,可以使用相关表面语言形式的语言功能并实现直接的零镜头翻译,从而在相关语言上开发双语言或多语言系统以进行参数传递
机器翻译的神经网络类型
有许多使用不同神经结构的方法,包括递归网络(Sutskever等人,2014; Bahdanau等人,2015; Luong等人,2015),卷积网络(Kalchbrenner等人,2016; Gehring等人)等人,2017; Kaiser等人,2017)和变压器网络(Vaswani等人,2017)。
但是,最新的技术是注意力机制,其中编码器产生一系列矢量,而解码器通过上下文相关的编码器矢量的加权和来关注信号源中最相关的部分(Bahdanau等人(2015年; Luong等人,2015年)。
注意序列到序列LSTM
从这个意义上说,最有前途的算法之一是被称为序列对序列LSTM(长短期记忆)的递归神经网络。
序列到序列(或Seq2Seq)模型对于翻译任务非常有用,因为从本质上讲,它们从一种语言中提取单词序列,然后将其转换为另一种语言中的不同单词序列。句子本质上是依赖序列的,因为单词的顺序对于呈现含义至关重要。反过来,LSTM模型可以通过记住(或忘记)某些部分来赋予序列意义。最后,注意力机制着眼于输入序列并确定序列的哪些部分很重要,这与人类文本感知非常相似。在阅读时,我们专注于当前单词,但与此同时,我们在内存中保留了重要的关键字,以建立上下文并理解整个句子。
变压器
向前迈出的又一步是在论文《注意就是你所需要的》中引入了Transformer模型。与LSTM相似,Transformer借助编码器和解码器将一个序列转换为另一个序列,但没有任何递归网络。
在此图中,编码器(左侧)和解码器(右侧)由可以多次堆叠的模块组成,并且主要由多头注意和前馈层组成。首先将输入和输出嵌入到n维空间中。
变形金刚的重要组成部分是不同单词的位置编码。由于它没有经常性的网络来记住将序列输入模型的方式,因此它赋予序列的每个单词/部分一个相对位置,因为序列取决于其元素的顺序。这些位置将添加到每个单词的嵌入表示形式(n维向量)中。
在从英语到法语(Luong等人,2015)和英语到德语(Jean等人,2015)的大规模翻译任务中,神经机器翻译(NMT)取得了显著成果。
科学力量采取行动
受Edunov等人的En-De模型结果启发。(2018),我们通过反向翻译对其进行了扩展。我们的最终目标是为En / De新闻网站开发一种机器翻译系统。
为此,我们创建了一个基于Transformer模型的De-En机器翻译系统(Edunov等,2018),该系统是fairseq工具包的一部分。
第一步,我们在Google Colab上测试了预训练的EN-DE模型的性能。p1模型为12gb,分为6个模型2gb。由于RAM限制,我们仅设法启动了其中的3个,但仍然显示出出色的结果。第二个p2模型为1.9gb,虽然不如p1大,但性能相当不错。同时,它更轻巧,需要的资源更少。
遵循参考文件作者的建议,我们使用了transformer_wmt_en_de_big体系结构来训练反向翻译模型。该任务分为三个模块:De-En翻译,De-En翻译和反向翻译以及En-De翻译。每个模块的内部阶段都相同:
数据收集与清理
我们为任务使用了两种类型的语料库:
De-En和En-De并行语料库
新闻的英文单语语料库
为了收集和清理数据,我们使用了prepare-wmt14de2en.sh 脚本—对原始prepare-wmt14en2de.sh的修改,使用了其他数据集并删除了重复项。
cd范例/翻译
BPE_TOKENS = 32764 bash prepare-wmt14en2de.sh
对于双语数据的生成,我们假设所有的双语数据均已收集并分成104个分片,可供下载。为了从单语碎片中获取翻译数据,我们使用了名为run_batches.sh的脚本。然后,我们在GPU之间手动分配了分片转换任务。翻译完所有分片并收集了所有双语数据后,我们将BPE应用于它们,并连接到整个数据集,并运行清理脚本。从双语数据获得的BPE代码文件已被所有三个子任务重用。
前处理
对于这两个De-En任务,所使用的shell命令和方法与模型文档中提供的命令和方法几乎相同。
对于En-De任务,我们使用以下Shell命令和方法重用基线模型随附的字典:
$ TEXT =示例/翻译/ wmt17_de_en
$ python preprocess.py --source-lang和--target-lang de \
--trainpref $ TEXT /火车--validpref $ TEXT /有效--testpref $ TEXT / test \
--destdir data-bin / wmt17_zh_CN_de_joined_dict \
--srcdict data-bin / wmt17_en_de_joined_dict / dict.en.txt \
--tgtdict data-bin / wmt17_en_de_joined_dict / dict.de.txt
训练
对于单语和双语的En-De转换任务,我们使用了类似于此处指定的shell命令和方法。为了减少培训时间,我们尝试在8个GPU上使用更大的批次和更高的学习率。为此,我们指定了--update-freq 16和学习率--lr 0.001。但是,培训通常会失败,并显示一条错误消息,提示您降低学习率或增加批量大小。因此,我们不得不在训练过程中多次降低学习率。获得最佳BLEU分数的总体培训应花费约20个小时。
训练逆模型的背后逻辑是仅使用并行数据。目标方的单语数据以我们在阶段训练的模式进行翻译。之后,我们结合了可用的bitext和生成的数据,使用preprocess.py对其进行了预处理,并训练了最终模型。
Shell使用的命令和方法:
python train.py data-bin / wmt17_en_de_joined_dict \
--arch转换器_vaswani_wmt_en_de_big-共享所有嵌入\
--optimizer亚当--adam-betas'(0.9,0.98)'--clip-norm 0.0 \
--lr-scheduler inverse_sqrt --warmup-init-lr 1e-07 --warmup-updates 4000 \
--lr 0.0005 --min-lr 1e-09 \
-掉落0.3-权重衰减0.0-标准label_smoothed_cross_entropy --label-smoothing 0.1 \
--max-tokens 3584 \
--fp16 --reset-lr-scheduler
用于训练的实际命令可能与上面指定的命令不同,但是关键是指定--reset-lr-scheduler参数,否则,Fairseq将报告错误。
所得模型的BLEU得分(?35)与参考模型一样高,甚至更高。从经验上讲,它的性能也与Edunov等人在参考论文中讨论的预训练EN-DE模型一样好。(2018)。
除了任务的实际方面之外,我们还证明了Fairseq中用于机器翻译的Transformer模型产生了良好的结果,并且可以快速扩展以覆盖其他语言对,这对于类似项目来说是有价值的功能—对于神经机器来说是一个步骤翻译以征服世界。

https://pic.jg.com.cn/img/pinggu/c2d3f9902d687474703a2f2f6564752e6364612e636e2f66696c65732f64656661756c742f323032302f30372d30382f3131353830313935626234323037323832322e706e67996b467026.jpg

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-9265959-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
经管之家 人大经济论坛 大学 专业 手机版