机器学习翻译技术研究
熊伟 焦永禄
1.西安翻译学院信息工程学院,陕西省西安市7101052.西安讯飞超脑信息科技有限公司,陕西省西安市710076
1 机器学习概述
机器学习是在计算机系统支持下,由大量样本数据通过机器建模获得学习模型作为结果的一个过程,可用下面的公式表示:样本数据+机器建模=学习模型
由此可见,机器学习的两大要素是:样本数据与机器建模,故在讨论机器学习方法时首先要介绍样本数据与机器建模的基本概念,在此基础上对学习方法进一步探讨。
样本数据亦称样本(Sample)是客观世界中事物在计算机中的一种结构化数据的表示,样本由若干个属性组成,属性表示样本的固有性质。在机器学习中样本在建模过程中起到了至关重要的作用,样本组成一种数据集合,这种集合在建模中训练模型,其量值越大所训练的模型正确性越高,因此样本的数量一般应具有海量性[1]。
在训练模型过程中有两种不同表示形式的样本,样本中的属性在训练模型过程中一般仅作为训练而用,这种属性称为训练属性,因此如果样本中所有属性均为训练属性,这种样本通称为不带标号样本;而样本除训练属性外,还有另外一种作为训练属性所对应的输出数据的属性称为标号属性,而这种带有标号属性的样本称为带标号样本。一般而言,不同样本训练不同的模型。
(二)机器建模
机器建模即是用样本训练模型的过程,它可按不同样本分为以下三种:
(1)监督学习
由带标号样本所训练模型的学习方法称为监督学习。这个方法是:在训练前已知输入和相应输出,其任务是建立一个由输入映射到输出的模型。这种模型在训练前已有一个带初始参数值的模型框架,通过训练不断调整其参数值,这种训练的样本需要足够多才能使参数值逐渐收敛,达到稳定的值为止。这是一种最为有效的学习方法。目前使用也最为普遍,对这种学习方法,目前常用于分类分析,因此又称分类器。其主要的方法有:人工神经网络方法、决策树方法、贝叶斯方法以及支持向量机方法等[2]。
但是带标号样本数据的搜集与获取比较困难,这是它的不足之处。
(2)无监督学习
由不带标号样本训练模型的学习方法称为无监督学习。这个方法是:在训练前仅已知供训练的不带标号样本,其后期的模型是通过建模过程中算法的不断自我调节、自我更新与自我完善而逐步形成的。这种训练的样本也需要足够多才能使模型逐渐稳定。对于这种学习方法,目前其常用的有关联规则方法、聚类分析方法等[2]。
无监督学习的样本较易获得,但所得到的模型规范性不足。
(3)半监督学习
半监督学习又称混合监督学习,是先用少量带标号样本数据做训练,接下来即可用大量的不带标号样本训练,这样做既可避免带标号样本难以取得的缺点,也可避免最终模型规范性不足的缺点。这是一种典型的半监督学习方法。此外,还有一些非典型的半监督学习方法,又称弱监督学习方法。半监督学习方法目前常用的有:迁移学习方法等;弱监督学习方法目前常用的有:强化学习方法等[3]。
(三)学习模型
学习模型是由样本数据通过机器建模而获得的学习结果,它是一种知识模型,称为学习模型。
在讨论了样本数据、机器建模及学习模型后,下面将对3种学习方法分别讨论:①监督学习中的人工神经网络方法、决策树方法、贝叶斯方法、支持向量机方法。②无监督学习中的关联规则方法、聚类分析方法。③半监督学习中的迁移学习方法、强化学习方法。
2 聚类方法
聚类方法是无监督学习的一种重要方法,在该方法中样本数据没有标号属性。
(一)聚类方法概述
聚类是将数据对象进行分组并将相似对象归为一类的过程。数据聚类将数据的对象分成几个群体,在每个群体内部对象之间具有较高的相似性,而不同群体的对象之间则具有较高相异性或较低相似性。一般来说,一个群体称为一个类,对一个对象集合事先并不知道对象所属的类,这就需要定义一个衡量对象之间相似性的标准,并通过一定的算法用于决定类。
聚类分析方法有两个输入、一种输出以及一组算法,它们是:①输入:一种度量样本相似性的标准及一组数据对象称为样本集。②输出:对样本集的一个划分即将样本集划分成若干个类。③算法:为将样本集划分成类需要的一些算法。常用的有:划分法及遗传算法。(二)聚类分析中的几个基本概念
(1)样本集
Xi=(xi1,xi2,…,xin),i=1,2,…,m.
一般,可以用 n 维空间来观察样本集,样本是几维空间上的一个点,而样本集则是 n 维空间上的点集。
(2)样本相似性度量
如果将样本看成是 n 维向量空间上的一个点,那么,样本间的相似性可用 n 维向量空间上的距离的“远”“近”表示之。如果两点间距离“近”则样本间相似度高,如果两点间距离“远”则样本间相似度低,而计算 n 维向量空间上两点间的距离的方法常用的有欧几里得距离与曼哈顿距离。

在这两种距离计算中目前以欧几里得距离为最常用。
(3)样本集的划分
聚集分析的目的是将样本集按相似性要求划分成若干个类: G1,G2,…Gt ,并且满足:Φ(a)Gi≠∅(i=1,2,…,t).
(b) G1∪G2∪…∪Gt=X.
(c) Gi∩Gi=∅(i≠j)
∗t 为预先设定则称为固定聚类分析, ∗t 不为预先设定则称为动态聚类分析。
(三)聚类分析算法之划分法
划分法是一种以计算n维向量空间上点间距离为基础的算法,其划分原则是同类间的点距离“近”而异类间的点距离“远”。常用的算法有k-中心点算法k-均值算法以及EM算法等,这里介绍k-中心点算法。
k-中心点算法是预先设定聚集划分个数上其算法步骤是:
第一步,为人个类中的每一个选择一个初始中心点。
第二步,计算其他各点至各中心点的距离。
第三步,分配各点至最近的中心点所在的类。
第四步,按以下公式重新计算各类的中心点 X0

第五步,如新的中心点与原中心点的距离超过指定的阈值,则以新中心点替代原中心点,返回第二步,否则终止。3 迁移学习
(一)迁移学习的基本概念
人类在学习过程中有很多学习的方式、特征都是类似的,如人们在学习骑自行车中所学得的经验,在此后学习开摩托车时将会变得很容易。又如一个人要是熟悉中国象棋,他也可以轻松地学会国际象棋,同时在学习围棋时也会同样很容易学会。这就如我国的成语“举一反三”,它告诉了我们,在某个领域中所学习到的知识可以在另一个领域中有类似的知识供使用,这就是迁移学习的思想。
基于这种迁移学习的思想,可以建立起人工智能中的迁移学习的理论,它可作为机器学习的一个部分用于知识的获取。在里介绍这种理论中的基本概念,它们包括如下一些内容:①源领域:在迁移学习中所需迁移知识所在的领域称为源领域。②目标领域:在迁移学习中所需迁移知识的目标所在的领域称为目标领域。③迁移学习:在源领域中所学习到的知识往往可以在目标领域中也可学习到类似的知识,此时实际上可以用某些变换、映射等手段从源领域将知识转移到目标领域中从而达到减少目标领域中的学习成本,提高学习效果的作用,此种学习称为迁移学习。
在迁移学习中,目标领域的学习方法是分两个步骤进行的:①从源领域中通过迁移学习将一部分类似的知识迁移至目标领域。②以这些知识为起点,在目标领域中继续学习,此时的学习已有了迁移的知识,因此学习就变得简单、方便和容易。
在监督学习中,学习方法多、效果好,但它所用的带标号样本数据不易获得;而在无监督学习中,学习方法效果一般不如前者好,但它所用的不带标号样本数据易于获得,因此在迁移学习中往往将源领域中使用监督学习方法以获得良好的学习结果,然后通过迁移学习将结果迁移至目标领域,在目标领域中使用无监督学习方法,由于此时所用的样本数据易于获得,因此整个学习会变得容易与方便。
在使用迁移学习中,目标领域中的学习方法是先用监督学习,再使用无监督学习,从而达到较好的学习效果,这种学习方法即可称为半监督学习方法。
(二)迁移学习的基本内容
在迁移学习中的基本内容包括迁移内容与迁移算法两个部分。
(1)迁移内容
在迁移学习中的迁移内容包括三个部分。
(a)样本迁移
样本迁移就是将源领域中的相似的样本数据迁移至目标领域,在迁移后的数据须作适当的权重调整。样本迁移的优点是简单、方便,它的缺点是权重调整难以把握,一般以人的经验为准。
(b)特征迁移
特征迁移就是将源领域中的相似的特征知识通过 定的映射迁移至目标领域,作为目标领域中的特征知识。特征迁移目前为大多数方法所适用,但它的缺点是映射的设置难以把握,一般也以人的经验为准。
模型迁移就是将源领域中的整个模型通过一定的方法迁移至目标领域,作为目标领域中的模型。这要有一定的前提,即两个领域具有相同的模型结构,而所迁移的是模型参数,通过一定的变换,将源领域中的模型参数迁移至目标领域。这种方法是目前研究的重点,其预期效果较为理想。
迁移算法是目前迁移学习研究的重点。目前研究集中在特征迁移算法的研究上,
并取得了重大进展,接下来模型迁移算法的研究将成为新的重点。此外,在算法的研究上还有很多问题有待解决。例如:①针对领域相似性、共同性的度量,研究准确的度量算法。②在算法研究方面,对于不同的应用,迁移学习算法需求是不一样的。因此针对各种应用的迁移学习算法。③关于迁移学习算法有效性的理论研究还很缺乏,研究可迁移学习条件,获取实现正迁移的本质属性,避免负迁移。④在大数据环境下,研究高效的迁移学习算法尤为重要。目前的研究主要还是集中在数据量小而且测试数据非常标准的环境中,应把研究的算法瞄准于实际应用数据,以适应目前大数据研究浪潮。
尽管迁移学习的算法研究还存在着各种各样的挑战,但是随着越来越多的研究人员投入该项研究中,一定会促进迁移学习研究的蓬勃发展。
(3)迁移学习的评价
迁移学习可以充分利用现有模型知识,使成熟的机器学习模型仅需少量调整即可获得新的结果,因此具有重要的应用价值。近年来,迁移学习已在文本分类、文本聚类、情感分类、图像分类等方面取得了重大的应用与研究的成果。
但是迁移学习毕竟是一门新发展的学科领域,它的理论基础尚待进一步提高,算法研究有待继续努力,而它的应用则尚有大幅度拓展的前景。它目前的研究重点是算法研究,只有有效算法的支持才能使应用更具前景。
4 强化学习方法
强化学习来自于动物学习以及控制论思想等理论,这种学习的基本思想是通过学习模型与学习环境的相互作用,所产生的某种动作是强化(鼓励或者信号增强)还是弱化(抑制或者信号减弱)来动态地调整动作,最终达到模型所期望的目标。
在强化学习方法下,为达到某固定目标学习模型与环境相互作用,模型不断采用试探方式执行不同动作以产生不同结果,通过奖励函数,对每个动作打分,通过分值的大小以示对结果的认可度。这样,在奖励函数的引导下学习模型可以自主学习方式得到相应策略以达到最终的结果目标。
在强化学习方法中,学习模型能自主产生的动作实际上是一个不带标号样本。而这种样本通过奖励函数计算而得的数据则是标号属性,这两者的结合组成一种新的样本则是一个带标号样本。因此在此方式下,模型不断自主产生不带标号样本,经奖励函数计算后得到带标号样本,因此这是一种弱监督学习方法。
强化学习方法在人工智能发展的初期即已出现,典型的应用是利用奖励函数博弈,如国际象棋中著名的八皇后问题的求解,在人工智能发展的现在,著名的AlphaGo中都是应用强化学习方法。
用于强化学习的算法很多,常见的有:时间差分(TD)算法、Q学习算法等。
5. 总结
机器学习是人工智能的核心领域,它研究如何使用计算机模拟和实现人类的学习行为,以获取新的知识或技能,并不断改善自身的性能。近年来,机器学习理论在诸多应用领域得到了成功的应用与发展,如决策树、贝叶斯方法、支持向量机、关联规则方法、聚类方法、迁移学习和强化学习等。
决策树和贝叶斯方法是机器学习中的经典算法。决策树通过递归地划分数据集来构建预测模型,而贝叶斯方法则基于概率论,通过计算后验概率来进行分类和预测。支持向量机和关联规则方法则在处理高维数据和挖掘频繁项集方面表现出色。聚类方法则是一种无监督学习方法,它能够将相似的数据样本划分到同一类中。
迁移学习是机器学习领域的一个新兴研究方向,它关注如何将从一个领域学到的知识迁移到另一个领域中,以减少目标领域的学习本和提高学习效果。强化学习则是一种通过与环境交互来学习策略的方法,它在游戏、机器人控制等领域有着广泛的应用。
未来,机器学习领域将继续朝着更加智能化、自动化和高效化的方向发展。一方面,随着计算能力的不断提高和大数据的不断发展,机器学习算法将更加高效地处理大规模数据集和复杂任务。另一方面,随着人工智能技术的不断进步和应用场景的不断拓展,机器学习将在更多领域发挥重要作用,如医疗诊断、自动驾驶、智能客服等。
总之,机器学习作为人工智能的核心领域 其研究现状和发展趋势备受关注。未来,随着技术的不断进步和应用场景的不断拓展,机器学习将在智能翻译领域发挥重要作用,并为人类社会的进步和发展做出更大的贡献。
致谢
本文研究工作受到人工智能翻译陕西省高校工程研究中心资助。参考文献
[1]冯志伟.机器翻译与人工智能的平行发展[J].外国语(上海外国语大学学报),2018,41(06):35-48.
[2]刘建伟,丁熙浩,罗雄麟.多模态深度学习综述[J].计算机应用研究,2020,37(06):1601-1614.
[3]罗华珍,潘正芹,易永忠.人工智能翻译的发展现状与前景分析[J].电子世界,2017,(21):21-23.