ChatGPT和Deep Seek应用于英汉散文的有效性研究

引言：人工智能技术的迅猛发展，翻译领域正经历着前所未有的变革与挑战。ChatGPT 一经问世，就获得了广泛关注。与早期的人工智能相比，当前技术的一个显著区别在于其能够利用人类反馈强化学习，通过持续地更新回答，不断提升译文质量的上限。 ^[1]2024 年，国内大型语言模型 Deep Seek 出世，为人工智能提供了更多的选择和可能性。人工智能翻译的介入和发展正塑造翻译新貌。但是无论人们对于翻译的认识如何拓展，在谈论翻译产品或者翻译过程时，翻译质量总是一个不可忽视的问题。[2]

散文翻译是文学翻译作品中的一个重要组成，而人工智能应用于散文翻译的研究却仍未受到广泛关注。从文学史上来看，翻译文学曾占据过“主要地位”。[3] 散文翻译研究蕴藏着深厚的学术价值。弗朗西斯 ·培根《论读书》一文语言优美，说理透彻，思想深刻。市面上的译本层出不穷，王佐良的译本在理解原文和辞章运筹上都展现出过人的水平，影响较广，可作为人工译本对比评价标准。因此本研究采用基于 GPT-4 版本模型和 Deep Seek-V3 模型，结合Python 计算 BLUE 和 METEOR 数值获取量化指标，辅以问卷调查，分析该类人工智能经人为反馈强化学习后应用于散文翻译的有效性以及和优秀人工译本的质量差异。

1 文本选择

本文语料《论读书》是一篇短篇散文，主要存在以下特征：第一，选词考究。文章使用了大量的古语词和正式词汇，如“marshalling”、“doth”和“discourse”等 [4]。词汇精准简洁，选用各具意义，在句中搭配和谐，部分词语还形成了押韵。第二，句式工整。文中句式简单平衡，有 12 句是并列句。各类句式交替出现、相互作用、语言多变、富有节奏。第三、逻辑鲜明。文中长难句很少，但逻辑严密，秩序平衡。第四、文风独特古奥，富有哲学内涵。根据以上特点，本文选取了 5 个例句，并按照下文设计的提示语生成了 15 组对比译文。

2 人为反馈强化学习提示语

Jiao et al. 发现“Please provide the [TGT] translation for thesesentences”的机翻效果最好。[5] 王子云、毛毳通过添加术语和背景信息等提示语发现“I need the text to be translated into [TGT] withspecific attention given to accurately translating these [terms/phrases]：和“Translate the text into [TGT] based on [source of text][languagestyle][target readers]：”下所产生的译文质量最好。[6] 基于以上提示语相关研究，本文设计了三种提示语方法，包括直接翻译提示语Prompt 1，添加语言、逻辑和目标读者群体等描述的背景提示语Prompt 2，以及风格限定提示语 Prompt 3。由此生成的 ChatGPT 译文结果为 Cp1、Cp2 和 Cp3，Deep Seek 译文结果为 Dp1、Dp2 和Dp3。

3 评价标准

目前，人工智能应用于各类文本的研究中，机器评价占据了译文质量评定的主导地位。王金铨、文秋芳研究了国内外机器自动评分系统，认为不能仅依赖机器检测译文质量，同样需要人工评阅分析。[7] 本文选择 BLUE 和 METEOR 为自动评阅指标，辅以问卷调查即人工评阅，从多方面评价 ChatGPT 和 Deep Seek 的散文翻译质量。

4 译本结果分析

4.1 自动评估

目前，BLEU 是业界使用最广泛的自动评价指标。应用最广泛的基于词对齐的方法是METEOR。

BLEU 的取值范围在 0-1 之间，越接近于 1 代表匹配度越高。译文的 BLEU 值如果达到了 31.4% ，说明译文质量良好。[8] 从各组译文的 BLUE 值来看，Deep Seek 的平均 BLEU 值更高，最高数值达到了 30.15% ，而 ChatGPT 的最高数值仅为 22.79% 。ChatGPT 和Deep Seek 均未达到机器翻译的良好效果。METEOR 质量评级基于通用标准，0.3 以上为良好，0.2-0.3 为中等，小于 0.2 为较低。从各组译文的METEOR 值来看，Deep Seek 的平均值更高，有三版译文达到了良好水平，最高数值达到了 50.10% 。ChatGPT 仅有一版译文达到了良好水平，最高数值为 38.17% 。

分析数据后发现 Prompt 1 和 Prompt 2 下的译文呈现交替垫底的态势。但是总体上 Prompt 2 的译文质量落后于 Prompt 1 时频次不高。5 组数据中，Prompt 1 落后于Prompt 2 下的译文数值总共三次。Prompt 3 下的译文质量托底能力较强，几乎所有高数值译文都来自于 Prompt 3。可以发现 Deep Seek 的翻译质量相对于 ChatGPT 较优。对比数值，考虑托底能力和最佳译文数值后，发现风格限定提示语下的翻译质量相对更佳。

4.2 问卷调查

BLUE 和 METEOR 值提供了一种量化指标，人工评阅可以完善自动翻译评价。本文选择了两版数值更高的译文版本进行问卷调查。调查对象为中文母语者，根据年龄、学历和专业等将其进行分类，调查不同群体对人工翻译和机器翻译的倾向性、质量关注点、以及所选例句的质量，并新增王佐良译本 [9]（以下简称“王译”）进行偏好排序。除例 4 外，Prompt 3 下的译本版本都已入选。考虑到最高数值都出自风格限定提示语下的版本，问卷针对例 4 增加了一个附加选项，让不同人群从中选择一个最佳译本，如选择 Cp3，那么Cp3 将替代数值较低的 Cp1 选项参与排序，该排序问题编号设置为例4（选），反之则保持较高的量化数值选择结果进行排序，该排序问题编号设置为例4（原）。问卷共发出50 份，收回有效问卷43 份。其中共收到 12 位英语专业读者的有效问卷。调查结果发现，英语专业读者除了基本的准确性和流畅度之外，对译文质量的关注维度更广，要求更严格。因此，关于译文质量的排序将分为英语专业读者结果和非英语专业读者结果，结果按照平均规则计分。

分析发现除例 4（原）外，王译的综合得分最高。回看原始问卷数据发现 12 位英语专业读者中，仅有 2 位在针对例 4 的附加选项中位未选择 Cp3，从而参与了例 4（原）这一题的排序，该题综合得分从高到低分别为 Dp1 和 Dp2、Cp2、Dp3 和 Cp1。例 1、例3、例 4（选）和例 5 中，各译文的综合得分从高到低分别为王译、Dp3、Cp3、Dp1/2、Cp1/2。例 2 中，各译文的综合得分从高到低分别为王译、Cp3、Dp3、Dp2、Cp2。除稳居第一的王译，DeepSeek 在风格限定提示语下生成的译文表现最佳，其次是 ChatGPT在风格限定提示语下的译文。人工译本仍然是英语专业读者的最佳选择，其次是风格限定提示语下的译本。

非英语专业读者评阅各例句的得分数据相对分散，但是还是能通过分析得出该类读者喜好。例 1、例 3、例 4（原）、例 5 中，Dp1 和 Cp1 呈交替趋势排在第 1 和第 2 名，两者排在第 1 名的次数相同，其次是风格限定提示语下的译文。分析发现，该类读者更喜爱直接翻译提示语下的译文，对 ChatGPT 和 Deep Seek 生成的译文却没有明显的偏好差异。

针对例2 和例4（选）的得分情况发现，如忽略王译的位置排序，各译文的综合得分从高到低都分别为 Dp3、Cp3、Dp1/2、Cp1/2。关于例 2，本研究推测可能与句子长度有关。例 2 是一个短句，句式工整，便于理解和分析。而针对例 4，31 位非英语专业读者中，共有8 位在针对例4 的附加选项中位选择Cp3，从而参与了例4（选）这一题的排序。从附加选项的选择中，可以分析得出参与例4（选）这一题的读者偏好。Cp3 是限定了语言风格（古语文体）的译文版本，可以初步推测该类读者对语言功底要求较高，更偏向精细化处理后的译文。译文排序结果也正如推测那样，风格限定提示语下的译文排序较为靠前。

总体来说，非英语专业读者更偏好直接翻译提示语下的机器译本。但如果源文本较短且句式工整，他们则能有更多的精力对语言层面加以分析，从而选择风格限定提示语下的译本。

结束语

从定量研究的角度看，根据 BLUE 和 METEOR 数值发现，Deep Seek 在风格限定提示语，即 Prompt 3 下的数值结果最高。从人工评阅研究的角度来看，结果与读者的专业和对语言的要求程度有直接的关系。英语专业的读者更青睐人工译本，其次是风格限定提示语下的机器译本，而根据综合得分结果可以发现 Deep Seek 生成的译本会更受喜爱。非英语专业的读者则更偏向于平实朴素的表述，更偏好直接生成译文提示语下的机器译本。由此可见人工智能可以通过合适的提示语在散文翻译上给予助力。但是在选择诸多的时代，译员利用该类应用须考虑目标群体偏好，根据不同的目标群体选择合适的提示语，适应市场需求和时代要求，以科技助力翻译，强化各类文本的翻译效率和质量。

参考文献：

[1] 朱光辉，王喜文.ChatGPT 的运行模式、关键技术及未来图景[J].新疆师范大学学报（哲学社会科学版），2023，44（04）：113-122.

[2] 孙琳 . 关于翻译质量评估的思考 [J]. 上海翻译，2023，（05）：37-41.

[3] 王东风 . 翻译文学的文化地位与译者的文化态度 [J]. 中国翻译，2000，（04）：3-9.

[4] Bacon， Francis. Essays[M]. Beijing： Language Teaching Research Press， 1997.

[5] Jiao， W.， Wang， W.， Huang， J.T. et al. Is ChatGPT a goodtranslator？ Yes with GPT-4 as the engine[DB/OL]. arXiv.org，2023.

[6] 王子云，毛毳 .ChatGPT 译文质量的评估与提升——以陶瓷类文本汉英翻译为例 [J]. 山东陶瓷，2023，46（04）：20-27.

[7] 王金铨，文秋芳 . 国内外机器自动评分系统评述——兼论对中国学生翻译自动评分系统的启示 [J]. 外语界，2010，（01）：75-81+91 .

[8] 周成彬，刘忠宝 . 基于语义信息共享 Transformer 的古文机器翻译方法 [J]. 情报工程，2022，8（06）：114-127.

[9] 王佐良. 王佐良文集[M]. 北京：外语教学与研究出版社，1996.