中文
搜索

新宇智慧&tcworld China 2025:大语言模型在本地化行业的应用

发布时间: 2025年05月30日浏览量:

5月22日至23日,tcworld China 2025技术传播大会隆重举行。在此次盛会上,新宇智慧副总经理刘海明先生带来了题为《大语言模型在本地化行业的应用》的精彩分享,引发了与会者的广泛关注与深入思考。



大语言模型(LLM)凭借其卓越的语言理解和生成能力,在翻译、内容生成、术语管理、语义QA等多个领域展现出无限潜力,变革的征程已经开启。

尽管AI翻译的价值不言而喻,但在质量方面仍存在挑战。翻译服务需求方担心的问题包括“难以准确传达深层次语义”“对特定领域表达准确性不足”以及“翻译质量难评估”。



为了更好地挖掘和应用大模型的能力,新宇智慧积极开展了一系列应用实践。在不断尝试各种方法的过程中,我们发现RAG(检索增强生成)是一种可以很好地与知识积累相结合的解决方案。RAG通过问题向量检索,从企业知识库匹配相关知识,将这些知识进行整合,再调用大模型,根据提示词生成高质量的回答。将RAG技术融入AI翻译流程,可明显提升所生成译文的质量。

在翻译和本地化行业,翻译记忆库、术语库是天然的RAG数据。除此之外,风格指南、带有描述和分析的例句集,指令性文件也会发挥很大作用。



通过一个具体的例子,我们能看得更清楚。


原文

Every section of this hotel tells its own story, with a beautiful skylight to illuminate unique features and elements within.

DeepSeek

酒店的每处空间皆诉说独特故事,华美天窗映衬其间别具一格的特色与设计元素。

ChatGPT

酒店的每个区域都在讲述自己的故事,华美的天窗倾洒光芒,照亮其独具匠心的特色和元素。

建议

透过美丽的天窗,阳光照亮一处处独具匠心的设计与精心搭配的元素,转角精品酒店的每一处细节,仿佛都在讲述一个精彩的故事。


我们知道,理解一句话含义的关键在于抓住语义重心。语义重心是语言交际最重要的部分,通常落在结果、结论或事实上。不言而喻,在这句话中,英文原文的语义重心是hotel tells its own story。在翻译实践中,英汉句子组织存在差异,英语句首封闭,句尾开放,后置修饰功能强,汉语句首开放,句尾封闭,前置修饰功能强。英语逻辑顺序多为归纳演绎,即按果因、结论陈述展开,而汉语逻辑顺序往往按时间的从先到后、空间的从大到小、从一般到具体、从因到果。在语义重心上,英语一般采用前重心位,汉语一般采用后重心位。显而易见,AI翻译确实把字面的含义翻译出来了,但是在句子组织、信息传递、情感传递方面,AI翻译并不足够。


如果我们能够把AI没有意识到的上述问题总结出来,并且以RAG形式告诉AI,那么离解决这样的问题一定是更近了一步。针对英汉差异,新宇智慧在实际项目过程中不断积累典型例句,并对例句做了分析整理与分类,形成了内部培训教程和知识库。



上面的例句与英汉语义重心相关,除此之外,新宇智慧还总结了汉语无主句、英译汉代词省略、英译汉连词省略、英汉词汇语义差异、欧式中文、中式英语、主谓结构与话评结构等很多英汉差异相关的知识主题。

英汉差异仅仅是本地化适配中的一个部分。LISA(Localization Industry Standards Association)曾指出四大类本地化适配的关键问题,包括语言问题,如不同语言间的差异,格数性、固定搭配等;物理硬件问题,如不同的插头标准;商业与文化问题,如本地货币支持及税务合规;技术问题,如阿拉伯和希伯来语镜像。

在LISA这四类问题的基础上,新宇智慧按思维方式、实体、地域特征、社会价值观、社会风俗习惯、宗教和历史原因、法律因素、民族因素八大类细分六十三个小类来总结文化适配问题。比如在法律因素这个大类中,包含出边境线、国家/地区名称、地图、旗帜、法规(如禁用词、游戏分级、新广告法)五个小类。所以这些被清晰识别的问题,都可以很好地应用于RAG。



技术的发展从来都不是一蹴而就的,它遵循着从无到有、从有到优的渐进规律。尽管存在诸多问题,但在当前阶段,AI在本地化行业已经展现出了实实在在的应用意义。



展望未来,随着技术的不断进步和创新,大语言模型在本地化行业的应用前景将更加广阔。新宇智慧也将继续深耕这一领域,不断探索和实践,为推动本地化行业的智能化发展贡献更多的智慧和力量。
相关新闻