2024年7月30日,阿尔托大学的OtsoHaavisto和RobinWelsch发布的一篇研究论文中,介绍了一款旨在简化针对不同语言和文化调整问卷过程的网络应用程序。
Haavisto和Welsch强调,翻译调查问卷通常成本高昂且“资源密集”,需要多名独立翻译人员和大量验证流程。据作者称,这种复杂性导致了研究中的不平等,特别是在非英语和低收入地区,因为这些地区获取优质问卷的机会有限。
在问卷翻译中,保持语义相似性,确保翻译版本与原文相同的含义至关重要。正如作者所指出的,“语义相似性比逐字匹配更重要。”据作者称,文化细微差别和口语表达会使这一过程进一步复杂化,从而难以实现准确的翻译。
为了应对这些挑战,他们开发了一个网络应用程序,允许用户翻译问卷、编辑翻译、回译为源语言以与原文进行比较,并接收大语言模型(LLM)生成的翻译质量评估。
该工具整合了DeepL(用于初始翻译)和GPT-4(用于评估和建议)。使用翻译工具是基于其在翻译科学文本方面的“可靠输出和良好结果”,作者表示这对于研究问卷的准确性至关重要。
他们说:“我们着手开发一个问卷翻译工具的原型,该工具将充分利用法学硕士在自然语言处理任务中的多功能性,给跨文化的研究人员带来帮助。
Haavisto和Welsch通过两项在线研究测试了该工具的有效性:一项研究涉及10名参与者测试英语-德语语言对,另一项研究涉及20名参与者测试英语-葡萄牙语语言对。作者表示,这两项研究都表明“在问卷翻译过程中采用LLM取得了令人鼓舞的结果”。
研究结果表明,机器翻译加上AI生成的质量评分,其翻译质量和语义相似度可与传统翻译相媲美。参与者还发现AI生成的建议“有一定帮助”,并且能够准确反映翻译质量。
Haavisto和Welsch还指出,法学硕士生成的翻译质量评估可以帮助研究人员识别和解决翻译中特定于上下文的问题,并强调“这是迈向由人工智能驱动的更公平的基于问卷的研究的第一步。”
该工具目前支持英语、德语、葡萄牙语和芬兰语的翻译,不过芬兰语尚未测试。原型代码已在GitHub上公开,欢迎进一步探索和贡献。