长期以来,搜索学术文献一直是研究人员面临的挑战,当他们想要查找概念时,他们会输入关键字在线搜索。加拿大圣玛丽大学帕特里克·鲍尔图书馆技术服务图书管理员Peter对人工智能工具如何使学术搜索更容易以及解决概念识别问题产生了兴趣。于是提出了以下构思。
在线搜索者希望或者想要在线搜索工具能够根据几个简单的关键字找到他们想了解的概念,许多人工智能搜索工具承诺可以做到这一点。游戏搜索引擎 Splore 说过这么一段话:“有了人工智能,搜索引擎可以理解您的意图和搜索背后的含义,而不仅仅是您输入的特定单词。”
主流的资源语义学者提出了类似但更谨慎的主张:“我们的系统从论文中提取意义并识别关联,然后将这些见解公之于众。”
然而,人工智能搜索工具的潜力似乎尚未完全发挥出来。对于搜索者来说,了解人工智能搜索的功能和局限性非常重要。
为了说明“我们希望AI能够为我们所做的”过程的复杂性,我拿 Luong Thanh BY 等人撰写的一篇论文举例,题目是“促进工人使用呼吸防护设备的行为干预”。这些研究人员需要使用关键词来概括“行为干预”、“工人”和“呼吸防护”等概念。
但这里是这篇论文的 Cochrane 评论记录,显示了有效解决这些概念所需的数十个精心开发且相互关联的关键词。
这似乎很好地说明了关键字到概念确定过程的复杂性,我们希望AI能为我们做到这一点。
毫无疑问,自然语言处理(NLP)、语义机器学习等人工智能方法与传统关键词方法相结合,可以有效地从搜索关键词中推导出概念。这是一个或者一组复杂的自动化流程,依赖于每篇文章足够多的可用信息。这些AI方法将在不久的将来改变学术研究搜索的游戏规则。
但是,人工智能方法的成功取决于一致且足够的元数据。主题描述性标题、详细摘要,或者访问全文,对于可靠的AI概念确定至关重要。
同一类型的主题或期刊分类是提高人工智能搜索成功率的关键要素。例如,人工智能方法可能很容易确定主题为“蒸气危害”或“粉尘消除”的文章涉及“呼吸防护”的概念。“工业安全”期刊中有关“空气质量”的文章涉及“呼吸防护”的概念。
有限且不一致的可用元数据限制了人工智能搜索
有限且不一致的元数据限制了人工智能成功确定文章概念的能力。然而,如今人工智能搜索工具可用的元数据存在相当大的限制。
语义学者数据库提供来自 60 多个来源的200多万篇文章的元数据,其中包括 PubMed这样的OA 资源和许多私人出版商。语义学者是许多知名人工智能搜索工具使用的元数据来源。 Research Rabbit、Elicit 的 AI Research Assistant 和其他机构都依赖此来源。
《语义学者》是一个很了不起的资源。但它依赖于来自各种不同来源的元数据,这些来源的细节和质量差异很大。没有一致的主题标题或期刊分类。这依赖于标题和描述性摘要来确定搜索概念。在我对 语义学者的有限搜索测试中,我发现 25% 到 40% 的文章记录甚至没有摘要。所以AI概念判定只能基于标题词。
由于 PubMed 或 ERIC 等开放资源的详细且一致的元数据都是免费提供的,因此当前许多 AI 搜索工具的搜索结果偏向于这些 OA 来源中的结果。
营利性搜索索引 Scope us 和 Web of Science 也在加速开发人工智能方法,以增强它们的搜索能力。这些资源具有出色的管理、期刊主题分类和引文背景。但他们也依赖出版商提供的可变元数据。它们依赖于作者指定的关键字,而不是一致指定的主题标题。
整个学术元数据格局需要改变
为了发挥出人工智能方法的潜力,需要对整体学术内容格局进行更大的改变。更好的人工智能搜索的努力与其他几项努力同时进行,包括 Crossref 和 OpenAlex,旨在为所有学术出版物创建更加开放和全面的元数据记录。
目前,关于学术文章的元数据整体仍然是孤立的,并且不能互操作。没有全面的学术元数据来源可用于构建人工智能搜索资源。
营利性出版商以及索引数据库继续限制对其完整元数据的访问,而元数据是一种越来越有价值的商业商品。因此,商业模式是更好的人工智能搜索的障碍之一。
值得庆幸的是,整个学术元数据格局正在迅速变化。有几项进展将使人工智能搜索能力变得更好。
不同学术元数据来源之间需要元数据源互换和交叉比较。 Crossref、OpenAlex 和 ORCID 等元数据资源正在努力与 OA 资源以及许多出版商交换信息。谷歌和微软在很大程度上还在坚持。
使用人工智能增强元数据的自动化方法正在迅速发展。这些方法从文章引用和参考文献中添加主题信息,以改进可用的元数据。从关联论文网络中对信息进行预搜索挖掘是一个活跃的研究领域。
人工智能使用营利性出版商元数据构建增强的元数据,同时限制对实际专有主题标题和描述的访问,是正在开发的另一种方法。
本文来自INFOTODAY,由新宇智慧编译,有删减。