EBSCO 的用户遍布全球,我们深知,不仅语言各异,人们识别和使用数据的方式也千差万别。每位用户都有自己独特的思维模型,这种模型由其个人经历、文化背景、语言习惯和实际需求共同构成。
正因如此,EBSCO 多年来始终将“公平搜索”作为核心目标之一。我们最早从跨数据库映射出版商主题词汇开始,无论用户熟悉哪家出版商的主题词汇,即使标签不完全匹配,也能检索到相关内容。这一映射系统被称为“统一主题索引”(USI,Unified Subject Index)。
EBSCO 进一步将全球各大国家图书馆的主题规范词汇、权威政府词表以及关联数据词汇纳入 USI,构建了全球最大规模之一的多语言学术词汇映射系统,涵盖超过280种语言和方言。同年,我们还收集了数十亿条自然语言术语,并将其映射到 USI 中的规范术语,同时通过双向卡片分类实验,从用户调查中获取更多术语,进一步丰富 USI。许多词汇以关联数据形式持续更新,并以知识图谱方式存储,以加快查询速度。
那么,为什么要做这么多映射?搜索引擎不是已经能自动扩展同义词了吗?现在 AI 不是也能胜任这些工作了吗?
其实不然。商业搜索引擎和 AI 所使用的同义词,大多来自通用词典或开放网络数据。这些来源往往存在偏见,偏向某些语言或视角,且缺乏结构化的学术词汇支持,甚至可能包含不当用语。AI 也无法区分用户语言(user warrant)、文献语言(literary warrant,图书馆编目常用)和科学语言(scientific warrant)之间的差异。
而 USI 的映射正是有意涵盖这三类语言:
- 用户语言:通过用户使用的自然语言术语体现;
- 文献语言:通过出版物的主题词汇体现;
- 科学语言:通过全文中研究者使用的术语体现。
因此,即使在新版 EBSCO Discovery Service(EDS)和 EBSCOhost(eHost)中引入了 AI 搜索解析功能,USI 仍是不可或缺的基础逻辑,使我们的 AI 搜索模式比单纯依赖 AI 更加公平。
除了 USI,EBSCO 还在搜索中引入 AI,帮助初学者“解码”学术搜索体验。尽管复杂的高级检索语句仍是高阶研究的标准,但许多用户在不熟悉研究流程和图书馆资源的情况下难以入门。EDS 和 eHost 中的新自然语言搜索模式可将查询解析为更有意义的名词短语,帮助 EBSCO 专有搜索引擎检索到不仅相关而且语境贴切的结果,忠实还原用户意图。这让不擅长构建复杂检索语句的用户也能顺利开展研究,降低门槛,实现更公平的搜索体验。
此外,EBSCO 拥有极为多样化的内容资源,涵盖不同经验层级、研究方法、语言、学科领域以及文化与微文化知识体系,来自全球最广泛的期刊专辑。我们将 AI 功能“锚定”在这些多元内容上(注意:这不是 AI 训练),进一步体现了我们对公平研究体验的承诺。