當我們談到AI人工智慧所生成的內容就會特別重視品質的問題。而評估AI人工智慧技術生成的品質會需要考量的幾個因素也跟後續生成過程的每個步驟息息相關。
訓練資料的階段
訓練資料的品質會直接影響大型語言模型(LLM)產生內容的品質。大多數在商務使用的大型語言模型(LLM)會以公開在網路上的資料來進行訓練,但也有部分模型會用有授權的資料。商務模式的大型語言模型(LLM)主要具備廣泛的普遍通用智慧技術可用來回答各種問題和任務。訓練的資料越好則AI人工智慧的技術表現就相對越好。但大部分在商務模式使用的大型語言模型(LLM)並不會公開訓練資料的來源,很多企業則聲明若使用者是用非授權版本的商務模式大型語言模型(LLM)或聊天機器人,除非使用者選擇移除退出,不然其使用過程中的資料將可能會被用來進行後續訓練。
針對EBSCO使用AI人工智慧的技術來說,我們只跟有授權的商務大型語言模型(LLM)合作以確保提示詞不會用在AI技術訓練。也因為大多數在商務使用的大型語言模型(LLM)不會揭露資料來源,所以我們需要藉著比對AI技術產出的結果、分析不同模型的回應來評估、選擇適用特殊用途、品質較佳的模型。加入真人的審查機制(Human-in-the-loop)也是判斷AI技術回應品質的重要方式。EBSCO則會比較不同AI模型的表現再決定每項AI功能藥採用的模型。我們使用的AI功能模型則都記錄在EBSCO Connect網頁上。
AI模型和操作階段
另一項重要的品質要件是在AI模型本體和操作階段。模型本體由大型語言模型(LLM)供應商控制,但像是微調(fine-tuning)、參數像是溫度(模型使用AI技術得到的置信程度回應資訊)和發送給大型語言模型(LLM)的提示內容則可由機構或研究人員自行設定。研究人員若在研究過程中自行操作大型語言模型(LLM),那麼這些參數可以根據需求進行調整與測試。儘管模型的品質仍需透過AI技術產出的結果來加以評估,但實際上再提供終端用戶使用之前仍可先調整測試一些參數,例如微調設定、參數值及提示詞設計(這些都是使用大型語言模型常見的參數)。通常會先使用一組樣本資料、問題資料與變更參數來進行測試以找出最好的使用辦法。EBSCO對此擁有專業的AI工程技術團隊並持續對這些AI技術的參數進行測試與優化,以確實讓我們的產品能維持高品質的標準與使用體驗。
EBSCO一向致力於提供高品質且值得信賴的資料而AI功能在品質標準的掌握上也不例外。
EBSCO一向致力於提供高品質且值得信賴的資料而AI功能在品質標準的掌握上也不例外。
Grounding 階段
影響 AI 回應品質的下一個關鍵階段是 Grounding 階段,也就是透過 檢索增強生成(Retrieval Augmented Generation, RAG) 的方式補充大型語言模型(LLM)的資訊。在這個階段,發出的查詢會先從 LLM 外部擷取經過驗證且具權威性的資料,然後再將這些資訊用於提升 AI 生成內容的可預測性、準確性、脈絡關聯性與時效性。
Grounding 的過程完全由使用該 AI 的個人或組織所控制,因此在這個階段資料品質至關重要。根據近期研究,使用高品質資料來源可降低幻覺(hallucination)現象,並將 AI 回應的針對性提升至少 46%。以 EBSCO 為例,我們的 AI 功能就是以來自自家資料庫的權威內容作為 grounding 資料來源。這個過程並不涉及對 AI 進行訓練,而是透過將我們資料庫中的權威資料補充給 AI,並結合我們一貫以來對主題與內容的人工策展,確保資訊的可信度與研究價值。
最終使用者(終端用戶)的評估階段
產出結果的品質在下一個階段會來到最終使用者的評估階段。雖然此階段一般會包含一些從使用者取得的被動品質評估(像是放棄不用或重新調整檢索參數),但仍會定期針對AI功能的回應進行品質評估,以確保品質符合標準又不會隨著時間推移而汰除。EBSCO採取三個步驟的人工審查流程來審視AI功能的回應,其步驟包含由內部主題專家(Subject Matter Experts, SMEs)進行初審,接著由測試版的使用者(Beta版測試者)操作,最後再由最終使用者提供回饋。此流程即是人工介入審查流程(Human-in-the-loop review process)。EBSCO針對AI功能的回應評估所使用的評量標準範本的依據則包含下列幾項指標:
- 時效性: AI Insight功能提供的資訊是否為最新而非過時的資料?
- 語態: AI Insight功能使用的語氣(語態)是否與原文相符?
- 術語: AI Insight功能使用的術語是否與原文提供的術語一致?
- 準確性:AI Insight功能提供的資訊是否根據原文內容準確呈現?
- 主題性:AI Insight功能是否有涵蓋原文的主要主題?
- 實用性:AI Insight功能用於摘要或研究工作的補充資料是否具備實用價值?
此外,還有一些系統層面的評估指標,例如延遲時間(latency): AI工具完成任務的速度有多慢、系統穩定性(up/down time): 當我們需要使用系統而它的可靠程度如何、成本與環境效率是否兼顧愛地球和節約的責任、提示詞工程的同儕審查能協助降低偏見產生、溫度管控(temperature control)則可以理解為AI功能回應的置信度和更多其他評估項目。而這些指標皆會影響AI功能在執行各項任務時的整體表現。
在AI功能的每個處理階段都可以進行品質評估並採取對應的辦法來提升產出的品質。除了品質的掌握,偏見程度、成本、環境影響、平權等因素也一樣重要都需要加以衡量。我們接下來的文章將進一步探討這些核心原則。
EBSCO一向致力於提供高品質且值得信賴的資料而AI功能在品質標準的掌握上也不例外。我們不僅在每個階段進行品質的各種量測,還會由主題資源專家(SMEs)一起審核具有代表性的AI功能回應與產出結果以達高品質的標準。
若您有興趣體驗我們的AI各項功能,歡迎瀏覽我們全新推出的AI Insights工具與自然語言搜尋(Natural Language Search)。