La qualità è sempre un elemento cruciale quando si parla di risultati prodotti da sistemi di intelligenza artificiale. Valutarla significa considerare diversi fattori, ciascuno dei quali corrisponde a una fase del processo di generazione.
Qualità dei dati di addestramento
La qualità dei dati utilizzati per addestrare un modello linguistico di grandi dimensioni (Large Language Model, LLM) è determinante per la bontà dei risultati prodotti. Molti LLM commerciali si basano su dati raccolti da fonti web pubbliche, mentre altri integrano anche contenuti protetti da licenza. Poiché questi modelli sono progettati per offrire capacità linguistiche generiche e trasversali, la validità e la completezza dei dati di partenza influiscono direttamente sulla qualità finale dell’output. Tuttavia, in molti casi i dettagli specifici dei dataset utilizzati non sono resi noti. Inoltre, nelle versioni gratuite o pubbliche di alcuni modelli, i dati inseriti dagli utenti potrebbero essere riutilizzati per migliorare il modello stesso, salvo che non sia esplicitamente indicata una rinuncia a tale pratica.
Nel caso di EBSCO, adottiamo esclusivamente LLM commerciali con licenze specifiche che impediscono l’utilizzo dei prompt degli utenti per ulteriori addestramenti. Valutiamo attentamente ciascun modello confrontandone gli output per individuare quello più idoneo ai diversi casi d’uso. La documentazione dettagliata dei modelli adottati è consultabile su EBSCO Connect.
Personalizzazione e configurazione del modello IA
Un altro elemento fondamentale per la qualità dell’output è il modello di intelligenza artificiale utilizzato e il modo in cui viene configurato. Anche se il controllo diretto del modello è generalmente affidato al fornitore del LLM (modello linguistico di grandi dimensioni), è comunque possibile intervenire su alcuni parametri per migliorarne le prestazioni. Ad esempio, si può regolare il livello di creatività o coerenza delle risposte, oppure affinare il modo in cui vengono formulate le richieste al modello (i cosiddetti “prompt”). Questi aspetti possono essere testati in fase preliminare, utilizzando set di dati e domande campione, per individuare la configurazione più efficace in base agli obiettivi. EBSCO dispone di team specializzati di ingegneri IA che eseguono test continui su questi parametri per garantire standard qualitativi elevati.
EBSCO si impegna da sempre a garantire dati affidabili e di alta qualità — e lo stesso vale per l’intelligenza artificiale
EBSCO si impegna da sempre a garantire dati affidabili e di alta qualità — e lo stesso vale per l’intelligenza artificiale
Ancoraggio a fonti autorevoli (grounding)
Il “grounding” consiste nel collegare l’IA a contenuti verificati e affidabili attraverso tecniche come la Retrieval Augmented Generation (RAG). In questa fase, il modello recupera informazioni certificate da fonti autorevoli prima di generare la risposta, migliorando così accuratezza, contesto e aggiornamento dei dati. Poiché il grounding è completamente sotto il controllo dell’organizzazione, è fondamentale selezionare fonti attendibili per evitare errori o “allucinazioni” dell’IA. Studi recenti indicano che l’uso di grounding incrementa la precisione del 46%. Le funzionalità IA di EBSCO si basano esclusivamente sui contenuti verificati presenti nei nostri database, senza che questo comporti un addestramento diretto del modello.
Valutazione e feedback degli utenti
Infine, la qualità viene costantemente monitorata attraverso la valutazione da parte degli utenti. Oltre al feedback implicito (ad esempio, modifiche alle query di ricerca), EBSCO adotta un processo di revisione articolato in tre livelli: esperti interni (Subject Matter Experts, SME), beta tester e utenti finali. Utilizziamo una griglia di valutazione che considera:
- Aggiornamento e attualità delle informazioni
- Coerenza del tono
- Uniformità della terminologia
- Accuratezza dei contenuti
- Copertura dei temi principali
- Utilità degli insight forniti
A questi si aggiungono valutazioni tecniche sul sistema, come ad esempio la latenza (ovvero quanto tempo impiega l’IA a completare un’attività), la disponibilità del servizio (affidabilità del sistema nel momento in cui serve), l’efficienza in termini di costi ed impatto ambientale (attenzione alla sostenibilità e all’uso responsabile delle risorse), la revisione tra pari del prompt engineering (che contribuisce a ridurre i bias), il controllo della temperatura (una sorta di soglia di confidenza delle risposte dell’IA), e molti altri parametri. Tutti questi elementi influenzano la performance complessiva dell’AI per ogni specifico compito.
La qualità può essere misurata in ogni fase del processo di generazione IA, e a ogni livello è possibile intervenire per migliorarla. È fondamentale valutare la qualità in ogni stadio, senza dimenticare aspetti cruciali come bias, costi, impatto ambientale, equità e altro ancora. Approfondiremo questi temi nei prossimi articoli.
EBSCO si è sempre impegnata a fornire dati affidabili e di alta qualità, e con l’IA non è diverso.
Non solo misuriamo la qualità in ogni fase del processo, ma coinvolgiamo anche esperti di dominio (SME) per esaminare un campione rappresentativo delle risposte generate, assicurandoci che gli standard qualitativi restino elevati.