تظل الجودة دائمًا سؤالًا مطروحًا عندما يتعلق الأمر بمخرجات الذكاء الاصطناعي. توجد بعض العوامل التي تدخل في تقييم جودة مخرجات الذكاء الاصطناعي والتي تتماشى مع مراحل عملية التوليد في الذكاء الاصطناعي.

مرحلة بيانات التدريب

ترتبط جودة بيانات التدريب بجودة ما يمكننا توقعه من نموذج اللغة الكبير (LLM). تم تدريب معظم نماذج اللغة الكبيرة التجارية على شبكة الويب المفتوحة، لكن بعضها استخدم بيانات مرخصة لغرض التدريب. تهدف هذه النماذج التجارية إلى أن تمثل ذكاءً عامًا يمكنه الإجابة على أكبر عدد ممكن من الأسئلة والمهام المطروحة عليه. كلما كانت البيانات المستخدمة للتدريب أفضل، كانت جودة الذكاء الاصطناعي أفضل، ولكن معظم هذه النماذج التجارية لا تكشف عن مصادر البيانات التي تستخدمها للتدريب. يذكر العديد من هذه النماذج أنه في حالة تفاعل المستخدم مع النسخة غير المرخصة من النموذج التجارية أو الدردشة الآلية، فقد تُستخدم بيانات المستخدم للتدريب ما لم يختار المستخدم عدم المشاركة.

في حالة استخدامنا للذكاء الاصطناعي في EBSCO، نقوم بالعمل فقط مع النماذج التجارية المرخصة لضمان حماية الطلبات من استخدامها في تدريب الذكاء الاصطناعي. نظرًا لأن معظم النماذج التجارية لا تكشف عن مصادر بياناتها، فإن جودة النموذج تعتمد على تقييم مخرجات الذكاء الاصطناعي، ومقارنتها بمخرجات نماذج الذكاء الاصطناعي الأخرى، وتحديد أيٍ منها يتجاوز عتبة الجودة المناسبة لحالات الاستخدام المحددة. يُحدد وجود الإنسان في حلقة المراجعة جودة استجابات الذكاء الاصطناعي. تقارن EBSCO جودة نماذج الذكاء الاصطناعي قبل اختيار نموذج لكل ميزة من ميزات الذكاء الاصطناعي. تُوثق النماذج التي تدعم ميزات الذكاء الاصطناعي لدينا على EBSCO Connect.

نموذج الذكاء الاصطناعي ومرحلة التشغيل

يُعد نموذج الذكاء الاصطناعي ومرحلة تشغيل ذلك النموذج أحد جوانب الجودة. يخضع النموذج نفسه للتحكم من قبل مزود نموذج اللغة الكبير، ولكن التحكم في الضبط الدقيق، والعتبات مثل درجة الحرارة (درجة ثقة النموذج في المعلومات لاستخدامها في استجابة الذكاء الاصطناعي)، والطلب المرسل إلى نموذج اللغة الكبير، جميعها يمكن التحكم بها من قِبل مؤسستك أو من قِبل الباحثين إذا كانوا يستخدمون نموذج لغة كبير في أبحاثهم. بينما تظل جودة النموذج معتمدة على تقييم جودة المخرجات، يمكن تعديل الضبط الدقيق والعتبات والطلبات (من بين العوامل الأخرى التي يمكنك استخدامها مع نموذج اللغة الكبير) واختبارها قبل استخدام نموذج اللغة الكبير من قِبل المستخدمين النهائيين. يتم اختبار ذلك عادةً باستخدام عينة من البيانات والأسئلة والتغيرات في المعايير للعثور على أفضل نهج يمكن اتباعه. تمتلك EBSCO فرقًا متخصصة من مهندسي الذكاء الاصطناعي الذين يجرون اختبارات مستمرة على هذه العوامل الخاصة بالذكاء الاصطناعي لضمان التلبية المستمرة لتوقعات الجودة العالية لمنتجاتنا.

لقد حرصت EBSCO دائمًا على تقديم جودة عالية وبيانات موثوقة، وينطبق الأمر ذاته على الذكاء الاصطناعي.

مرحلة التأسيس

المرحلة التالية التي تؤثر على الجودة هي مرحلة التأسيس حيث يتم تعزيز نموذج اللغة الكبير عبر التوليد المعزز بالاسترداد (RAG). تسترجع الأسئلة المرسلة إلى نموذج اللغة الكبير بيانات موثوقة ورسمية من خارج النموذج قبل استخدام تلك المعلومات لتحسين خصائص قابلية التنبؤ والدقة والسياق والملاءمة الزمنية لمخرجات الذكاء الاصطناعي. تخضع مرحلة التأسيس بالكامل لتحكم الفرد أو المؤسسة التي تستخدم الذكاء الاصطناعي، لذا فإن هذه المرحلة هي الأكثر أهمية من حيث الجودة. يساعد استخدام مصادر بيانات عالية الجودة على تقليل الأخطاء وزيادة تخصيص استجابات الذكاء الاصطناعي بنسبة 46% على الأقل، وذلك وفقًا لدراسات حديثة. على سبيل المثال، تأسس EBSCO ميزات الذكاء الاصطناعي لدينا على المحتوى الموثوق من قواعد بياناتنا. وهذا لا يعني تدريب الذكاء الاصطناعي بأي شكل من الأشكال. يسمح التأسيس للذكاء الاصطناعي بالاستفادة من البيانات الموثوقة الموجودة في قواعد بياناتنا، يليها الانتقاء اليدوي للحقائق والموضوعات التي لطالما قمنا بانتقائها.

مرحلة تقييم المستخدم النهائي

المرحلة التالية للجودة هي مرحلة تقييم المستخدم النهائي. بينما تحتوي هذه المرحلة غالبًا على بعض التقييم السلبي للجودة من المستخدمين (مثل الاستعلامات البحثية المتروكة أو المنقحة)، يتم إجراء تقييم الجودة على استجابات الذكاء الاصطناعي بشكل دوري لضمان تلبية معايير الجودة وعدم انخفاضها بمرور الوقت. تستخدم EBSCO عملية مراجعة بشرية لاستجابات الذكاء الاصطناعي من ثلاث خطوات، حيث يتم مراجعتها من قِبل خبراء داخليين في الموضوعات، تليها مختبرون ثانويون، ثم المستخدمون النهائيون. تُعد هذه هي مساهمة الإنسان في عملية المراجعة. إليك أمثلة على المعايير التي تستخدمها EBSCO لتقييم جودة استجابات الذكاء الاصطناعي: 

  • الملاءمة الزمنية: هل المعلومات المقدمة في الاستجابة حديثة وليست قديمة؟
  • الأسلوب: هل تتناسب المعلومات الموجودة في الاستجابة مع أسلوب المقال؟
  • المصطلحات: هل تتطابق المصطلحات في الاستجابة مع ما محتوى المقال؟
  • الدقة: هل المعلومات في الاستجابة دقيقة وفقًا للتفاصيل الموجودة في المقال؟
  • الموضوعية: هل تناولت الاستجابة الموضوعات الرئيسية الموجودة في المقال؟
  • الفائدة: هل كانت الاستجابة مفيدة كمادة إضافية للملخص أو البحث، أو كليهما؟

بالإضافة إلى ذلك، توجد بعض عوامل التقييم للنظام من بينها التأخير (مدى بطء الذكاء الاصطناعي في إتمام مهمته)، ووقت التشغيل والإيقاف (مدى موثوقية النظام عند الحاجة لاستخدامه)، والكفاءة البيئية والتكلفة (المسؤولية تجاه الاقتصاد والبيئة)، ومراجعة هندسة الطلبات (تساعد على تقليل التحيز)، والتحكم في درجة الحرارة (مثل عتبة الثقة في استجابات الذكاء الاصطناعي)، وغيرها الكثير. كل ذلك يؤثر على جودة أداء الذكاء الاصطناعي في أي مهمة.

يمكن قياس الجودة في كل مرحلة من مراحل سلسلة الذكاء الاصطناعي، ويمكن اتخاذ خطوات لزيادة هذه الجودة. من الضروري تقييم الجودة في كل مرحلة، بالإضافة إلى تقييم المقاييس الأخرى مثل التحيز، والتكلفة، والأثر البيئي، والمساواة، وغيرها. سوف نتناول هذه المبادئ في المنشورات القادمة.

لقد كرست EBSCO جهودها دائمًا لضمان جودة عالية وبيانات موثوقة، وينطبق الأمر ذاته على جودة الذكاء الاصطناعي. نحن لا نقيس الجودة في كل مرحلة فحسب، بل ولدينا أيضًا خبراء في الموضوعات يقومون بمراجعة عينة تمثيلية من استجابات ومخرجات الذكاء الاصطناعي لضمان استمرار الجودة العالية. 

إذا كنت مهتمًا بتجربة إحدى ميزات الذكاء الاصطناعي لدينا، قم بتجربة ميزة آراء الذكاء الاصطناعي الجديدة والبحث باللغات الطبيعية التي أطلقناها مؤخرًا.