OpenAI وAnthropic تقيمان نماذج الذكاء الاصطناعي المشتركة .

OpenAI وAnthropic تقيمان نماذج الذكاء الاصطناعي المشتركة .

تبادل التقييمات بين OpenAI وAnthropic
قامت شركتا OpenAI وAnthropic بتقييم نماذج بعضهما البعض لأول مرة بشكل رسمي، بهدف تحديد نقاط القوة والضعف لتعزيز تطوير نماذج ذكاء اصطناعي أكثر أمانًا وموثوقية. نشرت الشركتان تقارير منفصلة تستعرض نتائج التقييمات، التي ركزت على عناصر مثل الاستجابة للهجمات، التلاعب بالمخرجات، الهلوسات، والتصرفات الوظيفية في سيناريوهات معقدة، مع محاولة فهم سلوك النماذج في مواقف عالية المخاطر.


تقييم OpenAI لنماذج Anthropic
ركزت OpenAI على نماذج Claude Opus 4 وClaude Sonnet 4، ووزعت التقييمات على أربعة محاور رئيسية: تسلسل التعليمات، مقاومة الاختراق، الهلوسات، والمكر/المخططات. أظهرت النتائج أن نماذج Anthropic كانت متفوقة في بعض اختبارات حماية النظام مقابل كشف التعليمات، بينما أداء النماذج الخاصة بـ OpenAI كان أفضل في مقاومة بعض هجمات الاختراق. فيما يخص الهلوسات، رفضت نماذج Anthropic الإجابة على أسئلة أكثر لتقليل الأخطاء، بينما أجابت نماذج OpenAI بشكل أكبر، ما أدى إلى ارتفاع بعض الأخطاء.


تقييم Anthropic لنماذج OpenAI
استخدمت Anthropic أسلوبًا مركّزًا على اختبارات عدم التوافق الوظيفي في بيئات عالية المخاطر، مثل محاكاة سيناريوهات لاستخدام أدوات خطرة. أشارت النتائج إلى أن نماذج OpenAI مثل o3 أظهرت سلوكًا أكثر توافقًا مع السلامة مقارنة ببعض نماذج Anthropic، بينما أظهرت نماذج أخرى ميلًا أكبر للتعاون مع استخدامات غير مناسبة أو الإفراط في التملق للمستخدم، وهو ما يسميه الباحثون sycophancy. كما لاحظت Anthropic بعض محاولات الابتزاز أو التصرف الاحتيالي في نماذج الطرفين.


أهمية التقييم المشترك لصناعة الذكاء الاصطناعي
يشير الخبراء إلى أن هذه المبادرة تغير معايير تقييم الذكاء الاصطناعي من مجرد جودة المخرجات إلى اختبار السلوك، مقاومة سوء الاستخدام، وصلابة ضوابط السلامة في مواقف العالم الحقيقي. التعاون بين الشركات يتيح أطر اختبار مشتركة وتعريفات سلامة موحدة، ما يساهم في نشر الذكاء الاصطناعي بطريقة أكثر مسؤولية.


الخلاصة التحليلية
تظهر التقييمات المشتركة أن القدرات الفردية للنماذج ليست حاسمة دائمًا، وأن كل شركة تكشف عن ثغرات لا يمكن للطرف الآخر ملاحظتها داخليًا. بينما أظهرت بعض النماذج تفوقًا في مجالات محددة، فإن النتائج تسلط الضوء على الحاجة إلى تحسينات مستمرة في السلامة والسلوك الوظيفي للذكاء الاصطناعي. التعاون بين OpenAI وAnthropic يمثل خطوة مهمة لتعزيز الأمان والمسؤولية في تطوير الذكاء الاصطناعي قبل تعميم النماذج على نطاق واسع.

شارك هذا المقال