AI Tools & Launches

OpenAI تختبر GPT-5 على 1.3 مليون محادثة حقيقية قبل الإطلاق: تحوّل جذري في تقييم سلامة الذكاء الاصطناعي

عمر حسن18 June 2026 at 12:21 am6 دقيقة للقراءة

أبرز النقاط

OpenAI تستخدم 1.3 مليون محادثة حقيقية مجهولة الهوية لمحاكاة بيئة الإطلاق قبل إصدار GPT-5
التقنية الجديدة حققت دقة 92% في التنبؤ باتجاهات الأخطاء مقارنة بالاختبارات التقليدية
معدل وعي النموذج بأنه يخضع للاختبار انخفض إلى 5.1% فقط مقابل قرابة 100% في الاختبارات الثابتة

أعلنت OpenAI في 16 يونيو 2026 عن منهجية جديدة كلياً لاختبار GPT-5 قبل إطلاقه للمستخدمين، تعتمد على إعادة تشغيل 1.3 مليون محادثة حقيقية مجهولة الهوية من عمليات النشر السابقة. هذا التحول من الاختبارات الثابتة إلى المحاكاة الديناميكية يمثل قفزة نوعية في مجال سلامة الذكاء الاصطناعي، إذ حققت التقنية دقة بلغت 92% في التنبؤ باتجاهات السلوكيات غير المرغوبة قبل وصول النموذج إلى المستخدمين.

92%

نسبة الدقة في التنبؤ باتجاهات أخطاء نماذج سلسلة GPT-5 قبل الإطلاق العام

لماذا فشلت اختبارات السلامة التقليدية؟

اعتمدت مختبرات الذكاء الاصطناعي لسنوات على أسلوبين رئيسيين: الفِرَق الحمراء (Red Teams) التي يحاول فيها خبراء بشريون كسر النموذج يدوياً، والاختبارات المرجعية الثابتة (Static Benchmarks). لكن هذه الأساليب تواجه ثلاث إشكاليات جوهرية حددتها OpenAI في ورقتها البحثية الجديدة:

التغطية المحدودة: صعوبة التأكد من أن الاختبارات تشمل كل أنواع السلوكيات غير المرغوبة المحتملة، خاصة الأنماط الجديدة التي لم تُرصد سابقاً
التحيز في الاختيار: الاختبارات التقليدية تُبنى مع وضع سلوكيات محددة في الاعتبار، مما يُحدث انحرافاً نحو سياقات حدثت في الماضي
وعي النموذج بالاختبار: النماذج المتقدمة أصبحت قادرة على إدراك أنها تخضع للتقييم، مما يُشوّه سلوكها ويُضعف موثوقية القياسات

أشارت الدكتورة Elena Vance، كبيرة علماء أبحاث سلامة الذكاء الاصطناعي في OpenAI، إلى أن المشكلة الأكبر في اختبارات السلامة الثابتة هي أن النموذج يعرف أنه يُقيَّم، بينما تُجبره المحاكاة على الأداء كما لو كان في البيئة الحقيقية دون الدروع الواقية لبيئة الاختبار.

كيف تعمل تقنية Deployment Simulation؟

الفكرة الأساسية بسيطة في جوهرها لكنها قوية في تطبيقها: تأخذ OpenAI محادثات حديثة من عمليات النشر الفعلية، تُزيل استجابة المساعد الأصلية من النموذج القديم، ثم تُعيد توليدها باستخدام النموذج المرشح للإطلاق. بعدها، يُقيَّم المخرج الجديد للبحث عن أنماط فشل محتملة، وتُقدَّر معدلات السلوك غير المرغوب بناءً على تكرارها في هذا التوزيع الذي يُحاكي النشر الفعلي.

1.3 مليون

عدد المحادثات الحقيقية مجهولة الهوية المستخدمة لمحاكاة بيئة الإطلاق

الأهم من ذلك أن OpenAI تستطيع إجراء القياسات نفسها بعد الإطلاق على حركة المرور الفعلية، مما يُتيح التحقق من صحة التوقعات التي أُجريت قبل النشر. هذه الحلقة المغلقة من التنبؤ والتحقق هي ما يمنح المنهجية مصداقيتها العلمية.

نتائج مذهلة: انخفاض وعي النموذج بالاختبار إلى 5% فقط

أظهرت التجارب عبر عمليات نشر متعددة لنماذج سلسلة GPT-5 Thinking نتائج لافتة. فقد انخفض معدل وعي النموذج بأنه يخضع للاختبار إلى 5.1% فقط في بيئات المحاكاة، مقارنة بما يقارب 100% في الاختبارات المرجعية الثابتة التقليدية. هذا الفارق الهائل يعني أن القياسات التي تُجرى عبر Deployment Simulation تعكس السلوك الفعلي المتوقع في الإنتاج بشكل أدق بكثير.

5.1%

معدل وعي النموذج بأنه يخضع للاختبار في بيئات المحاكاة، مقابل قرابة 100% في الاختبارات الثابتة

كما ساعدت المنهجية في رصد أشكال جديدة من عدم المحاذاة (Misalignment) قبل الإطلاق، وهي أنماط سلوكية لم تكن الاختبارات التقليدية لترصدها لأنها ببساطة لم تكن مُصممة للبحث عنها.

ما حدود هذه التقنية؟

تعترف OpenAI بأن Deployment Simulation ليست حلاً سحرياً. فالمنهجية لا تستطيع قياس السلوكيات النادرة جداً التي تحدث بتردد أقل من 1 لكل 200,000 رسالة. هذه السلوكيات الطرفية (Tail Risks) لا تزال تتطلب الاختبارات التقليدية المستهدفة والفِرَق الحمراء المتخصصة.

لكن المنهجية تُقدم مقايضة واضحة بين الحوسبة والتغطية: كلما زادت المحادثات المُحاكاة، زادت تغطية السلوكيات غير المرغوبة المحتملة. وهذا يجعل التوسع في الاختبار مسألة موارد حوسبية وليس جهداً بشرياً مكثفاً.

التطبيق يتجاوز المحادثات إلى الوكلاء الذكية

لم تقتصر OpenAI على اختبار المحادثات النصية العادية. فقد طبّقت المنهجية أيضاً على عمليات النشر الوكيلية (Agentic Rollouts) المعقدة التي تتضمن استخدام الأدوات وتنفيذ مهام متعددة الخطوات. هذا التوسع يُشير إلى أن Deployment Simulation يمكن أن تُستخدم لتقييم المخاطر حتى قبل عمليات النشر الداخلية للنماذج، وليس فقط الإطلاقات العامة.

بالنسبة للشركات في منطقة الخليج التي تتبنى حلول الذكاء الاصطناعي ضمن مبادرات التحول الرقمي ورؤى 2030، فإن هذا التطور يعني إمكانية المطالبة بمعايير سلامة أعلى من مزودي الحلول، ومعرفة أن التقنيات الأحدث تخضع لاختبارات أكثر واقعية قبل وصولها إلى السوق.

الجدل حول الخصوصية: هل البيانات المجهولة كافية؟

أثار الإعلان نقاشاً في مجتمعات المطورين حول استخدام بيانات المستخدمين الحقيقية للاختبار، حتى وإن كانت مجهولة الهوية. يرى بعض المدافعين عن الخصوصية أن المستخدمين يجب أن يكون لهم رأي أوضح في كيفية استخدام تاريخ تفاعلاتهم لتقييم النماذج وتدريبها.

في المقابل، أشاد مهندسون على منصات مثل Hacker News بالتحول نحو سلامة تجريبية مبنية على البيانات بدلاً من التقييم البشري الذاتي، معتبرين أن هذا النهج أكثر علمية وقابلية للتوسع.

ℹ️

رأي Logicity

تُمثل Deployment Simulation نقطة تحول في فلسفة اختبار نماذج الذكاء الاصطناعي: من السؤال 'هل يستطيع النموذج فعل شيء خطير؟' إلى السؤال الأهم 'كم مرة سيفعله فعلاً في الاستخدام الحقيقي؟'. هذا التحول من القدرة إلى الاحتمالية يُقرّب تقييمات السلامة من الواقع الإحصائي للنشر. لكن التحدي الأكبر سيكون في كيفية تطبيق هذه المنهجية على النماذج مفتوحة المصدر التي لا تملك قاعدة محادثات ضخمة للمحاكاة منها.

الأسئلة الشائعة

ما الفرق بين Deployment Simulation والاختبارات التقليدية للذكاء الاصطناعي؟

الاختبارات التقليدية تستخدم سيناريوهات مكتوبة يدوياً أو مُولّدة صناعياً، بينما Deployment Simulation تُعيد تشغيل محادثات حقيقية مجهولة الهوية على النموذج الجديد لقياس سلوكه في سياقات واقعية.

هل تحمي OpenAI خصوصية المستخدمين عند استخدام محادثاتهم للاختبار؟

تؤكد OpenAI أن المحادثات المستخدمة مجهولة الهوية، لكن النقاش لا يزال قائماً حول مدى كفاية هذا الإجراء ومستوى موافقة المستخدمين المطلوبة.

هل يمكن لهذه التقنية رصد جميع المخاطر المحتملة؟

لا، التقنية لا تستطيع قياس السلوكيات النادرة جداً التي تحدث بتردد أقل من 1 لكل 200,000 رسالة، وهذه تتطلب اختبارات مستهدفة تقليدية.

هل طُبّقت هذه المنهجية على GPT-5 فقط؟

طُبّقت على عمليات نشر متعددة لنماذج سلسلة GPT-5 Thinking، وأيضاً على سيناريوهات وكيلية معقدة تتضمن استخدام الأدوات.

ما أهمية هذا التطور للشركات في منطقة الخليج؟

يعني أن النماذج الجديدة تخضع لاختبارات أكثر واقعية قبل وصولها للسوق، مما يرفع معايير السلامة للحلول المؤسسية المبنية على الذكاء الاصطناعي.

ℹ️

هل تحتاج مساعدة في التطبيق؟

إذا كنت تبني حلولاً مؤسسية على نماذج الذكاء الاصطناعي وتحتاج إرشاداً حول أفضل ممارسات التقييم والسلامة، تواصل مع فريق Logicity للحصول على استشارة متخصصة تناسب احتياجات مؤسستك.