أبرز النقاط
- جوجل أدمجت ميزة التحكم بالحاسوب مباشرة في Gemini 3.5 Flash بدلاً من نموذج منفصل
- النموذج حقق 78.4 نقطة على معيار OSWorld متفوقاً على GPT-5.4 mini
- جوجل أضافت ضمانات أمنية ضد هجمات حقن الأوامر تشمل تأكيد المستخدم والإيقاف التلقائي
أعلنت جوجل عن دمج ميزة Computer Use مباشرة في نموذج Gemini 3.5 Flash، مما يتيح للنموذج رؤية شاشة المستخدم وفهم محتواها والتفاعل معها دون تدخل بشري. هذه الخطوة تمثل نقلة نوعية في قدرات الذكاء الاصطناعي على تنفيذ المهام الحقيقية، إذ كانت هذه الميزة متاحة سابقاً في نموذج Gemini 2.5 منفصل فقط.
ما الذي يستطيع Gemini 3.5 Flash فعله الآن؟
النموذج الجديد قادر على التفاعل مع ثلاث بيئات رئيسية: المتصفحات، والأجهزة المحمولة، وأجهزة سطح المكتب. عند دمج هذه القدرة مع أدوات جوجل الموجودة مثل استدعاءات الدوال (Function Calls) وخدمات البحث والخرائط، يصبح بإمكان المطورين بناء وكلاء ذكاء اصطناعي قادرين على تنفيذ مهام معقدة مثل اختبار البرمجيات وأتمتة العمليات المكتبية.
الفارق الجوهري هنا أن النموذج لا يكتفي بتقديم إجابات نصية، بل يتخذ إجراءات فعلية: ينقر على الأزرار، يملأ النماذج، يتنقل بين التطبيقات، ويُكمل سلاسل مهام كاملة نيابة عن المستخدم.
كيف يقارن Gemini 3.5 Flash بالمنافسين؟
على معيار OSWorld المتخصص في قياس قدرات التحكم بالحاسوب، حقق Gemini 3.5 Flash نتيجة 78.4 نقطة. هذه النتيجة تضعه في المنافسة المباشرة مع أقوى النماذج المتاحة حالياً:
- GPT-5.5 يتقدم بفارق ضئيل: 78.7 نقطة
- Sonnet 4.6 من Anthropic يتعادل: 78.4 نقطة
- Opus 4.8 من Anthropic يتصدر: 83.4 نقطة
- Gemini 3.1 Pro: 76.2 نقطة
- GPT-5.4 mini متأخر: 72.1 نقطة
- Gemini 3 Flash السابق: 65.1 نقطة فقط
القفزة من 65.1 إلى 78.4 تمثل تحسناً بنسبة تتجاوز 20% مقارنة بالجيل السابق، وهو تقدم ملحوظ في فترة قصيرة.
ما الضمانات الأمنية التي أضافتها جوجل؟
منح الذكاء الاصطناعي صلاحية التحكم بالشاشة يفتح الباب أمام مخاطر أمنية جدية، أبرزها هجمات حقن الأوامر (Prompt Injection) حيث قد يُخدع النموذج لتنفيذ أوامر خبيثة مخفية في محتوى يعرضه. جوجل عالجت هذا التهديد عبر نهج متعدد الطبقات:
- تدريب عدائي (Adversarial Training) لتحصين النموذج ضد محاولات التلاعب
- ضمان اختياري يتطلب تأكيد المستخدم قبل تنفيذ الإجراءات الحساسة أو غير القابلة للتراجع
- ضمان آخر يوقف المهام تلقائياً عند اكتشاف محاولات حقن أوامر غير مباشرة
جوجل توصي أيضاً بتشغيل النموذج في بيئة معزولة (Sandbox)، والحفاظ على إشراف بشري، وتطبيق ضوابط صارمة على الصلاحيات، مع توفير توثيق مفصل لأفضل الممارسات.
كيف يمكن للمطورين الوصول للميزة؟
جوجل أتاحت الميزة عبر قناتين رئيسيتين: واجهة برمجة تطبيقات Gemini API، ومنصة Gemini Enterprise Agent Platform الموجهة للمؤسسات. كما وفرت عرضاً توضيحياً عبر Browserbase ونموذج تطبيق مرجعي على GitHub لتسهيل البدء.
هذا التوفر المتعدد يُظهر أن جوجل تستهدف شريحتين: المطورين المستقلين الراغبين في التجريب، والمؤسسات الكبيرة التي تحتاج أدوات جاهزة للإنتاج مع ضمانات أمنية على مستوى المؤسسات.
ماذا يعني هذا لمستقبل وكلاء الذكاء الاصطناعي؟
دمج Computer Use في نموذج سريع ومنخفض التكلفة مثل Flash — بدلاً من حصره في النماذج الأكبر والأغلى — يُشير إلى أن جوجل تراهن على انتشار واسع لهذه التقنية. المهام التي كانت تتطلب تكاملات برمجية معقدة أو واجهات برمجة تطبيقات مخصصة قد تصبح قابلة للتنفيذ بأوامر لغة طبيعية بسيطة.
لكن السؤال الأهم يبقى: هل ستثق المؤسسات بمنح الذكاء الاصطناعي صلاحية التحكم بأنظمتها الحساسة؟ الإجابة ستعتمد على مدى نضج الضمانات الأمنية وقدرة جوجل على بناء سجل موثوقية.
رأي Logicity
إدماج Computer Use في نموذج Flash وليس Pro أو Ultra يكشف استراتيجية جوجل الحقيقية: جعل الوكلاء الذكية سلعة متاحة للجميع وليس حكراً على المؤسسات الكبرى. النتيجة المتقاربة مع GPT-5.5 وSonnet 4.6 تُظهر أن السباق لم يُحسم، لكن المنافسة الشرسة هذه ستُسرّع وصول هذه التقنيات للمستخدم العادي خلال أشهر.
الأسئلة الشائعة
ما الفرق بين Computer Use وأدوات الأتمتة التقليدية؟
أدوات الأتمتة التقليدية تتطلب برمجة مسبقة لكل خطوة، بينما Computer Use يفهم الشاشة بصرياً ويتخذ قرارات ديناميكية مثل المستخدم البشري، مما يتيح التعامل مع واجهات متغيرة دون إعادة برمجة.
هل Gemini 3.5 Flash مجاني للاستخدام؟
الميزة متاحة عبر Gemini API ومنصة Enterprise Agent Platform، مع نموذج تسعير يعتمد على الاستهلاك. جوجل توفر حصصاً مجانية للتجريب، لكن الاستخدام المكثف يتطلب اشتراكاً مدفوعاً.
ما مخاطر منح الذكاء الاصطناعي صلاحية التحكم بالشاشة؟
أبرز المخاطر هجمات حقن الأوامر حيث قد يُخدع النموذج لتنفيذ أوامر خبيثة، إضافة لاحتمال تنفيذ إجراءات غير مقصودة. لذلك تنصح جوجل بالعزل والإشراف البشري وتفعيل ضمانات التأكيد.
كيف يقارن Gemini 3.5 Flash بـ Claude من Anthropic؟
Anthropic أطلقت Computer Use في Claude قبل جوجل، ونموذج Opus 4.8 يتصدر بنتيجة 83.4 على معيار OSWorld. لكن Gemini 3.5 Flash يتعادل مع Sonnet 4.6 عند 78.4، مما يجعل المنافسة متقاربة في الفئة المتوسطة.
هل تحتاج مساعدة في التطبيق؟
إذا كنت تخطط لدمج قدرات Computer Use في مشروعك أو مؤسستك، تواصل مع فريق Logicity للحصول على استشارة تقنية متخصصة حول أفضل الممارسات والضمانات الأمنية المناسبة لحالتك.
فاطمة الزهراء
كاتبة تقنية متخصصة في الذكاء الاصطناعي
أُنتِج هذا المقال بمساعدة الذكاء الاصطناعي وراجعه فريق التحرير في لوجيسيتي. اعرف المزيد في سياسة التحرير.







