جوجل تطلق Gemini Embedding 2: ثورة في فهم النصوص والصور والفيديو معًا

أعلنت جوجل عن إطلاق Gemini Embedding 2، وهو أول نموذج تضمين متعدد الوسائط (Multimodal Embedding) بالكامل، يهدف إلى توحيد طريقة فهم الذكاء الاصطناعي للبيانات المختلفة مثل النصوص والصور والصوت والفيديو ضمن نظام واحد متكامل.

النموذج الجديد يقوم بربط جميع هذه الأنواع المختلفة من المحتوى ضمن مساحة تضمين موحدة، مما يمكن الذكاء الاصطناعي من استيعاب المفاهيم بشكل أعمق، سواء قُدمت ككلمات مكتوبة أو مقاطع مرئية أو أصوات مسموعة. وتؤكد جوجل أن هذه التقنية ستسهل على نماذج اللغة الكبيرة (LLMs) فهم المعلومات بشكل أكثر تكاملاً وتنفيذ مهام معقدة بكفاءة أعلى من الأنظمة السابقة.

يمثل Gemini Embedding 2 الجيل التالي لنماذج التضمين من جوجل، وهو خليفة للنموذج السابق الذي كان يركز على النصوص فقط. والآن، أصبح النموذج الجديد قادرًا على فهم المعاني والسياقات الدلالية عبر أكثر من 100 لغة. وقد أصبح النموذج متاحًا حاليًا للمعاينة العامة عبر واجهة برمجة تطبيقات Gemini API ومنصة الذكاء الاصطناعي السحابية Vertex AI.

تكمن أهمية هذا التطور في معالجة الطريقة التقليدية التي كانت تعتمد فيها أنظمة الذكاء الاصطناعي على أنظمة منفصلة لمعالجة كل نوع من البيانات؛ فالنصوص تُعالج في نظام، والصور في آخر، وهكذا. هذا التشتت كان يجعل فهم السياق المشترك صعبًا. Gemini Embedding 2 يحل هذه المشكلة عبر بنية موحدة تسمح بتحليل مستند يضم نصوصًا وصورًا في آن واحد، بطريقة أقرب للفهم البشري المتعدد المصادر.

تطبيقات هذا النموذج واسعة وتشمل تحسين تقنيات التوليد المعزز بالاسترجاع (RAG) لتقديم إجابات أدق، وتحسين البحث الدلالي، وتنظيم البيانات وتجميعها. تقنيًا، يدعم النموذج نافذة سياق نصي تصل إلى 8192 رمز إدخال، ويمكنه معالجة ما يصل إلى ست صور (JPEG/PNG)، ومقاطع فيديو تصل مدتها إلى 120 ثانية (MP4/MOV)، بالإضافة إلى تضمين ملفات PDF تصل إلى ست صفحات، مع ميزة معالجة الصوت مباشرة دون الحاجة لتحويله لنص أولاً.