الوصف

🖼️ اسم الأداة:
LLaVA (مساعد اللغة والرؤية الكبيرة)

🔖 فئة الأداة:
نموذج ذكاء اصطناعي متعدد الوسائط؛ يندرج تحت فئة النماذج الكبيرة متعددة الوسائط مفتوحة المصدر (LMMs) التي تجمع بين فهم الصور وتوليد اللغة للدردشة المرئية والإجابة عن الأسئلة.

✏️ ماذا تقدم هذه الأداة؟
LLaVA عبارة عن نموذج كبير متعدد الوسائط مفتوح المصدر مفتوح المصدر يربط بين أداة تشفير مرئية (CLIP ViT-L) ونموذج لغوي قوي (مثل Vicuna) لتمكين التفكير المتقدم من صورة إلى نص. وهو يسمح للمستخدمين بإدخال الصور وطرح أسئلة حولها، وتوليد ردود ذكية. يدعم LLaVA ضبط التعليمات المرئية، والتعليق على الصور، والاستدلال البصري، والذكاء الاصطناعي التخاطبي متعدد الوسائط.

ما الذي تقدمه الأداة بالفعل بناءً على تجربة المستخدم؟
- تتعامل مع المدخلات المرئية المعقدة وتولّد استجابات دقيقة شبيهة بالإنسان
- أداء قوي في معايير ضمان الجودة المرئية، حيث يصل إلى 85% تقريبًا من أداء GPT-4V
- يدعم إدخال الصور عالية الدقة، وقراءة التعرف الضوئي على الحروف (OCR)، وفهم المخططات/الجداول
- متاح في إصدارات خفيفة الوزن (على سبيل المثال، LLaVA-Lightning) للتدريب السريع والنشر منخفض التكلفة
- موثق بشكل جيد وسهل التشغيل محليًا عبر عرض غراديو التجريبي
- شائع بين الباحثين والمطورين ومجتمع الذكاء الاصطناعي مفتوح المصدر

🤖 هل يتضمن الأتمتة؟
نعم - يتضمن LLaVA الأتمتة في:
- التوليد التلقائي لبيانات التدريب متعدد الوسائط باستخدام GPT-4 لضبط التعليمات المرئية
- التعليق التوضيحي بمساعدة النموذج والمحاذاة بين الرؤية واللغة
- التدريب السريع باستخدام أدوات مثل LLaVA-Lightning (التدريب في ساعات بأقل قدر من الموارد)
- الاستدلال والتوليد التلقائي للمطالبات المرئية دون تدخل يدوي

💰 نموذج التسعير:
مجاني ومفتوح المصدر

🆓 تفاصيل الخطة المجانية:
- مفتوح المصدر بالكامل مع رخصة MIT
- متاح للتنزيل والتشغيل محلياً
- نماذج مدربة مسبقًا مستضافة على Hugging Face
- لا حدود للاستخدام؛ تعتمد تكاليف الاستضافة المحلية أو السحابية على إعداد المستخدم

🧭 طريقة الوصول:
- تشغيل محليًا عبر واجهة بايثون وغراديو
- استنساخ من GitHub: https://github.com/haotian-liu/LLaVA
- تحميل النماذج المدربة مسبقًا من Hugging Face أو نموذج حديقة الحيوان
- عرض تجريبي متاح من خلال واجهة المتصفح (لا يلزم تسجيل الدخول)

🔗 رابط التجربة:
- العرض التوضيحي الرسمي: https://llava.hliu.cc

تفاصيل التسعير

يتبع LLaVA نموذج تسعير مجاني ومفتوح المصدر بالكامل بموجب رخصة MIT، مما يجعله متاحًا لأي شخص دون تكلفة. يمكن للمستخدمين تنزيل النموذج وتشغيله محلياً، دون أي حدود استخدام يفرضها المطورون. تتوفر النماذج التي تم تدريبها مسبقًا بسهولة عبر Hugging Face، ويمكن تخصيص النشر حسب تفضيلات المستخدم - سواء على جهاز شخصي أو في السحابة - مع تكاليف الاستضافة المرتبطة بها اعتمادًا على البنية التحتية المختارة فقط.