Qwen2.5-VL-32B-Instruct

الوصف
🖼️ Tool Name:
Qwen2.5-VL-32B-Instruct
🔖 Tool Category:
نموذج لغوي–بصري متقدّم (Vision-Language Model)
✏️ What does this tool offer?
فهم الصور والفيديوهات الطويلة (أكثر من ساعة).
استخراج النصوص، الجداول، المخططات، والرسوم البيانية من الصور.
تحديد مواقع العناصر داخل الصور وإخراجها بصيغة JSON.
قراءة المستندات مثل الفواتير والنماذج بدقة عالية.
العمل كوكيل بصري مستقل قادر على التفاعل مع أدوات وأجهزة.
⭐ What does the tool actually deliver based on user experience?
أداء متفوق في مهام متعددة الوسائط مقارنةً بنماذج أكبر مثل Qwen2-VL-72B.
نتائج قوية في اختبارات MMMU وMathVista وغيرها.
إخراج نصوص منظمة وسلسة وأكثر توافقًا مع تفضيلات المستخدم.
🤖 Does it include automation?
نعم، يعمل كوكيل بصري مستقل (Autonomous Agent) قادر على اتخاذ قرارات وتنفيذ مهام تلقائيًا.
💰 Pricing Model:
مفتوح المصدر بالكامل تحت ترخيص Apache-2.0، ومتاح مجانًا.
رسوم إضافية فقط عند استخدامه عبر خدمات سحابية مثل Fireworks.
🆓 Free Plan Details:
متاح مجانيًا للجميع عبر Hugging Face وGitHub وModelScope.
لا يحتاج إلى أي اشتراك أو رسوم.
💳 Paid Plan Details:
لا توجد خطط مدفوعة من المطورين.
الاستخدام عبر منصات سحابية قد يكلّف (مثل Fireworks: حوالي 0.9 دولار لكل مليون توكن).
🧭 Access Method:
يمكن الوصول إليه عبر Hugging Face أو GitHub أو ModelScope.
يدعم التشغيل محليًا باستخدام مكتبات مثل
transformersوvLLM.
🔗 Experience Link:
https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct?utm_source=