تحرير Step1X-Edit: إطار عملي لتحرير الصور العام

تحرير Step1X-Edit: إطار عملي لتحرير الصور العام

لقد أحدثت التطورات الأخيرة في النماذج متعددة الوسائط مثل GPT-4o و Gemini2 Flash ثورة في قدرات تحرير الصور. تتفوق هذه الأنظمة المسجلة الملكية في تلبية طلبات التحرير الخاصة بالمستخدم، ولكن توجد فجوة كبيرة بين هذه النماذج المغلقة المصدر ونظيراتها مفتوحة المصدر. يهدف Step1X-Edit إلى سد هذه الفجوة من خلال توفير حل متطور لتحرير الصور مفتوح المصدر بأداء مماثل للأنظمة الرائدة مغلقة المصدر.

ويجمع النموذج بين نموذج اللغة الكبيرة متعددة الوسائط (MLLM) مع وحدة فك ترميز الصور المنتشرة لمعالجة الصور المرجعية وتعليمات التحرير الخاصة بالمستخدم بفعالية. يتيح هذا التكامل تفسيرًا دقيقًا لطلبات التحرير وإنشاء صور معدّلة عالية الجودة. ولتحقيق ذلك، طوّر الباحثون خط أنابيب شامل لتوليد البيانات ينتج أكثر من مليون مثال تدريبي عالي الجودة.

الشكل 1: نظرة عامة على برنامج Step1X-Edit، يوضح قدرات التحرير الشاملة مع أداء على مستوى الملكية. (جميع الصور من الورقة البحثية).

يقدم Step1X-Edit ثلاث مساهمات رئيسية في مجال تحرير الصور:

  1. نموذج مفتوح المصدر يعمل على تضييق فجوة الأداء بين أنظمة تحرير الصور المملوكة ملكية خاصة وأنظمة تحرير الصور المتاحة للجمهور

  2. خط أنابيب متطور لتوليد البيانات ينتج بيانات تدريب متنوعة وعالية الجودة.

  3. معيار GEdit-Bench، وهو معيار جديد يستند إلى احتياجات التحرير للمستخدمين في العالم الحقيقي من أجل تقييم أكثر واقعية

يُظهر النظام تحسينات كبيرة مقارنةً بالخطوط الأساسية الحالية مفتوحة المصدر مثل "موجه إلى موجه"، ويقترب من أداء النماذج المملوكة الرائدة مع الحفاظ على الشفافية الكاملة وقابلية التكرار.

مشهد تكنولوجيا تحرير الصور

تطور توليد الصور وتحريرها

تطورت تقنيات تحرير الصور على مسارين أساسيين: نماذج الانحدار التلقائي ونماذج الانتشار، ولكل منهما نقاط قوة وقيود مميزة.

تتعامل نماذج الانحدار التلقائي مع الصور على أنها تسلسلات من الرموز المنفصلة، مما يتيح التحكم المنظم من خلال آليات التكييف. تتضمن أعمال مثل ControlAR وControlVAR وControlVAR وCAR التوجيه المكاني مثل الحواف وأقنعة التجزئة في عملية فك التشفير. ومع ذلك، غالبًا ما تعاني هذه النماذج من نتائج عالية الدقة والواقعية بسبب اعتمادها على الرموز البصرية المنفصلة وقيود طول التسلسل.

برزت نماذج الانتشار كنهج مهيمن لتوليف الصور عالية الدقة، مما يوفر واقعية ضوئية فائقة واتساقًا هيكليًا. بدءًا من DDPM وتطورت من خلال الانتشار المستقر وControlNet، تعمل هذه النماذج في مساحات كامنة لتحسين الكفاءة. على الرغم من نقاط قوتها، تعتمد نماذج الانتشار عادةً على المطالبات الثابتة وتفتقر إلى القدرة على التفكير متعدد الأدوار، مما يحد من مرونتها في سيناريوهات التحرير المعقدة.

وقد دفعت هذه القيود إلى الاهتمام بالأطر الموحدة التي تجمع بين التحكم الرمزي لنماذج الواقع المعزز والدقة التوليدية لنماذج الانتشار، بهدف إنشاء أنظمة تحرير أكثر تنوعًا وسهولة في الاستخدام.

مناهج موحدة لتحرير الصور القائم على التعليمات

تهدف النماذج الموحدة لتحرير الصور إلى الربط بين الفهم الدلالي والمعالجة البصرية الدقيقة في إطار عمل متماسك. استخدمت المقاربات المبكرة تصميمات معيارية تربط بين نماذج تحرير الصور القائمة على التعليمات ونماذج الانتشار، كما رأينا في برنامجي " من موجه إلى موجه" و"InstructEdit" و"BrushEdit". قام برنامج InstructPix2Pix بتدريب نموذج انتشار مشروط باستخدام أزواج من التعليمات والصور الاصطناعية، بينما حسّن MagicBrush قابلية التطبيق في العالم الحقيقي من خلال التعليقات التوضيحية البشرية عالية الجودة.

عززت التطورات الأخيرة التفاعل بين مكونات اللغة والرؤية. قدم AnyEdit توجيهًا مدركًا للمهام ضمن نموذج انتشار موحد، بينما اعتمد OmniGen عمودًا فقريًا واحدًا للمحول لتشفير النصوص والصور بشكل مشترك. تُظهر النماذج متعددة الوسائط متعددة الأغراض العامة مثل Gemini و GPT-4o قدرات بصرية قوية من خلال التدريب المشترك بين الرؤية واللغة.

على الرغم من هذه التطورات، تواجه الأساليب الحالية قيودًا كبيرة:

  • معظم الأساليب خاصة بالمهام وليس للأغراض العامة

  • أنها لا تدعم عادةً التحرير التدريجي أو تطابق المناطق الدقيقة.

  • لا يزال الاقتران المعماري سطحيًا في العديد من التصميمات

يتصدى Step1X-Edit لهذه التحديات من خلال الدمج المحكم بين المنطق متعدد الوسائط القائم على MLLM والتركيب القائم على الانتشار القابل للتحكم، مما يتيح تحرير الصور القابل للتطوير والتفاعل والوفي للتعليمات عبر سيناريوهات تحرير متنوعة.

داخل Step1X-Edit: البنية والبيانات

بناء مجموعة بيانات ضخمة وعالية الجودة لتحرير الصور

يتطلب إنشاء نموذج فعّال لتحرير الصور بيانات تدريب واسعة النطاق وعالية الجودة. قام الباحثون بتطوير خط أنابيب بيانات متطور لمعالجة القيود في مجموعات البيانات الحالية، والتي غالبًا ما تعاني إما من قيود الحجم أو الجودة.

الشكل 2: مقارنة توضح حجم مجموعة بيانات Step1X-Edit مقارنةً بمجموعات بيانات تحرير الصور الأخرى.

من خلال تحليل أمثلة التحرير التي تم الزحف إليها عبر الويب، قام الفريق بتصنيف تحرير الصور إلى 11 نوعًا متميزًا. وقد استرشد بهذا التصنيف في إنشاء خط أنابيب بيانات شامل أنتج أكثر من 20 مليون ثلاثية من ثلاثية التعليمات والصور. وبعد التصفية الصارمة باستخدام كلٍ من أدوات تحرير الصور متعددة الوسائط والمشرحين البشريين، احتوت مجموعة البيانات النهائية على أكثر من مليون مثال عالي الجودة.

اقرأ المزيد

شارك هذا المقال