الهواة يكتشفون كيفية إدراج الخطوط المخصصة في الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي

تكبير / مثال تم إنشاؤه بواسطة الذكاء الاصطناعي سايبربانك 2077 LoRA، تم تقديمه باستخدام Flux dev.

في الأسبوع الماضي، قام أحد الهواة بتجربة نموذج Flux AI الجديد لتوليف الصور تم اكتشافه إنها جيدة بشكل غير متوقع في تقديم نسخ مُدرَّبة خصيصًا من الخطوط. وفي حين كانت هناك طرق أكثر كفاءة لعرض الخطوط الحاسوبية منذ عقود من الزمان، فإن التقنية الجديدة مفيدة لهواة الصور بالذكاء الاصطناعي لأن Flux قادر على تقديم تصورات للنص الدقيق، ويمكن للمستخدمين الآن إدراج الكلمات المُقدَّمة بخطوط مخصصة مباشرةً في أجيال الصور بالذكاء الاصطناعي.

لقد امتلكنا التكنولوجيا اللازمة لإنتاج خطوط دقيقة وسلسة يتم رسمها بواسطة الكمبيوتر بأشكال مخصصة منذ ثمانينيات القرن العشرين (وسبعينيات القرن العشرين في مجال البحث)، لذا فإن إنشاء خط مستنسخ بواسطة الذكاء الاصطناعي ليس بالأمر الجديد في حد ذاته. ولكن التقنية الجديدة تعني أنه يمكنك رؤية خط معين يظهر في الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي، على سبيل المثال، لقائمة طعام على السبورة في مطعم واقعي أو بطاقة عمل مطبوعة يحملها ثعلب آلي.

بعد فترة وجيزة من ظهور نماذج تركيب الصور للذكاء الاصطناعي السائدة مثل Stable Diffusion في عام 2022، بدأ بعض الأشخاص متسائل:كيف يمكنني إدراج منتجي أو قطعة ملابسي أو شخصيتي أو أسلوبي في صورة تم إنشاؤها بواسطة الذكاء الاصطناعي؟ جاءت إحدى الإجابات التي ظهرت في شكل LoRA (التكيف منخفض الرتبة)، وهي تقنية تم اكتشافه في عام 2021، تم إطلاق نموذج أساسي للذكاء الاصطناعي يسمح للمستخدمين بتعزيز المعرفة في النموذج الأساسي للذكاء الاصطناعي باستخدام إضافات معيارية تم تدريبها خصيصًا.

تسمح وحدات LoRA هذه، كما تسمى الوحدات النمطية، لنماذج توليف الصور بإنشاء مفاهيم جديدة لم يتم العثور عليها في الأصل (أو تم تمثيلها بشكل سيئ) في بيانات تدريب النموذج الأساسي. في الممارسة العملية، يستخدمها هواة توليف الصور لتقديم أنماط فريدة (على سبيل المثال، كل شيء في فن الطباشير) أو الموضوعات (صور مفصلة لـ الرجل العنكبوت(على سبيل المثال). يجب تدريب كل LoRA بشكل خاص باستخدام الأمثلة التي يقدمها المستخدم.

READ  إعلان لعبة حرب النجوم الجديدة يأتي مع أخبار سيئة

قبل ظهور Flux، لم تكن معظم مولدات الصور بالذكاء الاصطناعي جيدة جدًا في عرض نص دقيق داخل مشهد. إذا طلبت من Stable Diffusion 1.5 عرض علامة مكتوب عليها “cheese”، فسوف تظهر لك هراء. كان DALL-E 3 من OpenAI، الذي تم إصداره العام الماضي، أول نموذج رئيسي يقوم بمعالجة النصوص بشكل جيد إلى حد ما. لا يزال Flux يرتكب أخطاء في الكلمات والحروف في بعض الأحيان، لكنه نموذج الذكاء الاصطناعي الأكثر قدرة على عرض “نص في العالم” (يمكنك تسميته) الذي رأيناه حتى الآن.

نظرًا لأن Flux هو نموذج مفتوح متاح للتنزيل والتحويل الدقيق، فقد كان الشهر الماضي هو المرة الأولى التي قد يكون فيها تدريب خط LoRA منطقيًا. هذا هو بالضبط ما اكتشف مؤخرًا متحمس الذكاء الاصطناعي يدعى فاديم فيدينكو (الذي لم يستجب لطلب إجراء مقابلة بحلول وقت الصحافة). “أنا معجب حقًا بالطريقة التي انتهى بها الأمر”، كتب فيدينكو في مشاركة على موقع ريديت“يتعرف Flux على شكل الحروف في نمط/خط معين، مما يجعل من الممكن تدريب Loras باستخدام خطوط وأنماط محددة وما إلى ذلك. سأقوم بتدريب المزيد منها قريبًا.”

في تجربته الأولى، اختار فيدينكو مشروبًا فوارًا خط بنمط “Y2K” تذكيرًا بتلك التي كانت شائعة في أواخر التسعينيات وأوائل العقد الأول من القرن الحادي والعشرين، ونشر النموذج الناتج على منصة Civitai في 20 أغسطس. بعد يومين، قام مستخدم Civitai المسمى “AggravatingScree7189” بنشر خط LoRA ثاني يعيد إنتاج خط مشابه للخط الموجود في سايبربانك 2077 لعبة فيديو.

“كان النص سيئًا للغاية قبل أن يخطر ببالي أنه يمكنك القيام بذلك” كتب مستخدم Reddit يدعى egg-benedryl عند رده على منشور Fedenko حول الخط Y2K. مستخدم Reddit آخر كتب“لم أكن أعلم أن مجلة Y2K مزيفة حتى قمت بتكبيرها.”

READ  تضيف أحدث ميزة Pixel Drop رؤية أفضل لـ Pixel 6 Night

هل هو مبالغ فيه؟

مثال على <em>Cyberpunk 2077</em> LoRA، تم تقديمه باستخدام Flux dev.” src=”https://cdn.arstechnica.net/wp-content/uploads/2024/08/without_with_2-640×357.jpg” width=”640″ height=”357″ srcset=”https://cdn.arstechnica.net/wp-content/uploads/2024/08/without_with_2.jpg 2x”/></a><figcaption class=
تكبير / مثال على ذلك سايبربانك 2077 LoRA، تم تقديمه باستخدام Flux dev.

من الصحيح أن استخدام شبكة عصبية مدربة بشكل عميق لتوليف الصور لعرض خط عادي على خلفية بسيطة ربما يكون مبالغًا فيه. ربما لا ترغب في استخدام هذه الطريقة لاستبدال Adobe Illustrator أثناء تصميم مستند.

“يبدو هذا جيدًا، ولكن من المضحك نوعًا ما أننا نعيد اختراع فكرة الخطوط بحجم 300 ميجابايت من ملفات LoRA،” كتب أحد المعلقين على موقع Reddit في موضوع حول سايبربانك 2077 الخط.

غالبًا ما يتم انتقاد الذكاء الاصطناعي التوليدي بسبب تأثيره البيئي، وهو مصدر قلق مشروع لمراكز البيانات السحابية الضخمة. لكننا وجدنا أن Flux يمكنه إدراج هذه الخطوط في المشاهد التي تم إنشاؤها بواسطة الذكاء الاصطناعي أثناء التشغيل محليًا على RTX 3060 في مُكَمّ (الحجم المخفض) (ويمكن تشغيل نموذج التطوير الكامل على RTX 3090). إنه استهلاك مماثل للكهرباء لتشغيل لعبة فيديو على نفس الكمبيوتر الشخصي. وينطبق نفس الشيء على إنشاء LoRA: منشئ سايبربانك 2077 الخط مدرب LoRA في ثلاث ساعات على وحدة معالجة الرسوميات 3090.

هناك أيضًا قضايا أخلاقية تتعلق باستخدام مولدات الصور التي تعمل بالذكاء الاصطناعي، مثل كيفية تدريبها على البيانات التي تم حصادها دون موافقة مالك المحتوى. وعلى الرغم من أن التكنولوجيا مثيرة للانقسام بين بعض الفنانين، إلا أن مجتمعًا كبيرًا من الناس يستخدمونها كل يوم شارك النتائج عبر الإنترنت من خلال منصات التواصل الاجتماعي مثل Reddit، مما يؤدي إلى تطبيقات جديدة للتكنولوجيا مثل هذا التطبيق.

حتى وقت كتابة هذه السطور، لا يوجد سوى خطين مخصصين لـ Flux LoRAs، ولكننا سمعنا بالفعل عن خطط لإنشاء المزيد من الأشخاص أثناء كتابة هذه السطور. ورغم أن هذه التقنية لا تزال في مراحلها الأولى، فقد تصبح أساسية إذا تم نشر توليف الصور بالذكاء الاصطناعي على نطاق أوسع في المستقبل. ومن المرجح أن تراقب Adobe، بنماذج توليف الصور الخاصة بها، هذا الأمر.

READ  كان متجر التطبيقات معطلاً، إلى جانب Apple TV وApple Podcasts وApple Music

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *