غوغل تكشف عن نموذج ذكاء اصطناعي لتوليد الفيديو
قاسيون_رصد
أعلنت شركة "غوغل" عن نموذجها اللغوي الكبير الجديد لتوليد الفيديو المسمى "VideoPoet"، وهو مصمم من أجل أداء مجموعة من المهام، ومنها تحويل النص إلى فيديو، وتحويل الصورة إلى فيديو، وتحويل الفيديو إلى صوت.
ويعالج تقديم "VideoPoet" التحدي المتمثل في توليد الحركات الكبيرة المتماسكة في مقاطع الفيديو، وهو قيد في تقنيات توليد الفيديو الحالية.
ويميز هذا النموذج الجديد نفسه من خلال إدماج القدرات المتعددة لتوليد الفيديو في إطار نموذجي لغوي كبير واحد، على النقيض من النهج المجزأ للنماذج الحالية.
يُشار إلى أن يستخدم النموذج طرقاً مختلفة، وهو مدرب باستخدام العديد من الرموز المميزة، مثل "MAGVIT V2" للفيديو والصور، و"SoundStream" للصوت، ويتيح ذلك لنموذج "VideoPoet" أداء مهام متنوعة، بدءاً من تحريك الصور وحتى تحرير مقاطع الفيديو وتصميمها استناداً إلى مدخلات النص.