گوگل در کنفرانس I/O از مولد هوش مصنوعی Veo و Imagen 3 برای تولید تصویر و تبدیل متن به تصویر رونمایی کرد.

Veo یک مولد هوش مصنوعی است که می‌تواند ویدیوهای 1080 پیکسل با کیفیت بالا تولید کند و Imagen 3، امکان تبدیل متن به تصویر را فراهم می‌کند. البته باید به این موضوع اشاره کنیم که هیچ‌کدام از این قابلیت‌های عجیب و جدیدی به شمار نمی‌روند، اما راهی برای رقابت با مدل ویدیویی Sora OpenAI و Dall-E 3 هستند، ابزاری که عملاً مترادف با تصاویر تولید شده توسط هوش مصنوعی است.

گوگل ادعا می‌کند که Veo درکی پیشرفته از زبان طبیعی و معنای بصری دارد تا هر ویدیویی را که در ذهن دارید ایجاد کند. حجم این ویدئوها بیش از یک دقیقه است و Veo قادر به درک تکنیک‌های سینمایی و بصری مانند مفهوم تایم لپس است.

براساس گزارش گوگل، Veo می‌تواند فیزیک دنیای واقعی را بهتر از مدل‌های قبلی شبیه‌سازی کند و همچنین نحوه ارائه تصاویر با کیفیت بالا را بهبود ببخشد.

البته فعلا نمی‌توان درباره عملکرد مولدهای هوش مصنوعی پیش‌بینی کرد، براین اساس باید دید که آیا کسی واقعاً مایل به تماشای ویدیوی تولید شده توسط هوش مصنوعی است.

براساس گزارش گوگل، Veo از هم‌اکنون در داخل ابزار VideoFX گوگل برای برخی از سازندگان در دسترس خواهد بود و به YouTube Shorts و سایر محصولات نیز می‌آید. اگر Veo در نهایت به بخشی از YouTube Shorts تبدیل شود، این حداقل یکی از ویژگی‌هایی است که گوگل می‌تواند با تیک‌تاک رقابت کند.

Imagen 3 نیز با‌کیفیت‌ترین مدل تبدیل متن به تصویر است. براساس گزارش گوگل این سرویس بهتر از قبل متن را مدیریت می‌کند و همچنین در مورد رسیدگی به جزئیات درخواست‌های طولانی هوشمندتر است.

گوگل همچنین با هنرمندانی مانند Wyclef Jean و Bjorn کار می‌کند تا Music AI Sandbox خود را آزمایش کند، مجموعه‌ای از ابزارهایی که می‌توانند برای تولید آهنگ مورد استفاده قرار گیرد.