گوگل در کنفرانس I/O از مولد هوش مصنوعی Veo و Imagen 3 برای تولید تصویر و تبدیل متن به تصویر رونمایی کرد.
Veo یک مولد هوش مصنوعی است که میتواند ویدیوهای 1080 پیکسل با کیفیت بالا تولید کند و Imagen 3، امکان تبدیل متن به تصویر را فراهم میکند. البته باید به این موضوع اشاره کنیم که هیچکدام از این قابلیتهای عجیب و جدیدی به شمار نمیروند، اما راهی برای رقابت با مدل ویدیویی Sora OpenAI و Dall-E 3 هستند، ابزاری که عملاً مترادف با تصاویر تولید شده توسط هوش مصنوعی است.
گوگل ادعا میکند که Veo درکی پیشرفته از زبان طبیعی و معنای بصری دارد تا هر ویدیویی را که در ذهن دارید ایجاد کند. حجم این ویدئوها بیش از یک دقیقه است و Veo قادر به درک تکنیکهای سینمایی و بصری مانند مفهوم تایم لپس است.
براساس گزارش گوگل، Veo میتواند فیزیک دنیای واقعی را بهتر از مدلهای قبلی شبیهسازی کند و همچنین نحوه ارائه تصاویر با کیفیت بالا را بهبود ببخشد.
البته فعلا نمیتوان درباره عملکرد مولدهای هوش مصنوعی پیشبینی کرد، براین اساس باید دید که آیا کسی واقعاً مایل به تماشای ویدیوی تولید شده توسط هوش مصنوعی است.
براساس گزارش گوگل، Veo از هماکنون در داخل ابزار VideoFX گوگل برای برخی از سازندگان در دسترس خواهد بود و به YouTube Shorts و سایر محصولات نیز میآید. اگر Veo در نهایت به بخشی از YouTube Shorts تبدیل شود، این حداقل یکی از ویژگیهایی است که گوگل میتواند با تیکتاک رقابت کند.
Imagen 3 نیز باکیفیتترین مدل تبدیل متن به تصویر است. براساس گزارش گوگل این سرویس بهتر از قبل متن را مدیریت میکند و همچنین در مورد رسیدگی به جزئیات درخواستهای طولانی هوشمندتر است.
گوگل همچنین با هنرمندانی مانند Wyclef Jean و Bjorn کار میکند تا Music AI Sandbox خود را آزمایش کند، مجموعهای از ابزارهایی که میتوانند برای تولید آهنگ مورد استفاده قرار گیرد.