مکالمه ویدیویی با ChatGPT امکان‌پذیر شد [تماشا کنید]

اوپن‌ای‌آی امکان مکالمه ویدیویی با ChatGPT را ارائه کرده که مرزهای تعامل انسان و هوش مصنوعی را گسترش داد.

اوپن‌ای‌آی سرانجام قابلیت مکالمه ویدئو ChatGPT را که نزدیک به هفت ماه پیش معرفی کرده بود، به‌طور رسمی عرضه کرد. این قابلیت به کاربران اجازه می‌دهد تا با استفاده از دوربین گوشی و از طریق اپلیکیشن ChatGPT، اشیا را شناسایی کرده و در کمترین زمان ممکن پاسخ‌هایی مبتنی‌بر تحلیل بصری دریافت کنند.

حالت پیشرفته صوتی با قابلیت دیداری نه‌تنها می‌تواند اشیا را در محیط پیرامون شناسایی کند، بلکه می‌تواند محتوای صفحه‌نمایش دستگاه را نیز تحلیل کرده و اطلاعات دقیق یا پیشنهاداتی ارائه دهد. به‌عنوان مثال، می‌تواند تنظیمات منوهای مختلف را توضیح دهد یا در حل مسائل پیچیده ریاضی کمک کند.

برای فعال‌سازی این ویژگی، کاربران می‌توانند با لمس آیکون صوت در کنار نوار چت و سپس انتخاب آیکون ویدئو در پایین صفحه، این قابلیت را فعال کنند. همچنین، برای اشتراک‌گذاری صفحه‌نمایش، کافی است از منوی سه‌نقطه، گزینه «Share Screen» انتخاب شود.

کمپانی OpenAI اعلام کرده عرضه این ویژگی از روز پنجشنبه آغاز شده و قرار است طی هفته آینده تکمیل شود. باوجوداین، همه کاربران نمی‌توانند به قابلیت یادشده دسترسی داشته باشند. کاربران اشتراک‌های ChatGPT Enterprise و Edu تا ژانویه به این ویژگی دسترسی نخواهند داشت و هنوز زمان مشخصی برای عرضه آن در کشورهای اتحادیه اروپا، سوئیس، ایسلند، نروژ و لیختن‌اشتاین تعیین نشده است.

در یکی از دموهای اخیر این قابلیت که در برنامه «60 دقیقه» شبکه CBS News ارائه شد، گرگ براکمن، رئیس اوپن‌ای‌آی، با آزمایش مهارت‌های آناتومی اندِرسون کوپر قدرت این فناوری را به نمایش گذاشت. کوپر در این دمو بخش‌های مختلف بدن را روی یک تخته سیاه ترسیم کرد و ChatGPT توانست به درستی محل و شکل اعضای بدن را تشخیص دهد. این سیستم با ارائه بازخوردی گفت: «موقعیت کاملاً درست است. مغز دقیقا در سر قرار دارد. اما شکل آن بیشتر به صورت یک بیضی است.»

با‌وجود‌این موفقیت، ChatGPT در همین دمو در حل یک مسئله هندسی دچار اشتباه شد که نشان می‌دهد این سیستم همچنان مستعد توهمات محاسباتی است. فرآیند توسعه این قابلیت بارها به دلیل موانع فنی و عملیاتی به تأخیر افتاده بود. گفته می‌شود بخشی از این تأخیر به دلیل اعلام زودهنگام اوپن‌ای‌آی و عدم آمادگی فناوری برای عرضه عمومی بوده است.

این کمپانی در ماه آوریل وعده داده بود که این ویژگی طی چند هفته عرضه خواهد شد، اما توسعه آن چندین ماه به طول انجامید. در اوایل پاییز، اوپن‌ای‌آی نسخه‌ای از این قابلیت را بدون قابلیت تحلیل دیداری در اختیار برخی کاربران قرار داد و در هفته‌های اخیر تمرکز خود را بر گسترش نسخه صوتی این ویژگی در بازار اتحادیه اروپا معطوف کرده است.

در‌همین‌حال، کمپانی‌هایی نظیر گوگل و متا نیز به‌طور موازی در حال توسعه فناوری‌های مشابه هستند. به‌عنوان‌مثال، گوگل اخیراً قابلیت تحلیل بلادرنگ ویدئو در هوش مصنوعی مکالمه‌ای خود با نام Project Astra را برای گروهی از آزمایش‌کنندگان منتخب در سیستم‌عامل اندروید ارائه کرده است.

علاوه‌بر عرضه قابلیت مکالمه ویدیویی با ChatGPT، اوپن‌ای‌آی روز پنجشنبه حالت بابانوئل را معرفی کرد که به کاربران اجازه می‌دهد از صدای بابا نوئل به عنوان یکی از صداهای پیش‌فرض ChatGPT استفاده کنند. این حالت از طریق آیکون برف‌دانه در کنار نوار ورودی اپلیکیشن قابل فعال‌سازی است.