گوگل با Gemini AI هوش مصنوعی OpenAI را شکست داد

برخلاف اخبار هفته گذشته، گوگل بدون تاخیر از هوش مصنوعی Gemini AI رونمایی کرد که تقریبا در همه زمینه‌ها عملکرد بهتری نسبت به مدل‌های OpenAI دارد.

بیستم اردیبهشت ماه ۱۴۰۲، شرکت گوگل در مراسم Google I/O از هوش مصنوعی جدید خود رونمایی کرد. این هوش مصنوعی در واکنش به ChatGPT که در آن زمان محبوبیت زیادی پیدا کرده بود، قبل از عرضه معرفی شد و اکنون پس از گذشت چند ماه این شرکت بالاخره Gemini AI 1.0 را در دسترس کاربران قرار داد که حرف‌های زیادی برای گفتن دارد و می‌تواند آینده تکنولوژی و بازار را تغییر دهد. گوگل از هوش مصنوعی Gemini (جمینی) به‌عنوان قدرتمندترین مدل هوش مصنوعی که توانایی درک و انجام عملیات‌ مختلف را دارد یاد کرد. این ابزار بااستفاده از مدل‌های مختلف توانایی ترکیب متن، کد، صدا، تصویر و ویدیو را دارد که آن را به یکی از جامع‌ترین ابزارهای شناخته شده تبدیل می‌کند.

درحال حاضر شرکت‌های مختلف برای ساخت یک هوش مصنوعی با چند قابلیت، مدل‌های مختلف را به‌صورت جداگانه آموزش داده و سپس آنها را با یکدیگر ترکیب می‌کنند. این روش در موارد خاص کاربردی است، اما در اجرای دستورات پیچیده‌تر عملکرد جالبی ندارند. به‌همین دلیل گوگل برای توسعه Gemini AI از ابتدا مدل‌های مختلف را با هم ترکیب کرد و با استفاده از TPU 4 و TPU v5e آموزش داد تا با این مشکل مواجه نشوند. همچنین گوگل امروز از TPU v5p رونمایی کرد که قدرتمند‌تر، بهینه‌تر و بزرگ‌تر از مدل‌های آموزشی قبلی است.

برای نمایش قدرت درک کم‌نظیر Gemini AI، گوگل ۲۰۰ هزار برگه مقاله علمی را وارد هوش مصنوعی کرد و با استفاده از آن، بخش‌هایی که ارتباط کمتری داشتند را حذف کرده و در طول یک ساعت آن را خلاصه کرد. کدنویسی، یکی دیگر از بخش‌هایی است که Gemini در آن عملکرد قابل توجهی دارد. این هوش مصنوعی با درک بالا از کدنویسی می‌تواند کد‌های باکیفیتی به زبان Python، جاوا، ++C و Go تولید کند. این هوش مصنوعی در ۳ سایز مختلف برای استفاده از گوشی تا مراکز داده عظیم توسعه یافته است:

Gemini Nano: بهینه‌ترین نسخه برای قرارگیری روی دستگاه و استفاده آفلاین
Gemini Pro: بهترین مدل برای بخش زیادی از عملیات‌ موردنیاز کاربر
Gemini Ultra: بزرگ‌ترین و قدرتمندترین مدل برای عملیات‌ بسیار پیچیده

از نظر عملکرد، گوگل نشان داد که Gemini Ultra در زمینه متنی شامل منطق، ریاضی و کدنویسی عملکرد بهتری نسبت به GPT-4 شرکت OpenAI دارد. همچنین این اولین مدلی است که از مغز انسان عملکرد بهتری در زمینه «تحلیل چندزبانه عظیم» دارد و در بخش MMLU بنچ‌مارک نمره ۹۰ درصد را کسب کرد. در آزمایش مذکور ۵۷ آیتم مختلف ریاضی، فیزیک، تاریخ، حقوق، پزشکی و اخلاقیات مورد سوال قرار گرفت تا اطلاعات از جهان و قابلیت حل مشکل بررسی شود. Gemini درحالی نمره ۹۰٪ را کسب کرد که ChatGPT توانست ۸۶.۴٪ را به‌دست آورد.

علاوه‌بر آن، Gemini Ultra توانست در بخش‌های صدا، تصویر و ویدیو نماینده OpenAI یعنی GPT-4V را شکست دهد. امتیازات کسب شده Gemini و GPT-4V در بخش صدا ۴۰.۱ و ۲۹.۱ درصد، در بخش تصویر ۵۹.۴ و ۵۶.۸ درصد و در بخش ویدیو ۶۲.۷ و ۵۶.۰ درصد است و مشخصا در بخش صدا برتری مدل گوگل قابل مقایسه نیست. این درحالی است که مدل Gemini به ابزار تشخیص اشیاء (OCR) برای تبدیل تصویر به متن و تحلیل بیشتر استفاده نمی‌کند. بنابراین پس از اینکه Gemini به این ابزار مجهز شود، عملکرد آن بهتر از قبل خواهد شد. گفته شده گوگل در این مدل با سوگیری (Bias) مقابله می‌کند.

اولین روش برای تجربه مدل جدید هوش مصنوعی، از طریق گوگل بارد است. این هوش مصنوعی از این پس به Gemini Pro مجهز می‌شود و در دسترس کاربران قرار گرفته است. البته این یک نسخه خاص از Gemini Pro است که به‌صورت ویژه بهینه‌سازی شده تا علاوه‌بر درک و خلاصه‌نویسی، به‌خوبی بتواند برنامه نویسی کرده و متن بنویسد. این نسخه از ۸ آزمایش مختلف بنچ‌مارک، در ۶ مورد (از جمله MMLU و GSM8K) عملکرد بهتری نسبت به GPT 3.5 دارد که به گفته گوگل، بزرگ‌ترین ارتقا بارد پس از عرضه به حساب می‌آید. بنابراین به‌نظر می‌رسد گوگل بارد بهترین ربات هوش مصنوعی رایگان باشد.

باوجود اینکه Gemini Pro با گوگل بارد در دسترس کاربران قرار گرفته است، این نسخه فعلا فقط از قابلیت‌های متنی پشتیبانی می‌کند. البته مدل‌های تصویری، ویدیویی و صوتی به‌زودی در دسترس قرار خواهد گرفت. همچنین گوگل اعلام کرد که Gemini Ultra اوایل سال آینده عرضه می‌شود. در حال حاضر، گوگل در حال بررسی اعتماد و امنیت این نسخه است و قبل از عرضه قرار است این نسخه کمی بهینه‌سازی شود تا در دسترس توسعه‌دهندگان و شرکت‌ها قرار بگیرد. همچنین کاربران «Bard Advanced» می‌توانند قبل از عرضه Gemini Ultra از این مدل بهره‌مند شوند. طی هفته‌ها و ماه‌های آینده گوگل می‌خواهد ابزارهای مختلف خود را به Gemini مجهز کند. براساس گزارش‌ها، استفاده از آن، تاخیر SGE (Search Generative Experience) را تا ۴۰ درصد کاهش می‌دهد.

در انتها یادآوری می‌شود که هفته گذشته گزارشی مبنی‌بر تاخیر در رونمایی از Gemini منتشر شده بود، اما گوگل مطابق برنامه قبلی این مدل هوش مصنوعی را معرفی و عرضه کرد.

اخبار مرتبط: