گزارش شده اپل از محتوای ویدئوهای یوتیوب برای آموزش هوش مصنوعی خود، Apple Intelligence، استفاده کرده که این اقدام برخلاف سیاست های محتوایی یوتیوب است.

در گذشته، OpenAI بارها به‌دلیل استفاده‌از محتوای یوتیوب برای آموزش مدل متن به‌ویدئوی خود به‌نام «Sora» مورد انتقاد قرار گرفته‌بود. اکنون گزارش‌شده اپل و شرکت‌های دیگری مانند انویدیا، آنتروپیک و دیگران نیز از «داده‌های در دسترس عموم»برای آموزش مدل‌های هوش مصنوعی خود استفاده می‌کنند. ظاهراً اپل از ده‌ها هزار ویدئوی یوتیوب با زیرنویس برای آموزش هوش مصنوعی خود استفاده کرده‌ که این اقدام تخلف واضح‌از سیاست‌های محتوایی یوتیوب است.

براساس تحقیقات، اپل و سایر شرکت‌ها از مجموعه‌‌ داده‌ای به‌نام «YouTube Subtitles» استفاده کرده‌اند که شامل متن 137536 ویدئوی یوتیوب از بیش‌از 48000 کانال بوده‌است. ویدئوهای موجود در‌این مجموعه‌داده شامل کانال‌های آموزشی یوتیوب مانند خان آکادمی و MIT تا سایت‌های خبری مانند وال استریت ژورنال و برخی از سازندگان برتر این پلتفرم مانند MrBeast و Marques Brownlee است.

اپل به اتهامات مربوط به هوش مصنوعی خود با استفاده از زیرنویس یوتیوب پاسخ می دهد

به‌گفته Marques Brownlee، اپل به‌صورت فنی از ‌خطای Apple Intelligence جلوگیری کرده، چراکه داده‌های آموزشی را از‌ شرکت‌هایی که از‌ زیرنویس‌های ویدئوهای یوتیوب استفاده کرده‌اند به‌دست آورده‌است. باوجوداین، داده‌ها همچنان به مدل‌های هوش مصنوعی کمک می‌کنند، مدل‌هایی که سازندگان برای‌ساخت آن‌ها زمان و پول زیادی سرمایه گذاری کرده‌اند؛ براونلی نتیجه‌گیری کرد این مشکل به‌طور طولانی‌مدت ادامه خواهد داشت.

موسسه Proof News ابزاری برای‌ سازندگان ایجاد‌کرده تا محتوای خود‌را در‌این مجموعه داده جستجو کنند؛ مجموعه‌داده YouTube Subtitles شامل تصاویر ویدئوها نمی‌شود، اما شامل برخی‌از زیرنویس‌های ترجمه شده به‌زبان‌های مختلف است. طبق گزارش‌ها، این مجموعه‌ داده توسط یک آزمایشگاه تحقیقاتی غیرانتفاعی به‌نام Eleuther AI ایجاد‌شده که بر‌ترویج هنجارهای علم باز تمرکز دارد.

هیچ‌یک‌از کمپانی‌های ذکر‌شده بلافاصله در‌این‌مورد اظهار نظری نکرده‌اند. مدیرعامل یوتیوب، نیل موهان، پیش‌از‌این در مصاحبه‌ای تصریح کرده‌بود که استفاده شرکت‌ها از ویدئوهای یوتیوب برای آموزش مدل‌های هوش مصنوعی نقض آشکار سیاست‌های این پلتفرم است.