گزارش شده اپل از محتوای ویدئوهای یوتیوب برای آموزش هوش مصنوعی خود، Apple Intelligence، استفاده کرده که این اقدام برخلاف سیاست های محتوایی یوتیوب است.
در گذشته، OpenAI بارها بهدلیل استفادهاز محتوای یوتیوب برای آموزش مدل متن بهویدئوی خود بهنام «Sora» مورد انتقاد قرار گرفتهبود. اکنون گزارششده اپل و شرکتهای دیگری مانند انویدیا، آنتروپیک و دیگران نیز از «دادههای در دسترس عموم»برای آموزش مدلهای هوش مصنوعی خود استفاده میکنند. ظاهراً اپل از دهها هزار ویدئوی یوتیوب با زیرنویس برای آموزش هوش مصنوعی خود استفاده کرده که این اقدام تخلف واضحاز سیاستهای محتوایی یوتیوب است.
براساس تحقیقات، اپل و سایر شرکتها از مجموعه دادهای بهنام «YouTube Subtitles» استفاده کردهاند که شامل متن 137536 ویدئوی یوتیوب از بیشاز 48000 کانال بودهاست. ویدئوهای موجود دراین مجموعهداده شامل کانالهای آموزشی یوتیوب مانند خان آکادمی و MIT تا سایتهای خبری مانند وال استریت ژورنال و برخی از سازندگان برتر این پلتفرم مانند MrBeast و Marques Brownlee است.
بهگفته Marques Brownlee، اپل بهصورت فنی از خطای Apple Intelligence جلوگیری کرده، چراکه دادههای آموزشی را از شرکتهایی که از زیرنویسهای ویدئوهای یوتیوب استفاده کردهاند بهدست آوردهاست. باوجوداین، دادهها همچنان به مدلهای هوش مصنوعی کمک میکنند، مدلهایی که سازندگان برایساخت آنها زمان و پول زیادی سرمایه گذاری کردهاند؛ براونلی نتیجهگیری کرد این مشکل بهطور طولانیمدت ادامه خواهد داشت.
موسسه Proof News ابزاری برای سازندگان ایجادکرده تا محتوای خودرا دراین مجموعه داده جستجو کنند؛ مجموعهداده YouTube Subtitles شامل تصاویر ویدئوها نمیشود، اما شامل برخیاز زیرنویسهای ترجمه شده بهزبانهای مختلف است. طبق گزارشها، این مجموعه داده توسط یک آزمایشگاه تحقیقاتی غیرانتفاعی بهنام Eleuther AI ایجادشده که برترویج هنجارهای علم باز تمرکز دارد.
هیچیکاز کمپانیهای ذکرشده بلافاصله دراینمورد اظهار نظری نکردهاند. مدیرعامل یوتیوب، نیل موهان، پیشازاین در مصاحبهای تصریح کردهبود که استفاده شرکتها از ویدئوهای یوتیوب برای آموزش مدلهای هوش مصنوعی نقض آشکار سیاستهای این پلتفرم است.