فاجعه‌ای در OpenAI به‌وقوع پیوست؛ حذف تصادفی داده‌های آموزشی ChatGPT

حذف تصادفی داده‌های آموزشی ChatGPT توسط OpenAI، ضمن ایجاد اختلال در روند آموزش این مدل زبانی، پیچیدگی‌های جدیدی را به پرونده‌های حقوقی مرتبط با نقض حق تکثیر وارد کرده است.

شرکت OpenAI اخیراً با مشکلات حقوقی جدی مواجه شده است. روزنامه‌های معتبر و پرخواننده‌ای مانند نیویورک تایمز و دیلی نیوز، علیه این شرکت و سرمایه‌گذاران آن شکایت کرده‌اند. این روزنامه‌ها ادعا می‌کنند که محتوای حق‌تالیفی آن‌ها بدون مجوز برای آموزش مدل زبانی قدرتمند ChatGPT استفاده شده است. در همین حال، در یک اتفاق غیرمنتظره، مهندسان OpenAI بخش قابل‌توجهی از داده‌های آموزشی ChatGPT را به طور تصادفی حذف کرده‌اند. این اتفاق می‌تواند بر روند پیگیری پرونده‌های حقوقی علیه این شرکت تأثیرگذار باشد، زیرا ممکن است شواهد مهمی در این خصوص از بین رفته باشد.

اینکه شرکت‌ها از محتوای حق‌تالیفی برای آموزش مدل‌های هوش مصنوعی خود استفاده کنند، یک مسئله بحث‌برانگیز در صنعت فناوری است. پیش از این نیز گزارش‌هایی مبنی بر استفاده شرکت‌های مختلف از ویدیوهای یوتیوب، از جمله ویدیوهای کانال‌های محبوب مانند MKBHD، برای آموزش مدل‌های هوش مصنوعی منتشر شده بود. این موضوع نشان می‌دهد که مرزهای قانونی در حوزه هوش مصنوعی و استفاده از داده‌ها، همچنان مبهم و محل اختلاف است.

شرکت OpenAI پیش از این به روزنامه‌های نیویورک تایمز و دیلی نیوز اجازه داده بود تا به داده‌های آموزشی مدل زبانی خود، ChatGPT، دسترسی پیدا کنند. هدف از این کار، آن بود که این روزنامه‌ها بتوانند بررسی کنند آیا محتوای حق‌تالیفی آن‌ها در آموزش این مدل استفاده شده است یا خیر. کارشناسان این روزنامه‌ها نیز مدت زمان قابل‌توجهی را صرف بررسی این داده‌ها کردند. در حالی که آن‌ها در حال جمع‌آوری شواهد برای اثبات ادعای خود بودند، اتفاقی ناخوشایند رخ داد.

مهندسان OpenAI به طور تصادفی بخشی از داده‌هایی را که برای آموزش ChatGPT استفاده می‌شد، حذف کردند. این اتفاق می‌تواند به این معنی باشد که شواهد مهمی که می‌توانست نشان دهد که محتوای این روزنامه‌ها به طور غیرمجاز در آموزش ChatGPT استفاده شده است، اکنون از دست رفته است. شرکت OpenAI متهم شده است که شواهد مهمی را که کارشناسان روزنامه نیویورک تایمز برای اثبات ادعای نقض حق‌تالیف خود جمع‌آوری کرده بودند، حذف کرده است.

این داده‌ها که برای آموزش مدل زبانی قدرتمند ChatGPT استفاده می‌شد، به طور تصادفی و در زمانی که کارشناسان روزنامه در حال بررسی آن‌ها بودند، پاک شده‌اند. اگرچه OpenAI ادعا می‌کند که توانسته بخشی از این داده‌ها را بازیابی کند، اما این داده‌ها در قالبی نیست که بتوان از آن به عنوان مدرک قانونی استفاده کرد. این اتفاق می‌تواند تأثیرات جدی بر روند پیگیری پرونده حقوقی علیه OpenAI داشته باشد، زیرا شواهد کلیدی برای اثبات ادعای نقض حق‌تالیف از بین رفته است.

هنوز مشخص نیست که روزنامه نیویورک تایمز و سایر ناشران چگونه به این موضوع واکنش نشان خواهند داد و آیا اقدامات قانونی دیگری را علیه OpenAI انجام خواهند داد یا خیر.