با معرفی سیستم ارزیابی جامع مدل‌های زبانی فارسی (Open Persian LLM Leaderboard) توسط مرکز تحقیقات هوش مصنوعی پارت و دانشگاه صنعتی امیرکبیر، زمینه‌ای برای ارزیابی دقیق و ارتقای مدل‌های زبانی فارسی فراهم شده که می‌تواند تحولی اساسی در اکوسیستم هوش مصنوعی کشور ایجاد کند.

به‌گزارش روابط عمومی مرکز تحقیقات هوش مصنوعی پارت، علی‌رغم پیشرفت‌های اخیر در توسعه مدل‌های زبانی فارسی، نبود معیارهای ارزیابی معتبر و بومی‌سازی‌شده، یکی از چالش‌های اساسی اکوسیستم هوش مصنوعی کشور به‌شمار می‌رفت. سنجه‌های بین‌المللی معمولاً از زبان فارسی پشتیبانی کافی نداشتند و ابزارهای بومی نیز توانایی ارزیابی جامع این مدل‌ها را نداشتند.

برای رفع این مشکل، سیستم ارزیابی جامع LLMهای فارسی با همکاری سعیده ممتازی، از اساتید برجسته هوش مصنوعی، طراحی و پیاده‌سازی شد. این سیستم شامل بیش از ۴۰ هزار نمونه داده است که به‌صورت پایه‌ای (From Scratch) جمع‌آوری و برچسب‌گذاری شده‌اند. همچنین، مجموعه‌ای از بنچمارک‌های معتبر جهانی به زبان فارسی ترجمه و بومی‌سازی شده‌اند تا کاملاً با نیازهای زیست‌بوم هوش مصنوعی کشور منطبق باشند. این داده‌ها به‌طور مستمر به‌روزرسانی می‌شوند و بر کیفیت عملکرد سیستم ارزیابی تاثیر می‌گذارند.

سیستم ارزیابی جامع مدل‌های زبانی فارسی

چارچوب ارزیابی نه‌تنها توانایی مقایسه مدل‌های مختلف را فراهم می‌کند، بلکه با ارائه یک جدول رتبه‌بندی (Leaderboard)، فضای رقابتی مفیدی میان توسعه‌دهندگان ایجاد می‌کند. مدل‌هایی که بهبود کیفیت داشته باشند، در این جدول رتبه بالاتری کسب کرده و توجه بیشتری جلب می‌کنند. این سیستم همچنین به توسعه‌دهندگانی که قصد ورود به بازار مدل‌های زبانی بزرگ را دارند، اجازه می‌دهد تا با معرفی مدل خود در این چارچوب، به هزاران مخاطب دسترسی پیدا کنند.

یکی از ویژگی‌های برجسته این سیستم، قابلیت ارزیابی مدل‌ها در سطوح پیشرفته است. برخلاف سنجه‌های پیشین که تنها توانایی‌های مدل‌ها را در سطح دانش عمومی ارزیابی می‌کردند، این سیستم به حوزه‌های تخصصی مانند پزشکی، اقتصاد، حقوق، مهندسی، علوم انسانی، منطق و ریاضیات تسلط دارد و مدل‌ها را از ابعاد مختلف بررسی می‌کند. استفاده از داده‌های متنی، اعداد و فرمول‌های ریاضی در ارزیابی‌ها، دقت و جامعیت این چارچوب را دوچندان کرده است.

علاوه‌براین، پارت تاکید دارد که همکاری موثر میان دانشگاه و صنعت، کلید رفع بسیاری از چالش‌های اکوسیستم هوش مصنوعی کشور است. این مجموعه با تأمین زیرساخت‌های موردنیاز و استفاده از استانداردهای جهانی Open LLM Leaderboard، شرایطی را برای خلق این سیستم پیشرفته فراهم کرده است. این سیستم، پس از دریافت تأییدیه‌های لازم، توانسته است نتایج ارزیابی مدل‌های فارسی را در سطح جهانی معتبر کند و مسیر معرفی این مدل‌ها به جامعه بین‌المللی را هموار سازد.

کاربران و توسعه‌دهندگان علاقه‌مند می‌توانند با مراجعه به درگاه HuggingFace، جدول مقایسه مدل‌های زبانی فارسی را مشاهده و در صورت تمایل، مدل‌های خود را با استفاده از این چارچوب ارزیابی کنند.

AMA