با معرفی سیستم ارزیابی جامع مدلهای زبانی فارسی (Open Persian LLM Leaderboard) توسط مرکز تحقیقات هوش مصنوعی پارت و دانشگاه صنعتی امیرکبیر، زمینهای برای ارزیابی دقیق و ارتقای مدلهای زبانی فارسی فراهم شده که میتواند تحولی اساسی در اکوسیستم هوش مصنوعی کشور ایجاد کند.
بهگزارش روابط عمومی مرکز تحقیقات هوش مصنوعی پارت، علیرغم پیشرفتهای اخیر در توسعه مدلهای زبانی فارسی، نبود معیارهای ارزیابی معتبر و بومیسازیشده، یکی از چالشهای اساسی اکوسیستم هوش مصنوعی کشور بهشمار میرفت. سنجههای بینالمللی معمولاً از زبان فارسی پشتیبانی کافی نداشتند و ابزارهای بومی نیز توانایی ارزیابی جامع این مدلها را نداشتند.
برای رفع این مشکل، سیستم ارزیابی جامع LLMهای فارسی با همکاری سعیده ممتازی، از اساتید برجسته هوش مصنوعی، طراحی و پیادهسازی شد. این سیستم شامل بیش از ۴۰ هزار نمونه داده است که بهصورت پایهای (From Scratch) جمعآوری و برچسبگذاری شدهاند. همچنین، مجموعهای از بنچمارکهای معتبر جهانی به زبان فارسی ترجمه و بومیسازی شدهاند تا کاملاً با نیازهای زیستبوم هوش مصنوعی کشور منطبق باشند. این دادهها بهطور مستمر بهروزرسانی میشوند و بر کیفیت عملکرد سیستم ارزیابی تاثیر میگذارند.
چارچوب ارزیابی نهتنها توانایی مقایسه مدلهای مختلف را فراهم میکند، بلکه با ارائه یک جدول رتبهبندی (Leaderboard)، فضای رقابتی مفیدی میان توسعهدهندگان ایجاد میکند. مدلهایی که بهبود کیفیت داشته باشند، در این جدول رتبه بالاتری کسب کرده و توجه بیشتری جلب میکنند. این سیستم همچنین به توسعهدهندگانی که قصد ورود به بازار مدلهای زبانی بزرگ را دارند، اجازه میدهد تا با معرفی مدل خود در این چارچوب، به هزاران مخاطب دسترسی پیدا کنند.
یکی از ویژگیهای برجسته این سیستم، قابلیت ارزیابی مدلها در سطوح پیشرفته است. برخلاف سنجههای پیشین که تنها تواناییهای مدلها را در سطح دانش عمومی ارزیابی میکردند، این سیستم به حوزههای تخصصی مانند پزشکی، اقتصاد، حقوق، مهندسی، علوم انسانی، منطق و ریاضیات تسلط دارد و مدلها را از ابعاد مختلف بررسی میکند. استفاده از دادههای متنی، اعداد و فرمولهای ریاضی در ارزیابیها، دقت و جامعیت این چارچوب را دوچندان کرده است.
علاوهبراین، پارت تاکید دارد که همکاری موثر میان دانشگاه و صنعت، کلید رفع بسیاری از چالشهای اکوسیستم هوش مصنوعی کشور است. این مجموعه با تأمین زیرساختهای موردنیاز و استفاده از استانداردهای جهانی Open LLM Leaderboard، شرایطی را برای خلق این سیستم پیشرفته فراهم کرده است. این سیستم، پس از دریافت تأییدیههای لازم، توانسته است نتایج ارزیابی مدلهای فارسی را در سطح جهانی معتبر کند و مسیر معرفی این مدلها به جامعه بینالمللی را هموار سازد.
کاربران و توسعهدهندگان علاقهمند میتوانند با مراجعه به درگاه HuggingFace، جدول مقایسه مدلهای زبانی فارسی را مشاهده و در صورت تمایل، مدلهای خود را با استفاده از این چارچوب ارزیابی کنند.