برنامه ایجاد بانک جامع دیتاست های تخصصی و عمومی برای آموزش مدل های زبانی بزرگ با موفقیت به اجرا درآمد.

یکی از چالش های اصلی در اجرای پروژه های آموزش ماشین در مدل های زبانی بزرگ (LLM)، خصوصا در ایران و به زبان فارسی، عدم در دسترس بودن دیتا و دیتاست های مناسب برای آموزش ماشین است. این مشکل، برای پروژه های یادگیری ماشین در هر دو نوع مدل عمومی (غیر پزشکی) و تخصصی پزشکی وجود دارد.

گروه هوش مصنوعی فرزان در حال توسعه مدل های زبانی پزشکی به زبان فارسی است. با توجه به نیاز تیم به دیتاست های عمومی و تخصصی پزشکی به زبان فارسی، برنامه ای به منظور گردآوری داده های مورد نیاز، در دستور کار قرار گرفت که در نتیجه، یک پایگاه داده بزرگ از متون فارسی از منابع مختلف، گردآوری شد.

این مجموعه پس از غربالگری دقیق و مبتنی بر مرور کیفیت از جنبه های محتوایی، ساختاری و دانشی، سازماندهی و طبقه بندی شده است. هم اکنون حجم این پایگاه داده جامع، در حدود ۸۳ میلیارد توکن تخمین زده می شود.

این دیتاست مجموعه ای از مقالات، چکیده مقالات، کتاب های پزشکی و منابع اینرتنتی است. بخشی از این پایگاه داده، به دیتاست پرسش و پاسخ های تهیه شده اعضای گروه هوش مصنوعی فرزان، تعلق دارد که مبتنی بر هزاران پرسش و پاسخ پزشکی با هدف یادگیری ماشین جهت نحوه پاسخ به سوالات پزشکی کاربران، تهیه شده است. طراحی پرسش ها و پاسخ ها، از میان کتب مرجع معتبر پزشکی صورت گرفته است.

هم اکنون موسسه فرزان در حال برنامه ریزی و انعقاد تفاهم نامه هایی با مراکز دیگر است تا مبتنی بر پروتکل های اخلاقی استاندارد در زمینه محرمانگی اطلاعات و مدیریت بهینه داده ها در طرح های هوش مصنوعی، از این داده ها برای یادگیری ماشین و اجرای پروژه های هوش مصنوعی در زمینه آموزش مدل های زبانی بزرگ و دیگر پروژه های AI از جمله پردازش تصویر، استفاده نماید.

موسسه فرزان آماده است در چارچوب همکاری مشترک با دیگر مراکز و پژوهشگران هوش مصنوعی کشورمان، این مجموعه بزرگ و ارزشمند را جهت استفاده، در اختیار قرار دهد.

همزمان، به همت همکاران گروه هوش مصنوعی فرزان شامل پزشکان و برنامه نویسان پایتون، پپلتفورمی برای ارزیابی خودکار و استاندارد نتایج آموزش و فاین تیون مدل های زبانی بزرگ (LLM) ایجاد شده است که بزودی و پس از تکمیل و انجام آزمون های لازم، برای استفاده آزاد توسط عموم فعالان این حوزه، اطلاع رسانی و در اختیار علاقمندان قرار خواهد گرفت.

موسسه فرزان تلاش کرده با این اقدامات و به سهم خود، ضمن رفع نیازهای گروه هوش مصنوعی فرزان، به تقویت جامعه هوش مصنوعی ایران خصوصا در حوزه سلامت، یاری رساند.

 

خبرهای تصویری
پر بازدید ترین ها
کارگاه «از ایده تا چاپ مقاله با ابزارهای هوش مصنوعی» در دومین کنگره بین‌المللی AIMS 2025توسط گروه هوش مصنوعی موسسه فرزان برگزار شد.
در جریان دومین کنگره بین‌المللی هوش مصنوعی در علوم پزشکی (AIMS 2025)، یکی از رویدادهای شاخص علمی کشور در حوزه...
مجموعه ۳ جلدی کتاب های کارآفرینی دانش بنیان به همراه ۳ حلقه لوح فشرده و دوره های آموزش مجازی و چندرسانه ای آنها در دسترس علاقمندان است.
مرکز مشاوره، اطلاع رسانی و خدمات کارآفرینی فرزان جهت توانمند سازی کارآفرینان به ویژه کارآفرینان دانش بنیان اقدام به انتشار مجموعه...
برنامه ایجاد بانک جامع دیتاست های تخصصی و عمومی برای آموزش مدل های زبانی بزرگ با موفقیت به اجرا درآمد.
یکی از چالش های اصلی در اجرای پروژه های آموزش ماشین در مدل های زبانی بزرگ (LLM)، خصوصا در ایران...
دعوت به همکاری از مشاوران کسب و کار و مربیان و منتورها
مرکز مشاوره و خدمات کارآفرینی فرزان، از "مشاوران حرفه ای در تمامی حوزه های کسب و کار و مدیریت" به...
افتتاح دفتر جدید موسسه فرزان در مرکز نوآوری ایرانتک: پلی میان دانشگاه و صنعت
موسسه توسعه دانش پژوهش و فناوری فرزان، دفتر جدید خود را در مرکز نوآوری ایرانتک، واقع در دانشگاه علوم پزشکی...

نظرات ارزشمند شما

خبرنامه