لورم ایپسوم متن ساختگی با تولید سادگی نامفهوم از

لورم ایپسوم متن ساختگی با تولید سادگی نامفهوم از

متن تیتر خود را وارد کنید

پایگاه خبری CIT رسانه‌ای تخصصی در حوزه فناوری اطلاعات و ارتباطات ایران است که اخبار و تحولات اکوسیستم ICT را پوشش می‌دهد. تمرکز آن بر اطلاع‌رسانی تحلیلی درباره فناوری، اقتصاد دیجیتال، استارتاپ‌ها و امنیت سایبری است.این رسانه با پوشش فعالیت فعالان صنعت ICT، نقش پل ارتباطی میان صنعت، سیاست‌گذاران و مخاطبان را ایفا می‌کند.

پست های مرتبط

مدل هوش مصنوعی o3 «اوپن‌ای‌آی» در یک آزمایش، کمتر از آنچه شرکت در ابتدا گفته بود، امتیاز گرفت.

به گزارش ای سی تی نیوز، اختلاف بین نتایج یک آزمایش جدید با اطلاعات اولیه درباره مدل هوش مصنوعی «o3» شرکت «اوپن‌ای‌آی»(OpenAI)، پرسش‌هایی را درباره شفافیت و شیوه‌های آزمایش مدل هوش مصنوعی این شرکت ایجاد می‌کند.

وقتی اوپن‌ای‌آی در ماه دسامبر از o3 رونمایی کرد، مدعی شد این مدل می‌تواند به بیش از یک چهارم پرسش‌های «FrontierMath» که مجموعه چالش‌برانگیزی از مسائل ریاضی است، پاسخ دهد. این امتیاز، رقابت را از بین برد؛ زیرا بهترین مدل بعدی تنها توانست به حدود دو درصد از مسائل FrontierMath به درستی پاسخ دهد.

«مارک چن»(Mark Chen)، مدیر ارشد تحقیقات اوپن‌ای‌آی در جریان یک پخش زنده گفت: امروز همه مدل‌ها کمتر از دو درصد امتیاز را در FrontierMath دارند. ما شاهد هستیم که با o3 می‌توانیم به امتیاز بیش از ۲۵ درصد برسیم.

همان طور که مشخص شد، این احتمالا امتیاز بالاتری بود که توسط یک نسخه از o3 با محاسبات بیشتر نسبت به مدل عرضه‌شده اوپن‌ای‌آی در هفته گذشته به دست آمد.

مؤسسه تحقیقاتی «Epoch AI» مسئول FrontierMath، نتایج آزمایش مستقل خود درباره o3 را در روز جمعه منتشر کرد. این مؤسسه دریافت o3 حدود ۱۰ درصد امتیاز کسب کرده که بسیار کمتر از بالاترین امتیاز ادعاشده توسط اوپن‌ای‌آی است.

این بدان معنا نیست که اوپن‌ای‌آی دروغ گفته است. نتایج آزمایشی که این شرکت در ماه دسامبر منتشر کرد، یک امتیاز پایین‌تر را نشان می‌دهد که با امتیاز مشاهده‌شده در آزمایش Epoch AI مطابقت دارد. همچنین، Epoch خاطرنشان کرد که تنظیمات آزمایشی آن احتمالا با اوپن‌ای‌آی تفاوت دارد و از نسخه به‌روزرسانی‌شده FrontierMath برای ارزیابی‌های خود استفاده کرده است.

Epoch نوشت: تفاوت بین نتایج ما و اوپن‌ای‌آی ممکن است به دلیل ارزیابی این شرکت با چارچوب داخلی قوی‌تر و استفاده از زمان آزمایش بیشتر یا به این دلیل باشد که این نتایج در زیرمجموعه دیگری از FrontierMath به دست آمده‌اند.

آخرین اخبار کسب و کار

برچسب ها