وقتی فیلم Her آمد، بیشتر کاربران برایشان عجیب بود که فردی عاشق هوش مصنوعی شود و کل روز خود را با آن سپری کند. ولی انگار چندان هم قرار نیست این موضوع دور از انتظار باشد. جایی که ابزارهای هوش مصنوعی مثل گوگل جمینی، همان حس و حال صحبت با سامانتای فیلم Her را تداعی میکند. ولی این فقط شروع یک مکالمه است، شما میتوانید با جمینی در دنیای وب غرق شوید و حتی انجام کارهایتان را به آن بسپارید. اگر فکر میکنید این کار عجیب است، اجازه دهید تا شما را با قابلیتهای هوش مصنوعی جمینی آشنا کنیم.
هوش مصنوعی گوگل جمینی چیست؟
گوگل جمینی (Gemini) (جمینای تلفظ صحیح آن است) چتبات هوش مصنوعی است که در ابتدا با نام بارد معرفی شده بود، اما بعداً گوگل نام آن را به جمینی تغییر داد.
اگر بخواهیم به سوال «گوگل جمینی چیست؟» پاسخ دهیم، باید بگوییم: هوش مصنوعی Gemini مدل زبانی بزرگ (LLM) قدرتمندی است که زبان انسان را میفهمد و میتواند به آن پاسخ دهد.
به زبان ساده، هوش مصنوعی جمینی یک ربات گفتوگوی متنی است که میتوانید مانند انسان با آن صحبت کنید. این چتبات هوشمند با استفاده از الگوریتمهای هوش مصنوعی مثل ماشین لرنینگ (Machine Learning)، شبکههای عصبی (Neural Networks) و پردازش زبان طبیعی (NLP) محتوای شما را درک کرده و میتواند پاسخ متناسب با آن را تولید کند.
برای مثال، اگر از هوش مصنوعی جمینی بخواهید به شما بگوید هوای امروز چند درجه است، پاسخی مانند تصویر زیر به شما ارائه میدهد:
احتمالاً با خود میگویید مدلهای هوش مصنوعی دیگر مانند چتجیپیتی (OpenAI) و کوپایلت (Copilot) هم همینکار را انجام میدهند. ولی صبر کنید! گوگل جمینی چندرسانهای (MMLLU) را دستکم نگیرید. چراکه علاوهبر متن توانایی درک عکس، صدا و فیلم را هم دارد. این چتبات قدرتمند میتواند با اکثر برنامههای گوگل مانند جیمیل، گوگل درایو و… ادغام شود و اطلاعات دقیق و بهروزی را از طریق موتور جستوجوی گوگل در اختیارتان قرار دهد.
خب! حالا که با «گوگل جمینی Gemini چیست؟» و رسالت این چتبات در متحولکردن دنیای مدلهای هوش مصنوعی آشنا شدید، وقت آن است که با ویژگی های هوش مصنوعی جمنای بیشتر آشنا شوید.
ویژگیهای هوش مصنوعی گوگل جمینی چیست؟
جمینی گوگل از دیتاستهای متنی، صوتی، تصویری، ویدئویی و مدلهای زبانی (LLM) قدرتمندی برای درک و تجزیهوتحلیل درخواستهای کاربران استفاده میکند. این چتبات با الهام از نحوه درک و تعامل انسانها طراحیشده تا به جای یک برنامه هوشمند، دستیاری کارآمد باشد.
جمینی هوش مصنوعی گوگل بهگونهای ساختهشده تا بتواند انواع محتواها را درک کند و به آنها پاسخ دهد؛ پس هر سوالی که از آن بپرسید، پاسخ کاملی دریافت خواهید کرد. البته، توجه کنید که لزوماً همیشه قرار نیست، پاسخ درست بگیرید. چراکه مانند سایر مدلهای AI، هوش مصنوعی مکالمهای گوگل جمینی هم در حال یادگیری است و نباید بهعنوان منبعی موثق به آن تکیه کنید.
این چتبات در انواع مدلها و نسخههای متنوع روی سیستمهای شخصی یا گوشیهای موبایل در قالب وباپلیکیشن، نرمافزار یا افزونه قابل استفاده است. نسخه جدید هوش مصنوعی جمینی پرو ۱.۵ است که با ویژگیهای کمنظیر خود تمام معادلات را بههم میزند:
1. توانایی درک و تولید محتوای چندرسانهای دارد
به قابلیت چندرسانهای که یکی از برترین ویژگی های هوش مصنوعی جمنای بهشمار میرود، چندین بار اشاره کردیم. چراکه نقطه قوتی است تا بتوانید با استفاده از آن کارهای شگفتانگیز انجام دهید.
شاید بپرسید، چه کارهایی؟ هوش مصنوعی جمینی گوگل میتواند خلاصهای از یک کتاب ۱۰۰۰ صفحهای را در کمتر از ۱ دقیقه به شما ارائه دهد یا میتوانید ویدئوهای موردنظرتان را به آن بدهید و بخواهید خلاصهای از محتوای ویدئو را به شما بگوید.
جمنای توانایی درک تصاویر را هم دارد، میتوانید از آن بخواهید متنهای داخل تصویر را برای شما ترجمه، تایپ یا توصیف کند:
این همه ماجرا نیست! شما میتوانید ویدئویی به هوش مصنوعی جمنای بدهید و از آن بخواهید بخشهای مهم ویدئو را جداکرده و به شما تحویل دهد. هرچند این قابلیت در نسخه پرمیوم جمینی وجود دارد، ولی باز هم نشان میدهد که گوگل در تلاش برای ساخت غول تکنولوژی بهعنوان دستیار برای انسانها است.
2. کدنویسی با جمینی گوگل آسانتر شده است
استفاده از جمینی گوگل برای کدنویسی به شما امکان میدهد خطاهای برنامههایتان را بهسرعت حلکرده و کدهای ناقص برنامهتان را بهراحتی با آن کامل کنید.
جمنای گوگل راهحلهای مختلفی در کدنویسی به شما پیشنهاد میدهد و با آن میتوانید زبانهای برنامهنویسی را به یکدیگر تبدیل کنید.
شما میتوانید از هوش مصنوعی Gemini بخواهید برنامهای برایتان بنویسید و کدنویسی و اجرای آن را توضیح دهد.
برای مثال، ما از جمینی خواستیم «برنامهای در پایتون بنویسید که n کلمه از ورودی دریافتکرده و ترتیب کلمات آن را برعکس کند و در خروجی چاپ کند». این چتبات خروجی زیر را به ما ارائه کرد:
در بخشهای بعدی میتوانید توضیح برنامه یا نکات مهم درباره آن را ببینید:
البته، این فقط یک برنامه ساده است، شما میتوانید برای کدنویسیهای حرفهای و حل مسائل پیچیدهتر از جمنای کمک بگیرید. براساس آمار وبسایت دیپمایند گوگل، هوش مصنوعی جمینی پرو ۱.۵ میتواند در عرض چند ثانیه، ۱۰ هزار خط کد را آنالیز کرده و راهحلها، ایدهها و توضیحات مفیدی را ارائه دهد.
توجه داشته باشید که خروجی ارائهشده توسط گوگل جمینی ممکن است کامل و دقیق نباشد. این ابزار هنوز در حال توسعه است و استناد به پاسخهای آن به تنهایی کافی نیست. بااینحال، جمینی گوگل میتواند به عنوان یک دستیار برنامهنویسی مفید باشد و در انجام بسیاری از وظایف به شما کمک کند.
3. با جمینی جستوجوی اطلاعات آسانتر میشود
همین اول کار بگوییم، برای جستوجوهای حرفهای به جمینی دلخوش نکنید. پاسخهای این چتبات ممکن است غیرقابل اعتماد و نادرست باشند. به خاطر داشته باشید که جمنای گوگل هنوز در حال توسعه است و ممکن است همیشه نتواند بهطور دقیق به سوالات شما پاسخ دهد یا اطلاعات صحیح ارائه کند.
بااینحال، قدرت هوش مصنوعی جمنای در فهم دقیق و پاسخگویی فوری به سوالات را دست کم نگیرید. از این چتبات هر سوالی چه در مورد موضوعات تخصصی و چه در مورد مسائل روزمره که دارید بپرسید. گوگل جمینی با مراجعه به انبوه اطلاعات خود یا جستوجو در دنیای وب، پاسخی جامع و دقیق به شما ارائه میکند:
علاوهبراین، گوگل جمینی براساس زبانی که سوال میپرسید، منابعی را به شما پیشنهاد میدهد که بتوانید اطلاعات بیشتری کسب کنید:
با این کار میتوانید از صحت پاسخگویی گوگل Gemini اطمینان حاصل کنید.
4. ویژگیهای خلاقانه و تعاملی دارد
هرچند هوش مصنوعی هرگز جایگزین خلاقیت ذاتی انسان نخواهد شد، ولی سایت هوش مصنوعی گوگل جمینی با ارائه ابزارها و امکانات جدید، دیدگاه تازهای به ما میدهد و زمینههای نوینی برای همکاری انسان و ماشین را فراهم میکند. از این چتبات هوشمند میتوانید بخواهید برایتان جوک بگوید، شعر بخواند یا حتی داستان بنویسد.
اگرچه در ابتدا ممکن است محتوایی که ارائه میدهد چنگی به دل نزند، ولی هرچقدر پرامپت خوبی بدهید، محتوای بهتری تحویل میگیرید.
استفاده از خلاقیت جمینی میتواند برای محتوانویسان بسیار کاربردی باشد. گرفتن ایدههای جدید و تکمیل آنها با خلاقیتهای انسانی ترکیب برندهای خواهد بود؛ بهشرطی که بتوان بهدرستی از آن استفاده کرد.
علاوهبراین ویژگیها، گوگل جمینی با استفاده از یادگیری انتقالی (Transfer Learning) در تاروپود خود، بهصورت مداوم در حال یادگیری و تکامل است. چشمانداز آینده هوش مصنوعی Gemini نشان میدهد که این چتبات روزبهروز پیشرفتهترشده و عملکرد بهتری پیدا میکند.
برای شناخت بیشتر تواناییهای جمنای، باید به بررسی قابلیتهای انواع این مدل هوش مصنوعی چندرسانهای قدرتمند بپردازیم.
گوگل جمینی چه قابلیتهایی دارد؟
نسخه ۱.۰ گوگل جمینی اولترا با کسب امتیاز ۹۰ درصد در ارزیابیهای درک زبانهای چندوظیفهای (MMLU) از هوش انسانی با امتیاز ۸۹.۸ درصد پیشی گرفته است. MMLU معیاری برای ارزیابی توانایی مدلهای زبانی است که شامل حدود ۱۶هزار سوال چندگزینهای در ۵۷ موضوع علمی از جمله ریاضیات، فلسفه، حقوق و پزشکی است. این آزمون به عنوان چالشی برای سنجش توانایی مدلهای زبانی در درک مفاهیم پیچیده و استدلال منطقی طراحی شده است.
عملکرد جمینی اولترا در ارزیابی سنجش درک زبانی چندوظیفهای عظیم نشان میدهد که این مدل زبانی به سطحی از هوش رسیده است که میتواند با هوش انسانی رقابت کند.
گوگل هوش مصنوعی جمینی را در مدلهای متنوع عرضه کرده است که با توجه به نیازهای خود یکی از آنها را انتخاب کنید.
خب! حالا که با قابلیتهای این هوش مصنوعی قدرتمند آشنا شدید، بیایید ببینیم جمنای گوگل چه مدلهایی دارد؟
انواع مدلهای هوش مصنوعی گوگل جمینی
هوش مصنوعی گوگل جمینی در ۳ سایز مختلف ارائه میشود که هر کدام برای طیف وسیعی از دستگاهها از دیتاسنترها تا گوشیهای هوشمند بهینهسازی شدهاند. گوگل مدعی است که هر سه مدل قابلیت اجرا روی این دستگاهها را دارند. مدلهای گوگل جمینی هرکدام ویژگیهای مختلفی ارائه میدهند:
گوگل جمینی نانو؛ هوش مصنوعی گوگل در جیب شما
گوگل جمینی نانو مدل هوش مصنوعی کوچک و کمحجمی است که در حال حاضر دو قابلیت جدید را در گوشیهای هوشمند فعال میکند:
- خلاصهساز در برنامه ضبط صدا: میتواند خلاصهای از مکالمات ضبطشده، مصاحبهها و ارائهها را حتی بدون اتصال به اینترنت ارائه دهد. نکته مهم این است که هیچ اطلاعاتی از گوشی شما در این فرایند خارج نمیشود.
- پاسخهای هوشمند در Gboard: به شما کمک میکند تا به سرعت پاسخهای متنی مرتبط با مکالمات خود را در برنامههایی مانند واتساپ ایجاد کنید.
گوگل Gemini Nano بهصورت یک برنامه موبایلی دردسترس است و میتوانید در هر زمان و مکانی از آن استفاده کنید. از این مدل میتوانید برای نوشتن متنها خلاقانه، ترجمه زبانهای مختلف بهصورت دقیق، کدنویسی، دریافت پاسخ سوالات و انجام بسیاری کارهای دیگر استفاده کنید. جمینی نانو همراه هوشمند در گوشیهای موبایلتان است تا همیشه دستیاری هوشمند در جیبتان داشته باشید.
نسخه پیشرفته و باهوش جمینی پرو، امکانات به مراتب بیشتری را در اختیار شما قرار میدهد. بیایید با جمینی پرو آشنا شویم.
۲. گوگل جمینی پرو؛ دستیار هوش مصنوعی پیشرفته شما
گوگل جمنای پرو ۱.۵ نسخه ارتقا یافته هوش مصنوعی LaMDA با درک و استدلال فوقالعاده یاریگر شما در انجام کارهای مختلف خواهد بود. این مدل قدرتمند که بهصورت رایگان قابل استفاده است، روی مراکز داده گوگل اجرا میشود و ۳۵ برابر سریعتر از نسخه قبلی (بارد) اطلاعات را پردازش میکند.
با گوگل Gemini Pro بهراحتی میتوانید مسائل پیچیده را حل کرده و از تواناییهای خارقالعاده آن در پردازش تصویر، صدا و ویدئو بهرهمند شوید
طبق مطالعات انجامشده نسخه رایگان هوش مصنوعی جمینی پرو در حل مسائل پیچیده به خصوص مسائل با زنجیرههای استدلال طولانی، بهتر از مدلهای مشابه مانند GPT-3.5 و OpenAI عمل میکند. بااینحال، هنوز در حل مسائل ریاضی چالشهایی دارد.
گوگل جمنای پرو قادر به پردازش حجم عظیمی از اطلاعات شامل ۷۰۰ هزار خط کد و ۳۰ هزار کلمه است و میتواند تا ۱۱ ساعت محتوای موسیقی و ۱ ساعت محتوای ویدئویی را به زبانهای مختلف تجزیهوتحلیل کند. این قابلیت، کاربردهای گوگل جمنای را در زمینههای مختلفی مانند ترجمه، تولید متن و تجزیهوتحلیل داده گسترش میدهد.
علاوهبر دسترسی به چتبات گوگل جمینی، میتوانید از آن ازطریق رابط برنامهنویسی به نام Vertex AI هم استفاده کنید. این رابط برنامهنویسی به برنامهنویسان امکان میدهد تا جمینی پرو را مطابق با نیازهای خود سفارشیسازی کنند.
خب! وقت آن رسیده که قدرتمندترین و پیشرفتهترین مدل جمنای اولترا را معرفی کنیم، مدلی که تمام معادلات را به هم میریزد.
۳. گوگل جمینی اولترا
صحبت با هوش مصنوعی گوگل جمینی اولترا حسوحال صحبت با انسان واقعی را به شما میدهد. هوش مصنوعی Gemini Ultra پیشرفتهترین مدل زبانی گوگل است که با قابلیت چندوجهی (MultiModal) میتواند از مسائل پیچیده فیزیک گرفته تا شناسایی فرمولهای علمی را بهراحتی آبخوردن پردازش و حل کند.
اگر به تولید تصویر نیاز داشته باشید، جمینی اولترا مانند میدجرنی (Midjourney) تصاویر باکیفیتی را متناسب با پرامپتهای شما تولید میکند.
شما میتوانید قدرت خارقالعاده جمینی اولترا را با چتبات پیشرفته جمینی (قبلاً Bard Advanced) تجربه کنید. برای بهرهمندی از این قابلیت، کافیست با پرداخت ماهانه فقط ۱۹.۹۹ دلار در طرح Google One AI Premium عضو شوید. با این کار ۲ ماه تست رایگان خواهید داشت و میتوانید در اولین فعالسازی جمنای اولترا ۳ ماه از آن بهرهمند شوید.
شعار گوگل جمنای «تبدیل هر چیزی به چیز دیگری است». به این ترتیب، هرچقدر پرامپتهای دقیق و بهتری بنویسید، پاسخ کاملتری دریافت خواهید کرد. با فعالسازی هوش مصنوعی گوگل جمنای اولترا ۲ ترابایت فضای ذخیرهسازی ابری گوگل درایو بههمراه قابلیت اشتراکگذاری با ۵ نفر به شما ارائه میشود.
با استفاده از مدل هوش مصنوعی جمنای اولترا گوگل که قادر به درک، استدلال و پردازش چندرسانهای است، میتوانید ایمیل بنویسید، ویدئوها را جدا، ترجمه و خلاصهسازی کنید، محتوای متنی تولید و از امکانات فراوان دیگر آن بهرهمند شوید.
اما توجه به این نکته ضروری است که اگر میخواهید برای نوشتن ایمیل یا محتواهای فارسی در جیمیل، گوگل درایو، گوگل شیت و … از این ابزار استفاده کنید، باید بدانید که در حال حاضر جمینی ادونس از زبان فارسی پشتیبانی نمیکند. به همین دلیل، نسخه پرو (معمولی) هم میتواند درخواستهایتان را با قدرت بالایی انجام دهد.
حالا که فهمیدیم «هوش مصنوعی گوگل جمینی چیست؟» و با انواع آن هم آشنا شدیم، خوب است بدانیم گوگل جمنای چگونه کار میکند و پاسخهای خود را بر چه مبنایی ارائه میدهد؟
گوگل جمینی چطور کار میکند؟
مدلهای هوش مصنوعی مثل جمنای ابتدا با دیتاستهای عظیمی آموزش میبینند که سازوکارشان با الگوریتمهای AI مانند دیپلرنینگ، ماشینلرنینگ و پردازش زبان طبیعی است. پس از آن، از تکنیک شبکههای عصبی برای درک محتوا، پاسخ به سوالات و تولید متن استفاده میکنند.
هوش مصنوعی گوگل جمینی را مانند یک کودک در نظر بگیرید که با دادههایی که در آن وارد میکنید، عبارتهای جدید یاد میگیرد. این ویژگی ناشی از مدلهای مبتنیبر یادگیری انتقال شبکههای عصبی است که در دل این چتبات قدرتمند قرار گرفته است.
به زبان سادهتر، گوگل جمنای با بهرهمندی از فناوری یادگیری عمیق گوگل دیپمایند (Google DeepMind)، روی حجم عظیمی از دادههای چندرسانهای شامل متن، تصویر، صدا و ویدئو به زبانهای مختلف آموزش دیده است. این دادهها با استفاده از فیلترهای پیشرفتهای سازماندهی شدهاند که فرایند یادگیری مدل هوش مصنوعی جمنای را بهینهسازی میکنند.
مشکل اصلی جمینی و دیگر مدلهای هوش مصنوعی، ارائه اطلاعات نادرست و نامربوط است. این مدلها با حجم عظیمی از دادهها آموزش میبینند و احتمال خطا در آنها طبیعی است. به همین دلیل، گوگل آزمایشهای متعددی را روی جمینی انجام داده که نشان میدهد این مدل تا حدی در عبور از این آزمایشها موفق بوده است.
برای پاسخگویی بهتر و مطمئنتر جمنای گوگل از تکنیکهایی مانند یادگیری تقویتی با بازخورد انسان (RLHF) هم بهره میبرد.
گوگل جمینی بهطور مستمر در حال پیشرفت است و پاسخهایی پختهتر و کاملتر ارائه میدهد. این مدل زبانی میتواند با بهکارگیری استدلال و منطق، به پرسشهای شما بهشیوهای انسانی پاسخ دهد. بااینحال، هنوز جای پیشرفت دارد و میتواند از این هم بهتر شود.
شاید هنوز این سوال در ذهنتان باشد که گوگل جمینی و موتور جستوجوی گوگل چه تفاوتی با هم دارند؟ درست است که هدف هر دوی این سرویسها پاسخ به سوالات شماست، اما تفاوت آنها مانند تفاوت بین بروجرد و بروجن است.
تفاوت گوگل جمینی با موتور جستوجوی گوگل چیست؟
اساس کار گوگل جمنای با موتور جستوجوی گوگل متفاوت است. موتور جستوجوی گوگل در فرایند ارائه اطلاعات، با خزیدن در صفحات وب و رتبهبندی آنها بر اساس معیارهای سئو، به کلیدواژههایی که در مرورگر خود تایپ میکنید، پاسخ میدهد. در واقع، موتور جستوجوی گوگل یک پایگاهداده طبقهبندیشده است که بهترین پاسخ را به شما ارائه میدهد.
درحالیکه چتبات مکالمهای گوگل Gemini با بهرهمندی از هوش مصنوعی رفتار تعاملی و انسانگونه با شما دارد و متناسب با سوالی که میپرسید، براساس دادههایی که یاد گرفته است، مثل یک فرد متخصص به شما پاسخ میدهد.
به همین دلیل، میتوانید گفتوگوی دوطرفه داشته باشید و سوالات دنبالهدار در یک زمینه خاص از آن بپرسید. ماهیت رفتار گوگل جمینی فقط برای جستوجوی اطلاعات نیست و میتوانید کارهایی فراتر از یک جستوجوی ساده را با آن انجام دهید. این در حالی است که موتور جستوجوی گوگل همانطور که از نام آن پیداست، تنها برای جستوجوکردن سوالات کاربران استفاده میشود.
یکی از کارهایی که میتوان با گوگل جمینی انجام داد، ساخت تصویر است. بااینحال، ایجاد تصویر با جمنای گوگل فوتوفن خود را دارد.
چگونه با استفاده از هوش مصنوعی Gemini گوگل تصویر بسازیم؟
ابتدای سال ۲۰۲۴، گوگل قابلیت تولید تصویر را به هوش مصنوعی جمنای اضافه کرد. بااینحال، به دلیل عملکرد ضعیف و دقیقنبودن خروجیهای نسخه رایگان، این ویژگی بهطور موقت غیرفعال شده است. در حال حاضر، امکان ساخت تصویر فقط در نسخه Advanced جمنای وجود دارد و نسخه پرو از این قابلیت پشتیبانی نمیکند. گوگل اعلام کرده که پس از رفع ایرادات احتمالی، این قابلیت را دوباره فعال خواهد کرد.
برای تولید تصاویر هوش مصنوعی با جمنای تنها به یک پرامپت تصویر خوب نیاز دارید و بس! با استفاده از عبارتهای «تولید» (Generate) یا «ایجاد» (Create)، گوگل جمینی دو تصویر متفاوت متناسب با پرامپت شما ایجاد میکند.
اگر از تصویر خروجی راضی نیستید، میتوانید با کلیک روی دکمه «Generate more» زیر تصویر، برای تولید تصاویر بهتر تلاش مجدد کنید. پس از ساخت تصویر مورد نظر توسط جمینی گوگل، میتوانید با حرکت نشانگر ماوس روی آن و کلیک روی دکمه دانلود (فلش رو به پایین)، آن را ذخیره کنید.
همچنین، با کلیک روی دکمه اشتراکگذاری و انتخاب گزینه دانلود همه، میتوانید هر دو تصویر را بهطور همزمان دانلود کنید.
گوگل جمنای از مدل Imagen 2 بهره میبرد که بر پایه انتشار متن به تصویر است. دسترسی به این مدل از طریق حساب رایگان گوگل کلود (Google Cloud Platform) امکانپذیر است. توجه کنید که برای تولید تصاویر باید پرامپت خود را حتماً به زبان انگلیسی بنویسید.
برای مثال از پرامپت زیر میتوانید برای تولید تصویر سگ در حال موجسواری استفاده کنید:
- Create an image of a dog riding a surfboard
همچنین، درصورت استفاده از گوگل جمینی اولترا در برنامههایی مانند پاورپوینت، گوگل داکس و…، به راحتی با یک کلیک میتوانید تصاویر دلخواه خود را درون این برنامهها تولید و برای اهداف مختلف از آنها استفاده کنید.
تصاویر تولیدشده در نسخه پرمیوم هوش مصنوعی جمینی از کیفیت بالایی برخوردارند و با خروجی تصاویر بینگ و چتجیپیتی DALL-E برابری میکنند.
به آخرین بخش از مطلب «گوگل جمینی چیست؟» رسیدیم. در این بخش بیایید به مقایسه Gemini با OpenAI ،GPT-4 و Claude بپردازیم و ببینیم کدامیک بهتر هستند و امکانات بیشتری ارائه میدهند.
مقایسه هوش مصنوعی گوگل جمینی، چتجیپیتی، بینگچت و کلاد
مقایسه Gemini با GPT-3 و GPT-4 نشان میدهد که این چتبات هوشمند در ۳۲ مورد تست از معیار سنجش مدلهای زبانی ۳۰ تست موفق بوده و عملکردی بهتر از چتجیپیتی نسخه ۳ و حتی ۴ داشته است. البته این اطلاعات صرفاً توسط گوگل ارائهشده و صحت قطعی آن قابل تایید نیست.
ولی، ناگزیر برای قضاوت در مورد برتری Gemini Ultra یا GPT-4 باید به دادههای ارائهشده گوگل دیپمایند توجه کنیم.
گوگل جمینی با قابلیتهای خود آمده تا تاجوتخت پادشاهی مدلهای هوش مصنوعی را ازآن خود کند. بااینحال، رقبای قدرتمندی مانند کلاد (Claude)، چتجیپیتی (ChatGPT) و مایکروسافت کوپایلت (Microsoft Copilot) به سادگی کنار نخواهند رفت و نبردی نفسگیر در پیش است. در جدول زیر مقایسه گوگل جمینی، چتجیپیتی، بینگچت و کلاد را مشاهده میکنید:
ویژگی | جمینی | چتجیپیتی | بینگچت | کلاد |
نوع مدل | مدل زبانی بزرگ (LLM) | مدل زبانی مولد (LLM) | مدل زبانی مولد (LLM) | مدل زبانی مولد (LLM) |
تاریخ انتشار | 2023 | 2022 | 2023 | 2023 |
توسعهدهنده | گوگل | OpenAI | مایکروسافت | انتروپیک |
ظرفیت مدل | ۱.۵ تریلیون پارامتر | ۱.۳ تریلیون پارامتر | ۱.۵ تریلیون پارامتر | – |
مدل پایه | LaMDA | GPT-3 – GPT-4 – GP-4o | GPT-3 – GPT-4 | GPT-3 – GPT-4 |
نوع داده | چندرسانهای (متن، تصویر، صدا و ویدئو) | ابتدا فقط متن، اما جیپیتی-۴ چندرسانهای است | متن، کد و تصویر | متن، کد |
انواع مدل | بر اساس اندازه، شامل اولترا، پرو و نانو | براساس اندازه شامل جیپیتی-۳.۵ و جیپیتی-۴ | نسخه کوپایلت معمولی همراه با چتجیپیتی۴ و مایکروسافت کوپایلت پرو | براساس اندازه شامل Haiku و Sonnet و Opus |
رابط کاربری | وب، نرمافزار، افزونه، API | وب، نرمافزار، افزونه، API | وب، API | وب، API |
قیمت | رایگان (نسخه محدود)، ۲۰ دلار در ماه (نسخه بیزینس) و ۳۰ دلار در ماه (نسخه اینترپرایز) | رایگان (نسخه محدود)، ۴۰ دلار در ماه (نسخه پلاس با DALL-E) | رایگان (نسخه محدود)، ۲۰ دلار در ماه (نسخه کامل) | رایگان (نسخه محدود)، ۲۰ دلار در ماه (نسخه پرو) و ۳۰ دلار در ماه (نسخه تیمی) |
طول پرامپتها | ۳۲۰۰۰ توکن | ۳۲۰۰۰ توکن | ۱۰۰۰ توکن | ۱۰۰۰ توکن |
سرعت پاسخگویی | بسیار سریع | بسیار سریع | سریع | سریع |
امکان ادغام با برنامههای دیگر | بله | خیر | بله | خیر |
فرمت پاسخها | عکس، لینک، متن | عکس، لینک، متن | عکس، لینک، متن و ویدئو | متن |
توانایی خلق تصویر | دارد (در نسخه اولترا) | دارد (در نسخه پرو) | دارد | دارد |
مهمترین تفاوت جمینای پرو با رقبای خود، مانند کلاد و چتجیپیتی، درک محتوای چندرسانهای است. نسخه رایگان جمینی در مقایسه با رقبای خود، قابلیتهای بیشتری به شما ارائه میدهد و در برخی موارد حتی نیاز به نسخههای پولی را هم از بین میبرد.
البته، نسخههای رایگان کوپایلت، کلاد و چتجیپیتی امکانات خوبی ارائه میدهند، ولی در مقایسه با جمینی پرو رایگان، حرف زیادی برای گفتن ندارند.
گوگل معیارهای عملکرد متنی گوگل جمینی اولترا را با چتجیپیتی۴ مقایسهکرده و نشان داده است که جمینی در زمینههای استدلال، ریاضیات و کدنویسی پیشتاز است:
قابلیت | معیار | توضیحات | امتیاز جمینی اولترا 1.0 | امتیاز چتجیپیتی۴ |
عمومی | MMLU | نمایش سوالات در ۵۷ موضوع (شامل علوم پایه، حقوق و موارد دیگر) | 90 درصد | 86.4 درصد |
استدلال | Big-Bench Hard | مجموعه متنوعی از وظایف چالش برانگیز که نیاز به استدلال چند مرحلهای دارند | 83.6 درصد | 83.1 درصد |
DROP | درک مطلب (نمره F1) | 82.4 درصد | 80.9 درصد | |
HellaSwag | استدلال عقل سلیم برای وظایف روزمره | 87.8 درصد | 95.3 درصد | |
ریاضیات | GSM8K | دستکاریهای ریاضی پایه (شامل مسائل ریاضی دبستان) | 94.4 درصد | 92 درصد |
MATH | مسائل ریاضی چالش برانگیز (شامل جبر، هندسه، پیش حساب و موارد دیگر) | 53.2 درصد | 52.9 درصد | |
کد | HumanEval | تولید کد پایتون | 74.4 درصد | 67 درصد |
Natural2Code | تولید کد پایتون در مجموعه داده نگه داشته شده | 74.9 درصد | 73.9 درصد |
بررسی تفاوتهای جمینی و چتجیپیتی در محتوای متنی نشان میدهد که Gemini در اکثر معیارها عملکرد بهتری نسبت به GPT-4 دارد.
این برتری به ویژه در زمینه تولید محتوای چندرسانهای مشهود است، جاییکه جمینی به دلیل توانایی کار با تصاویر، ویدئو، صدا و متن، امتیازهای بالاتری کسب کرده است:
معیار | توضیحات | جمینی اولترا | چتچیپیتی۴ |
تصاویر | حل مسائل استدلال چند رشتهای در سطح دانشگاه | ۵۹.۴ درصد | ۵۶.۸ درصد |
درک تصاویر طبیعی | ۷۷.۸ درصد | ۷۷.۲ درصد | |
تشخیص متن در تصاویر طبیعی | ۸۲.۳ درصد | ۷۸.۰ درصد | |
درک اسناد | ۹۰.۹ درصد | ۸۸.۴ درصد | |
درک اینفوگرافیک | ۸۰.۳ درصد | ۷۵.۱ درصد | |
استدلال ریاضی در زمینههای بصری | ۵۳.۰ درصد | ۴۹.۹ درصد | |
ویدیو | زیرنویس ویدئو به زبان انگلیسی | ۶۲.۷ درصد | ۵۶.۰ درصد |
پاسخ به سوالات ویدئویی | ۵۴.۷ درصد | ۴۶.۳ درصد | |
صدا | ترجمه خودکار گفتار | ۴۰.۱ درصد | ۲۹.۱ درصد |
تشخیص خودکار گفتار | ۷.۶ درصد | ۱۷.۶ درصد |
براساس بررسیهای گوگل دیپمایند، هوش مصنوعی Gemini در مقایسه با GPT-4V در حل مسائل استدلال چند رشتهای، درک تصاویر، تشخیص متن در تصاویر، درک اسناد و درک اینفوگرافیک، عملکرد بهتری دارد.
با وجود چالشهای متعددی که گوگل جمینی با آنها روبهرو است، به نظر میرسد این مدل هوش مصنوعی، مانند دیگر محصولات گوگل، نظر کاربران زیادی را به خود جلب کرده و حتی به بخش جداییناپذیری از زندگی آنها تبدیل شده است.
گوگل جمینی دستیار هوشمندی که زندگی شما را آسانتر میکند!
هوش مصنوعی گوگل جمینی با هدف حذف کارهای تکراری و خستهکننده برای انسانها پا به عرصه گذاشته است. این چتبات در صورت حفظ روند رو به رشد پیشرفت خود، میتواند در آیندهای نهچندان دور به یار و یاور همیشگی کاربران تبدیل شود.
گوگل Gemini گامهای پیشرفت خود را استوار برمیدارد و اگر خوشبین باشیم، مثل سریال Person of Interest طولی نمیکشد که حتی کارهای فراتر از مکالمهای را انجام دهد و حتی به پیشبینی مسائل مربوط به آینده انسانها بپردازد.
ولی خوب! از ایدههای خلاقانه تا پیشبینی آینده انسانها و جایگزینی برای شغلهایشان مسیر طولانی پیشرو است، راهی ناهموار که رسیدن به آن غیرممکن نیست.
به نظر شما روزی این چتبات بهظاهر ساده بتواند کارهای انسانها را بهسادگی و بدون اشتباه انجام دهد؟ بهگونهای که دیگر نیاز انسانی را از بین ببرد و بهقولی خودش آقا بالاسر کارها شود؟ یا اصلاً فکر میکنید جمینی از پس چه کارهایی برنمیآید و نمیتواند به قلمرو خلاقیت بیاندازه ذهن بشر نفوذ کند؟ خوشحال میشویم نظراتتان را در بخش دیدگاهها برای ما بفرستید.