محققان چینی سیستمی ساختهاند که با تحلیل تصویر و جستجو در وب، موقعیت مکانی عکسها را پیدا میکند. این سیستم به قدری قوی است که با هوش مصنوعی جمنای گوگل در شناسایی موقعیت مکانی رقابت میکند.
تصور کنید عکسی از یک خیابان ناشناس دارید و میخواهید دقیقاً بدانید که آن مکان کجاست. تا امروز برای این کار به ابزارهای گرانقیمت نیاز داشتید. اما حالا محققان چینی (با حمایت tencent، غول فناوری و مالک شبکه اجتماعی ویچت) از مدل جدیدی به نام GeoVista رونمایی کردند تا این نیاز را با راه حلی ارزان قیمتتر برطرف کنند.
این مدل متنباز است و برخلاف رقبای خود، فقط به دانش قبلی خود تکیه نمیکند. GeoVista مثل یک کارآگاه واقعی به اینترنت وصل میشود و سرنخها را دنبال میکند تا به جواب برسد.
توجه به جزئیات و جستجو در وب برای یافتن مکان
برگ برنده GeoVista در روش کارش نهفته است. اکثر مدلهای هوش مصنوعی فقط به پیکسلهای عکس نگاه میکنند، اما این سیستم دو ابزار کلیدی در اختیار دارد. یک ذرهبین برای زوم کردن روی جزئیات و یک موتور جستجو برای چک کردن اطلاعات در وب.

وقتی عکسی به این مدل میدهید، خودش تصمیم میگیرد کجا زوم کند. شاید تابلوی یک مغازه یا پلاک یک ماشین نظرش را جلب کند. سپس اطلاعات به دست آمده را در سایتهایی مثل ویکیپدیا یا شبکههای اجتماعی جستجو میکند تا موقعیت دقیق را پیدا کند.
عملکرد خیرهکننده GeoVista در برابر رقبا
تیم سازنده برای ساخت این مدل از هوش مصنوعی Qwen 2.5 (مدل زبانی قدرتمند علیبابا) استفاده کرده است. GeoVista توانست با استفاده از این مدل در تستها عملکردی بسیار نزدیک به مدلهای تجاری و پولی داشته باشد.
در جدول زیر مقایسه دقت این مدل با رقبای سرسختش را میبینید:

همانطور که میبینید، این مدل رایگان توانسته هوش مصنوعی GPT-5 را در دقت مکانی پشت سر بگذارد و شانهبهشانه نسخههای سبک جمینای حرکت کند. البته در تصاویر ماهوارهای هنوز ضعف دارد و دقتش به حدود ۴۵ درصد میرسد.
هوش مصنوعی GeoVista چگونه مکانها را تشخیص میدهد؟
سازندگان GeoVista برای آموزش این هوش مصنوعی از یک روش دو مرحلهای استفاده کردند. اول با ۲ هزار مثال دستچین شده به مدل یاد دادند که چطور فکر کند و از ابزارها استفاده کند. در این مرحله، مدل یاد گرفت که چرا باید سرچ کند.
در مرحله دوم، با ۱۲ هزار مثال دیگر و سیستم «یادگیری تقویتی» (Reinforcement Learning)، مهارتهایش را صیقل دادند. سیستم پاداشدهی طوری تنظیم شده بود که اگر مدل شهر را درست حدس میزد، امتیاز بیشتری نسبت به حدس زدن کشور میگرفت. این کار باعث شد مدل روی دقتِ نقطهزنی تمرکز کند.
تست سختگیرانه با GeoBench
محققان فقط به ساخت مدل بسنده نکردند و یک دیتاست جدید به نام GeoBench هم منتشر کردند. این مجموعه شامل تصاویر باکیفیت از ۶۶ کشور است، اما یک تفاوت بزرگ دارد. عکسهای ساده و تابلو (مثل برج ایفل یا مناظر عمومی) از آن حذف شدهاند.

هدف این بود که هوش مصنوعی واقعاً به چالش کشیده شود و نتواند با حدسهای کلی امتیاز بگیرد. در این تست سختگیرانه، GeoVista نشان داد که میتواند فاصله مکانی را با خطای میانه ۲.۳۵ کیلومتر تشخیص دهد.
دیگر حریم خصوصی در عکسها معنی ندارد!
شاید بپرسید این تکنولوژی چه خطری دارد؟ واقعیت این است که با عمومی شدن چنین ابزارهایی، هر عکسی که در فضای مجازی منتشر میکنید میتواند موقعیت دقیق شما را لو بدهد. از این به بعد یک مدل هوش مصنوعی رایگان هم میتواند آدرس شما را پیدا کند.
تحلیل اختصاصی اِیایا
انتشار GeoVista دو پیام مهم دارد. اول اینکه فاصله بین مدلهای متنباز (Open Source) و مدلهای تجاری غولهایی مثل گوگل و OpenAI با سرعت ترسناکی در حال کم شدن است. دوم اینکه دوران پنهان بودن اطلاعات عکسها نیز دارد به پایان میرسد. اگر تا دیروز نگران متادیتای عکسهایتان بودید، امروز باید نگران خودِ پیکسلهای عکس باشید. از این به بعد باید سعی کنید با احتیاط بیشتری، عکسهای خصوصیتان را به اشتراک بگذارید.
