تشخیص موقعیت مکانی در عکس‌ها با هوش مصنوعی GeoVista

محققان چینی سیستمی ساخته‌اند که با تحلیل تصویر و جستجو در وب، موقعیت مکانی عکس‌ها را پیدا می‌کند. این سیستم به قدری قوی است که با هوش مصنوعی جمنای گوگل در شناسایی موقعیت مکانی رقابت می‌کند.

تصور کنید عکسی از یک خیابان ناشناس دارید و می‌خواهید دقیقاً بدانید که آن مکان کجاست. تا امروز برای این کار به ابزارهای گران‌قیمت نیاز داشتید. اما حالا محققان چینی (با حمایت tencent، غول فناوری و مالک شبکه اجتماعی وی‌چت) از مدل جدیدی به نام GeoVista رونمایی کردند تا این نیاز را با راه حلی ارزان قیمت‌تر برطرف کنند.

این مدل متن‌باز است و برخلاف رقبای خود، فقط به دانش قبلی خود تکیه نمی‌کند. GeoVista مثل یک کارآگاه واقعی به اینترنت وصل می‌شود و سرنخ‌ها را دنبال می‌کند تا به جواب برسد.

توجه به جزئیات و جستجو در وب برای یافتن مکان

برگ برنده GeoVista در روش کارش نهفته است. اکثر مدل‌های هوش مصنوعی فقط به پیکسل‌های عکس نگاه می‌کنند، اما این سیستم دو ابزار کلیدی در اختیار دارد. یک ذره‌بین برای زوم کردن روی جزئیات و یک موتور جستجو برای چک کردن اطلاعات در وب.

وقتی عکسی به این مدل می‌دهید، خودش تصمیم می‌گیرد کجا زوم کند. شاید تابلوی یک مغازه یا پلاک یک ماشین نظرش را جلب کند. سپس اطلاعات به دست آمده را در سایت‌هایی مثل ویکی‌پدیا یا شبکه‌های اجتماعی جستجو می‌کند تا موقعیت دقیق را پیدا کند.

عملکرد خیره‌کننده GeoVista در برابر رقبا

تیم سازنده برای ساخت این مدل از هوش مصنوعی Qwen 2.5 (مدل زبانی قدرتمند علی‌بابا) استفاده کرده است. GeoVista توانست با استفاده از این مدل در تست‌ها عملکردی بسیار نزدیک به مدل‌های تجاری و پولی داشته باشد.

در جدول زیر مقایسه دقت این مدل با رقبای سرسختش را می‌بینید:

همان‌طور که می‌بینید، این مدل رایگان توانسته هوش مصنوعی GPT-5 را در دقت مکانی پشت سر بگذارد و شانه‌به‌شانه نسخه‌های سبک جمینای حرکت کند. البته در تصاویر ماهواره‌ای هنوز ضعف دارد و دقتش به حدود ۴۵ درصد می‌رسد.

هوش مصنوعی GeoVista چگونه مکان‌ها را تشخیص می‌دهد؟

سازندگان GeoVista برای آموزش این هوش مصنوعی از یک روش دو مرحله‌ای استفاده کردند. اول با ۲ هزار مثال دست‌چین شده به مدل یاد دادند که چطور فکر کند و از ابزارها استفاده کند. در این مرحله، مدل یاد گرفت که چرا باید سرچ کند.

در مرحله دوم، با ۱۲ هزار مثال دیگر و سیستم «یادگیری تقویتی» (Reinforcement Learning)، مهارت‌هایش را صیقل دادند. سیستم پاداش‌دهی طوری تنظیم شده بود که اگر مدل شهر را درست حدس می‌زد، امتیاز بیشتری نسبت به حدس زدن کشور می‌گرفت. این کار باعث شد مدل روی دقتِ نقطه‌زنی تمرکز کند.

تست سخت‌گیرانه با GeoBench

محققان فقط به ساخت مدل بسنده نکردند و یک دیتاست جدید به نام GeoBench هم منتشر کردند. این مجموعه شامل تصاویر باکیفیت از ۶۶ کشور است، اما یک تفاوت بزرگ دارد. عکس‌های ساده و تابلو (مثل برج ایفل یا مناظر عمومی) از آن حذف شده‌اند.

هدف این بود که هوش مصنوعی واقعاً به چالش کشیده شود و نتواند با حدس‌های کلی امتیاز بگیرد. در این تست سخت‌گیرانه، GeoVista نشان داد که می‌تواند فاصله مکانی را با خطای میانه ۲.۳۵ کیلومتر تشخیص دهد.

دیگر حریم خصوصی در عکس‌ها معنی ندارد!

شاید بپرسید این تکنولوژی چه خطری دارد؟ واقعیت این است که با عمومی شدن چنین ابزارهایی، هر عکسی که در فضای مجازی منتشر می‌کنید می‌تواند موقعیت دقیق شما را لو بدهد. از این به بعد یک مدل هوش مصنوعی رایگان هم می‌تواند آدرس شما را پیدا کند.

تحلیل اختصاصی اِیایا

انتشار GeoVista دو پیام مهم دارد. اول اینکه فاصله بین مدل‌های متن‌باز (Open Source) و مدل‌های تجاری غول‌هایی مثل گوگل و OpenAI با سرعت ترسناکی در حال کم شدن است. دوم اینکه دوران پنهان بودن اطلاعات عکس‌ها نیز دارد به پایان می‌‎رسد. اگر تا دیروز نگران متادیتای عکس‌هایتان بودید، امروز باید نگران خودِ پیکسل‌های عکس باشید. از این به بعد باید سعی کنید با احتیاط بیشتری، عکس‌های خصوصی‌تان را به اشتراک بگذارید.