5/5 - (1 امتیاز)

یکی از مهندسان ارشد تیم سرچ گوگل (Google Search Relations)، گری ایلیز (Gary Illyes)، در یک قسمت جدید از پادکست رسمی گوگل در مورد هجوم ربات‌های هوش مصنوعی به وب‌سایت‌ها هشدار داده که ربات‌ها و عامل‌های خودکار مبتنی بر هوش مصنوعی به‌زودی اینترنت را با ترافیک غیرانسانی و خودکار اشباع خواهند کرد.

ایلیز در این پادکست با لحنی طعنه‌آمیز گفت: «همه، حتی مادربزرگم، دارن یه خزنده (crawler) جدید راه می‌ندازن!» — اشاره‌ای به رشد سریع ابزارهای خودکار که به‌صورت بی‌رویه در حال توسعه و انتشار هستند.

به گفته او، مشکل اصلی برای وب‌سایت‌ها تنها به خزیدن (crawling) ختم نمی‌شه؛ بلکه چالش جدی‌تر، فشار پردازش و ذخیره‌سازی داده‌هاییه که این ربات‌ها به سرورها تحمیل می‌کنن. در واقع، با هجوم ربات‌های هوش مصنوعی به وب‌سایت‌ها، منابع سرور سریع‌تر از قبل مصرف می‌شن و این می‌تونه باعث کندی یا حتی از دسترس خارج شدن سایت بشه.

اگر صاحب سایت هستید یا در زمینه مدیریت سرور، سئو تکنیکال یا بهینه‌سازی سایت فعالیت دارید، بهتره از همین حالا خودتون رو آماده کنید. اقداماتی مثل بررسی و محدودسازی فایل robots.txt، ارتقای هاست و سرور، و بهینه‌سازی دیتابیس‌ها می‌تونه جلوی آسیب‌های جدی رو بگیره.

هجوم ربات‌های هوش مصنوعی به وب‌سایت‌ها

ربات‌های هوش مصنوعی، فشار زیادی به وب‌سایت‌ها وارد می‌کنند

در ادامه گفت‌وگوی پادکست “Search Off the Record”، گری ایلیز (Gary Illyes) در کنار هم‌تیمی خودش، مارتین اسپلیت (Martin Splitt)، تاکید کرد که عامل‌های هوش مصنوعی (AI agents) و ابزارهای خودکار هوشمند (که به شوخی از آن‌ها به عنوان “AI shenanigans” یاد کرد) به‌زودی یکی از منابع اصلی افزایش ترافیک خودکار در وب خواهند بود.

او گفت:

«وب داره شلوغ میشه… البته اینطور نیست که نتونه از پسش بر بیاد… ساختار وب‌ به‌گونه‌ای طراحی شده که بتونه از پس این حجم از ترافیک، حتی اگه خودکار باشه، بر بیاد.»

این افزایش ترافیک در شرایطیه که شرکت‌ها و کسب‌وکارها به‌سرعت در حال استفاده از ابزارهای هوش مصنوعی برای تولید محتوا، تحلیل رقبا، بررسی بازار و جمع‌آوری داده‌ها هستن. نکته مهم اینجاست که اکثر این ابزارها برای عملکرد خودشون نیاز دارن که به صفحات سایت‌ها سر بزنن و اون‌ها رو بخزن (crawl کنن). با این رشد سریع در استفاده از هوش مصنوعی، طبیعی‌ـه که شاهد هجوم ربات‌های هوش مصنوعی به وب‌سایت‌ها باشیم.

آشنایی با سیستم خزنده گوگل (Google Crawler)

در ادامه پادکست، توضیحاتی درباره چگونگی عملکرد سیستم خزیدن وب گوگل ارائه شد. برخلاف تصور عموم، گوگل برای سرویس‌های مختلفش از خزنده‌های جداگانه استفاده نمی‌کنه، بلکه یک زیرساخت یکپارچه برای خزیدن طراحی کرده.

سرویس‌هایی مثل جستجوی گوگل (Google Search)، تبلیغات ادسنس (AdSense)، جیمیل (Gmail) و سایر ابزارهای گوگل، همگی از همین سیستم مشترک استفاده می‌کنن. تنها تفاوت در user agent اون‌هاست؛ یعنی هر سرویس خودش رو با یک نام متفاوت به سرور معرفی می‌کنه، اما همگی به دستورهای robots.txt و وضعیت سلامت سرور احترام می‌ذارن.

ایلیز در این‌باره گفت:

«میتونی با این سیستم از اینترنت اطلاعات بگیری، ولی باید حتماً user agent مخصوص خودت رو مشخص کنی.»

این روش یکپارچه باعث میشه که همه ربات‌های گوگل طبق استانداردهای مشخصی رفتار کنن، و در صورت بروز مشکل در سرور مقصد، به‌صورت خودکار فعالیتشون رو کاهش بدن. این مسئله به مدیران سایت کمک می‌کنه تا بهتر بتونن بهینه‌سازی سرور و کنترل ترافیک ربات‌ها رو مدیریت کنن.

مشکل اصلی منابع سرور چیست؟ خزش نیست!

ایلیز در ادامه صحبت‌هاش به یه نکته جالب و شاید بحث‌برانگیز اشاره کرد که می‌تونه دیدگاه خیلی از متخصصان سئو رو زیر سوال ببره. اون گفت: برخلاف تصور رایج، این خزش (Crawling) نیست که منابع زیادی از سرور رو مصرف می‌کنه!

به گفته‌ی خودش:

«مشکل منابع، مربوط به خزش نیست؛ بلکه مرحله‌ی ایندکس کردن (Indexing)، نمایش محتوا (Serving) یا به طور کلی پردازش و استفاده از داده‌هاست که فشار اصلی رو ایجاد می‌کنه.»

ایلیز با لحنی شوخ‌طبعانه گفت که احتمالاً بابت این حرف‌ها قراره تو اینترنت کلی انتقاد بشنوه، اما به نظر می‌رسه این دیدگاه می‌تونه نگرش سئوکارها به بحث بودجه خزش (Crawl Budget) رو تغییر بده. شاید بهتر باشه به‌جای تمرکز صرف روی کنترل ربات‌ها، به بهینه‌سازی مراحل بعد از خزش یعنی ساختار URL‌ها، سرعت ایندکس شدن مطالب و مدیریت دیتای سایت توجه بیشتری بشه.

رشد دیوانه‌وار وب؛ از هزاران صفحه تا تریلیون‌ها

در ادامه‌ی پادکست، اعضای تیم گوگل مروری داشتن بر روند تاریخی رشد وب. در سال ۱۹۹۴، موتور جستجویی به نام World Wide Web Worm تنها ۱۱۰ هزار صفحه رو ایندکس کرده بود. در همون دوران، موتور WebCrawler تونسته بود به عدد ۲ میلیون صفحه برسه. حالا اما، هر سایت معمولی می‌تونه خودش میلیون‌ها صفحه داشته باشه!

این رشد سرسام‌آور باعث شد تکنولوژی خزنده‌ها هم پیشرفت کنه. پروتکل‌های ابتدایی مثل HTTP/1.1 کم‌کم جای خودشون رو به HTTP/2 دادن که سرعت اتصال به سایت‌ها رو بیشتر می‌کنه. حالا هم پروتکل HTTP/3 در راهه تا کارایی سیستم‌های خزش و ربات‌ها رو حتی از این هم بهتر کنه.

برای وب‌سایت‌هایی که درگیر هجوم ربات‌های هوش مصنوعی به وب‌سایت‌ها هستن، درک این روند تکاملی اهمیت زیادی داره؛ چون می‌تونه در تصمیم‌گیری برای ارتقای زیرساخت‌ها و بهینه‌سازی ترافیک خودکار کمک‌کننده باشه.

نبرد گوگل برای بهره‌وری بیشتر

گوگل طی سال گذشته تلاش کرد تا حجم خزش خودش رو کاهش بده و فشار روی صاحبان سایت‌ها کمتر بشه. اما با ظهور ابزارهای جدید، انگار این تلاش‌ها چندان دوام نمیارن.

ایلیز با اشاره به این چالش گفت:

«مثلاً شما تونستید ۷ بایت از هر درخواست صرفه‌جویی کنید، اما یه ابزار جدید از راه می‌رسه که ۸ بایت اضافه بار تولید می‌کنه!»

یعنی هر قدمی که برای بهینه‌سازی برداشته میشه، با ورود ابزارهای هوش مصنوعی جدید عملاً خنثی میشه. این یه چرخه‌ی بی‌پایانه که فعلاً قصد ایستادن نداره.

مدیران سایت‌ها باید چه کاری انجام بدن؟

برای مقابله با هجوم ربات‌های هوش مصنوعی به وب‌سایت‌ها، لازمه از همین حالا اقدامات فنی و زیرساختی انجام بدیم:

🔹 زیرساخت‌ها (Infrastructure):
ممکنه هاست یا سرور فعلی شما توانایی تحمل این حجم از ترافیک رو نداشته باشه. الان وقتشه که ظرفیت سرور، گزینه‌های CDN (مثل Cloudflare)، و زمان پاسخ‌دهی سایت رو بررسی کنی. این کار می‌تونه از کندی یا از کار افتادن سایت جلوگیری کنه.

🔹 مدیریت دسترسی (Access Control):
با استفاده از فایل robots.txt مشخص کن که کدوم ربات‌های هوش مصنوعی اجازه دسترسی به سایتت رو دارن. ربات‌های غیرضروری رو ببند و فقط به خزنده‌های معتبر مثل گوگل یا بینگ دسترسی بده. این کار یکی از راه‌های مؤثر برای کنترل ترافیک خودکار سایت‌هاست.

🔹 عملکرد پایگاه داده (Database Performance):
ایلیز به طور خاص به مشکل «درخواست‌های سنگین دیتابیس» اشاره کرد. پس باید کوئری‌های دیتابیس رو بهینه‌سازی کنی و از سیستم کش (Caching) استفاده کنی تا فشار روی سرور کم بشه. این کار برای سایت‌هایی با دیتابیس‌های بزرگ یا فروشگاه‌های اینترنتی اهمیت بیشتری داره.

🔹 پایش و نظارت (Monitoring):
مهمه که بتونی فرق بین خزنده‌های واقعی، ربات‌های هوش مصنوعی و بات‌های مخرب رو تشخیص بدی. با آنالیز دقیق لاگ‌ها و بررسی رفتار کاربران و ربات‌ها، می‌تونی ترافیک ناخواسته رو شناسایی و مدیریت کنی.

راه‌حل آینده‌نگرانه

ایلیز به پروژه‌ای به نام Common Crawl اشاره کرد؛ یه خزنده عمومی که فقط یک‌بار صفحات وب رو ایندکس می‌کنه و دیتاش رو در اختیار همه قرار میده. این مدل همکاری باعث میشه از تکرار خزش‌های مشابه توسط ده‌ها ربات مختلف جلوگیری بشه.

با افزایش هجوم ربات‌های هوش مصنوعی به وب‌سایت‌ها، ممکنه مدل‌های مشابهی در آینده رایج‌تر بشن تا بار روی سرورها کاهش پیدا کنه.

جمع‌بندی: آماده باش، طوفان در راهه!

ایلیز اطمینان داد که دنیای وب توانایی مدیریت ترافیک بیشتر رو داره. اما در عین حال یه هشدار جدی هم داد: ربات‌های هوش مصنوعی دارن با سرعت زیاد وارد میشن.

سایت‌هایی که از همین حالا به فکر تقویت زیرساخت و مدیریت ترافیک خودکار باشن، احتمالاً از این موج سالم عبور می‌کنن. اما اون‌هایی که صبر کنن و واکنشی عمل کنن، ممکنه دیر متوجه بشن و گرفتار ترافیک سنگین و مشکلات فنی بشن.

ترجمه : Google’s Gary Illyes Warns AI Agents Will Create Web Congestion

5/5 - (1 امتیاز)