5/5 - (1 امتیاز)

یکی از ناشران وب از گوگل درباره مشکلی عجیب سؤال پرسید: سایت او قربانی یک حمله Googlebot به سایت شده بود و میلیون‌ها درخواست از طرف ربات گوگل (Googlebot) برای صفحاتی دریافت کرده بود که اصلاً وجود نداشتند! به طرز عجیبی فقط یک URL که اصلاً در سایت وجود خارجی نداشت، بیش از دو میلیون بار توسط ربات گوگل بررسی شده بود. این میزان از خزش، در واقع در حد یک حمله DDoS بود.

نگرانی این ناشر در مورد بودجه خزش (Crawl Budget) و تأثیر آن بر سئو سایت بی‌دلیل نبود. در نهایت، سایت او افت محسوسی در دید پذیری در جستجو (Search Visibility) پیدا کرد و رتبه در گوگل را از دست داد.

در ادامه مقاله، به پاسخ جان مولر از تیم گوگل می‌پردازیم و بررسی می‌کنیم که چنین اتفاقی چطور ممکن است رخ دهد، و اگر سایت ما با چنین مشکلی مواجه شد، باید چه کاری انجام دهیم.

حمله Googlebot به سایت

صفحات NoIndex حذف و به کد وضعیت 410 تغییر داده شدند

در ادامه ماجرای حمله Googlebot به سایت، صاحب سایت اقداماتی برای کنترل اوضاع انجام داد. اون صفحاتی که نباید توسط گوگل پیدا می‌شدند رو به طور کامل حذف کرد و به جای اون‌ها شروع به ارسال کد پاسخ 410 (Gone) کرد.

کد 410 بخشی از خانواده کدهای پاسخ 400 هست و به خزنده‌ها و مرورگرها اعلام می‌کنه که این صفحه به‌صورت دائمی حذف شده و قرار نیست برگرده. در مقابل، کد 404 فقط نشون می‌ده که صفحه‌ای در حال حاضر در دسترس نیست، اما هیچ تضمینی نمی‌ده که در آینده برمی‌گرده یا نه.

با این کار، صاحب سایت سعی داشت به گوگل بفهمونه که آدرس‌های اشتباه رو فراموش کنه. چون 410 به‌صورت واضح به ربات‌ها می‌گه که «این صفحه دیگه نیست، پس دنبالش نگرد و اگر لینکی بهش هست، اون رو هم حذف کن».

این شخص که سؤالش رو سه هفته قبل در ردیت (Reddit) مطرح کرده بود، توضیح داد که حدود ۱۱ میلیون آدرس اشتباه روی سایت وجود داشت که نباید توسط گوگل شناسایی می‌شدند. اون‌ها رو کامل حذف کرده و کد 410 براشون فعال کرده بود. اما با گذشت یک ماه و نیم، هنوز هم Googlebot مرتب برمی‌گشت و دنبال این صفحات حذف‌شده می‌گشت!

این موضوع باعث نگرانی جدی از بابت بودجه خزش (Crawl Budget) و تأثیر منفی روی رتبه‌ها شد. چون وقتی Googlebot زمان و منابع خودش رو روی صفحات حذف‌شده صرف کنه، به صفحات مهم و قابل ایندکس سایت کمتر توجه می‌شه.

در اون زمان، جان مولر (John Mueller) از تیم گوگل فقط یک لینک به صفحه پشتیبانی گوگل برای این کاربر فرستاد و پاسخ دقیقی نداد.

ادامه ماجرای حمله Googlebot به سایت و افت رتبه در گوگل

سه هفته بعد از شروع این ماجرا، اوضاع بهتر که نشد هیچ، بدتر هم شد. کاربر در سوال جدیدش نوشت که در همین مدت، بیش از ۵.۴ میلیون درخواست از طرف Googlebot دریافت کرده، اون هم برای صفحاتی که اصلاً وجود ندارند.

یکی از URLهایی که گوگل به شدت مشغول خزش اون بوده، این آدرس بوده:


https://example.net/software/virtual-dj/?feature=...

در واقع فقط همین یک آدرس، حدود ۲.۴ میلیون بار در ۳۰ روز گذشته توسط ربات گوگل بررسی شده!

صاحب سایت گفت در همین بازه زمانی، شاهد کاهش شدید در دیدپذیری سایت در نتایج گوگل بوده و به این مشکوک شده که شاید ارتباطی بین این خزش بی‌وقفه و افت رتبه سایت وجود داشته باشه.

اما چرا گوگل اصلاً به این URLها رسیده؟ موضوع از این قراره که به طور ناخواسته، این آدرس‌ها در خروجی JSON که توسط فریم‌ورک Next.js تولید می‌شده، قابل مشاهده بودن. یعنی اصلاً لینک مستقیم در سایت وجود نداشته، ولی اطلاعات URLها در قالب JSON برای خزنده‌ها لو رفته بودن.

صاحب سایت برای حل مشکل، نحوه عملکرد ویژگی‌ها (Features) رو تغییر داده و حالا از ?mf به جای ?feature استفاده می‌کنه، و این Query String جدید (?mf) رو هم در فایل robots.txt بلاک کرده.

حالا سوالش این بود:
آیا اضافه کردن چنین قانونی به فایل robots.txt منطقیه؟

Disallow: /software/virtual-dj/?feature=*

هدفش هم این بود که جلوی خزش بیش از حد گوگل رو بگیره، چون باعث شده لاگ‌ها پر بشن و احتمال بروز مشکلات جانبی بالا بره.

جان مولر از گوگل در پاسخ گفت که رفتار Googlebot در این مورد طبیعیه. به گفته‌ی اون، گوگل مدت زیادی به بازدید از صفحاتی که قبلاً وجود داشتن ادامه می‌ده تا مطمئن بشه اون صفحات به‌طور دائمی حذف شدن یا نه. این کار به این دلیله که ممکنه صاحب سایت به اشتباه صفحه‌ای رو حذف کرده باشه، پس گوگل بعضی وقت‌ها برمی‌گرده تا ببینه اون صفحه برگشته یا نه.

جان مولر گفت:

گوگل سعی می‌کنه صفحاتی که قبلاً وجود داشتن رو برای مدت خیلی طولانی دوباره خزش کنه. اگه تعدادشون زیاد باشه، طبیعتاً این خزش هم بیشتر می‌شه. این موضوع مشکلی ایجاد نمی‌کنه – اینکه تعداد زیادی از صفحات شما حذف شده باشن، کاملاً طبیعیه. البته اگه این درخواست‌ها اذیت‌تون می‌کنه، می‌تونید از robots.txt برای مسدود کردن‌شون استفاده کنید.

هشدار: مباحث فنی سئو در راه است

در این بخش وارد قسمت فنی ماجرا می‌شیم. جان مولر (John Mueller) هشدار داده که اضافه‌کردن فایل robots.txt به عنوان راه‌حل پیشنهادی، ممکنه به صورت ناخواسته باعث بشه رندر شدن بعضی صفحات به مشکل بخوره؛ صفحاتی که نباید از نتایج حذف می‌شدن.

در واقع، مولر به کسی که سوال پرسیده این توصیه‌ها رو می‌کنه:

  • مطمئن شو که آدرس‌هایی با ساختار ?feature= به هیچ عنوان در کدهای سمت کاربر یا داخل JSON payloadهایی که صفحات مهم سایت رو تولید می‌کنن، استفاده نشدن.

  • با استفاده از ابزار Chrome DevTools شبیه‌سازی کن که وقتی این URLها مسدود می‌شن، چه اتفاقی برای رندر صفحه می‌افته — تا بتونی زودتر جلوی مشکلات احتمالی رو بگیری.

  • از طریق Search Console روی گزارش‌های Soft 404 نظارت کن تا اگر حذف ناخواسته‌ای برای صفحات مهم رخ داده، سریع متوجه بشی.

جان مولر ادامه می‌ده:

«مهم‌ترین نکته‌ای که باید حواست بهش باشه اینه که این آدرس‌ها واقعاً کد وضعیت ۴۰۴ یا ۴۱۰ برگردونن، وگرنه ممکنه بعضی از اون‌ها هنوز توی جاوااسکریپت صفحاتی که می‌خوای ایندکس بشن استفاده بشن (چون گفتی از JSON payload استفاده می‌کنی).
تشخیص اینکه دقیقاً کِی داری جلوی کراول شدن یه منبع داخلی (چه به‌صورت مستقیم داخل صفحه قرار گرفته باشه یا به‌صورت داینامیک لود بشه) رو می‌گیری، خیلی سخته — چون گاهی همین کار باعث می‌شه صفحه‌ای که به اون منبع وابسته‌ست کلاً رندر نشه و از ایندکس گوگل خارج بشه.
اگه صفحاتت با JavaScript و به‌صورت سمت کلاینت رندر می‌شن، سعی کن بفهمی این URLها قبلاً کجاها استفاده می‌شدن (اگه بتونی). بعد توی DevTools اونا رو بلاک کن و ببین موقع لود صفحه چه اتفاقی می‌افته.
اگه اصلاً متوجه نمی‌شی کجا استفاده می‌شن، پیشنهاد می‌کنم فقط بخشی از اون‌ها رو Disallow کنی و بعد از طریق Soft 404 در Search Console وضعیت رو بررسی کنی.
اگه هم از JavaScript برای رندر سمت کلاینت استفاده نمی‌کنی، می‌تونی کل این پاراگراف رو نادیده بگیری :-)»

تفاوت بین دلیل آشکار و علت واقعی

جان مولر کاملاً درست می‌گه که باید با دقت بیشتری به دنبال علت واقعی افت رتبه یا خطاهای ایندکس شدن در گوگل باشیم. در این مورد خاص، یه اشتباه از طرف ناشر باعث شد که گوگل صفحاتی رو ایندکس کنه که نباید ایندکس می‌شدن. پس طبیعیه که گوگل از ناشر بخواد بررسی کنه که نکنه دلیل منطقی‌تری پشت این افت دیده‌شدن توی نتایج جستجو باشه.

این دقیقاً همون موقعیتی‌یه که ممکنه «دلیل آشکار» همون دلیل درست نباشه. چیزی که واضح به نظر می‌رسه، همیشه علت اصلی نیست. پیشنهاد مولر برای اینکه خیلی زود قید پیدا کردن دلیل واقعی رو نزنیم، یه توصیه فوق‌العاده‌ست.

ترحمه : Google Responds To Site That Lost Ranks After Googlebot DDoS Crawl

5/5 - (1 امتیاز)