فهرست مطالب
یکی از ناشران وب از گوگل درباره مشکلی عجیب سؤال پرسید: سایت او قربانی یک حمله Googlebot به سایت شده بود و میلیونها درخواست از طرف ربات گوگل (Googlebot) برای صفحاتی دریافت کرده بود که اصلاً وجود نداشتند! به طرز عجیبی فقط یک URL که اصلاً در سایت وجود خارجی نداشت، بیش از دو میلیون بار توسط ربات گوگل بررسی شده بود. این میزان از خزش، در واقع در حد یک حمله DDoS بود.
نگرانی این ناشر در مورد بودجه خزش (Crawl Budget) و تأثیر آن بر سئو سایت بیدلیل نبود. در نهایت، سایت او افت محسوسی در دید پذیری در جستجو (Search Visibility) پیدا کرد و رتبه در گوگل را از دست داد.
در ادامه مقاله، به پاسخ جان مولر از تیم گوگل میپردازیم و بررسی میکنیم که چنین اتفاقی چطور ممکن است رخ دهد، و اگر سایت ما با چنین مشکلی مواجه شد، باید چه کاری انجام دهیم.
صفحات NoIndex حذف و به کد وضعیت 410 تغییر داده شدند
در ادامه ماجرای حمله Googlebot به سایت، صاحب سایت اقداماتی برای کنترل اوضاع انجام داد. اون صفحاتی که نباید توسط گوگل پیدا میشدند رو به طور کامل حذف کرد و به جای اونها شروع به ارسال کد پاسخ 410 (Gone) کرد.
کد 410 بخشی از خانواده کدهای پاسخ 400 هست و به خزندهها و مرورگرها اعلام میکنه که این صفحه بهصورت دائمی حذف شده و قرار نیست برگرده. در مقابل، کد 404 فقط نشون میده که صفحهای در حال حاضر در دسترس نیست، اما هیچ تضمینی نمیده که در آینده برمیگرده یا نه.
با این کار، صاحب سایت سعی داشت به گوگل بفهمونه که آدرسهای اشتباه رو فراموش کنه. چون 410 بهصورت واضح به رباتها میگه که «این صفحه دیگه نیست، پس دنبالش نگرد و اگر لینکی بهش هست، اون رو هم حذف کن».
این شخص که سؤالش رو سه هفته قبل در ردیت (Reddit) مطرح کرده بود، توضیح داد که حدود ۱۱ میلیون آدرس اشتباه روی سایت وجود داشت که نباید توسط گوگل شناسایی میشدند. اونها رو کامل حذف کرده و کد 410 براشون فعال کرده بود. اما با گذشت یک ماه و نیم، هنوز هم Googlebot مرتب برمیگشت و دنبال این صفحات حذفشده میگشت!
این موضوع باعث نگرانی جدی از بابت بودجه خزش (Crawl Budget) و تأثیر منفی روی رتبهها شد. چون وقتی Googlebot زمان و منابع خودش رو روی صفحات حذفشده صرف کنه، به صفحات مهم و قابل ایندکس سایت کمتر توجه میشه.
در اون زمان، جان مولر (John Mueller) از تیم گوگل فقط یک لینک به صفحه پشتیبانی گوگل برای این کاربر فرستاد و پاسخ دقیقی نداد.
ادامه ماجرای حمله Googlebot به سایت و افت رتبه در گوگل
سه هفته بعد از شروع این ماجرا، اوضاع بهتر که نشد هیچ، بدتر هم شد. کاربر در سوال جدیدش نوشت که در همین مدت، بیش از ۵.۴ میلیون درخواست از طرف Googlebot دریافت کرده، اون هم برای صفحاتی که اصلاً وجود ندارند.
یکی از URLهایی که گوگل به شدت مشغول خزش اون بوده، این آدرس بوده:
https://example.net/software/virtual-dj/?feature=...
در واقع فقط همین یک آدرس، حدود ۲.۴ میلیون بار در ۳۰ روز گذشته توسط ربات گوگل بررسی شده!
صاحب سایت گفت در همین بازه زمانی، شاهد کاهش شدید در دیدپذیری سایت در نتایج گوگل بوده و به این مشکوک شده که شاید ارتباطی بین این خزش بیوقفه و افت رتبه سایت وجود داشته باشه.
اما چرا گوگل اصلاً به این URLها رسیده؟ موضوع از این قراره که به طور ناخواسته، این آدرسها در خروجی JSON که توسط فریمورک Next.js تولید میشده، قابل مشاهده بودن. یعنی اصلاً لینک مستقیم در سایت وجود نداشته، ولی اطلاعات URLها در قالب JSON برای خزندهها لو رفته بودن.
صاحب سایت برای حل مشکل، نحوه عملکرد ویژگیها (Features) رو تغییر داده و حالا از ?mf
به جای ?feature
استفاده میکنه، و این Query String جدید (?mf
) رو هم در فایل robots.txt
بلاک کرده.
حالا سوالش این بود:
آیا اضافه کردن چنین قانونی به فایل robots.txt منطقیه؟
هدفش هم این بود که جلوی خزش بیش از حد گوگل رو بگیره، چون باعث شده لاگها پر بشن و احتمال بروز مشکلات جانبی بالا بره.
جان مولر از گوگل در پاسخ گفت که رفتار Googlebot در این مورد طبیعیه. به گفتهی اون، گوگل مدت زیادی به بازدید از صفحاتی که قبلاً وجود داشتن ادامه میده تا مطمئن بشه اون صفحات بهطور دائمی حذف شدن یا نه. این کار به این دلیله که ممکنه صاحب سایت به اشتباه صفحهای رو حذف کرده باشه، پس گوگل بعضی وقتها برمیگرده تا ببینه اون صفحه برگشته یا نه.
جان مولر گفت:
گوگل سعی میکنه صفحاتی که قبلاً وجود داشتن رو برای مدت خیلی طولانی دوباره خزش کنه. اگه تعدادشون زیاد باشه، طبیعتاً این خزش هم بیشتر میشه. این موضوع مشکلی ایجاد نمیکنه – اینکه تعداد زیادی از صفحات شما حذف شده باشن، کاملاً طبیعیه. البته اگه این درخواستها اذیتتون میکنه، میتونید از robots.txt برای مسدود کردنشون استفاده کنید.
هشدار: مباحث فنی سئو در راه است
در این بخش وارد قسمت فنی ماجرا میشیم. جان مولر (John Mueller) هشدار داده که اضافهکردن فایل robots.txt
به عنوان راهحل پیشنهادی، ممکنه به صورت ناخواسته باعث بشه رندر شدن بعضی صفحات به مشکل بخوره؛ صفحاتی که نباید از نتایج حذف میشدن.
در واقع، مولر به کسی که سوال پرسیده این توصیهها رو میکنه:
-
مطمئن شو که آدرسهایی با ساختار
?feature=
به هیچ عنوان در کدهای سمت کاربر یا داخل JSON payloadهایی که صفحات مهم سایت رو تولید میکنن، استفاده نشدن. -
با استفاده از ابزار Chrome DevTools شبیهسازی کن که وقتی این URLها مسدود میشن، چه اتفاقی برای رندر صفحه میافته — تا بتونی زودتر جلوی مشکلات احتمالی رو بگیری.
-
از طریق Search Console روی گزارشهای Soft 404 نظارت کن تا اگر حذف ناخواستهای برای صفحات مهم رخ داده، سریع متوجه بشی.
جان مولر ادامه میده:
«مهمترین نکتهای که باید حواست بهش باشه اینه که این آدرسها واقعاً کد وضعیت ۴۰۴ یا ۴۱۰ برگردونن، وگرنه ممکنه بعضی از اونها هنوز توی جاوااسکریپت صفحاتی که میخوای ایندکس بشن استفاده بشن (چون گفتی از JSON payload استفاده میکنی).
تشخیص اینکه دقیقاً کِی داری جلوی کراول شدن یه منبع داخلی (چه بهصورت مستقیم داخل صفحه قرار گرفته باشه یا بهصورت داینامیک لود بشه) رو میگیری، خیلی سخته — چون گاهی همین کار باعث میشه صفحهای که به اون منبع وابستهست کلاً رندر نشه و از ایندکس گوگل خارج بشه.
اگه صفحاتت با JavaScript و بهصورت سمت کلاینت رندر میشن، سعی کن بفهمی این URLها قبلاً کجاها استفاده میشدن (اگه بتونی). بعد توی DevTools اونا رو بلاک کن و ببین موقع لود صفحه چه اتفاقی میافته.
اگه اصلاً متوجه نمیشی کجا استفاده میشن، پیشنهاد میکنم فقط بخشی از اونها رو Disallow کنی و بعد از طریق Soft 404 در Search Console وضعیت رو بررسی کنی.
اگه هم از JavaScript برای رندر سمت کلاینت استفاده نمیکنی، میتونی کل این پاراگراف رو نادیده بگیری :-)»
تفاوت بین دلیل آشکار و علت واقعی
جان مولر کاملاً درست میگه که باید با دقت بیشتری به دنبال علت واقعی افت رتبه یا خطاهای ایندکس شدن در گوگل باشیم. در این مورد خاص، یه اشتباه از طرف ناشر باعث شد که گوگل صفحاتی رو ایندکس کنه که نباید ایندکس میشدن. پس طبیعیه که گوگل از ناشر بخواد بررسی کنه که نکنه دلیل منطقیتری پشت این افت دیدهشدن توی نتایج جستجو باشه.
این دقیقاً همون موقعیتییه که ممکنه «دلیل آشکار» همون دلیل درست نباشه. چیزی که واضح به نظر میرسه، همیشه علت اصلی نیست. پیشنهاد مولر برای اینکه خیلی زود قید پیدا کردن دلیل واقعی رو نزنیم، یه توصیه فوقالعادهست.
ترحمه : Google Responds To Site That Lost Ranks After Googlebot DDoS Crawl