4.7/5 - (3 امتیاز)

فایل robots.txt چیست؟

فایل robots.txt فایلی است که به عنکبوت‌های موتورهای جستجو دستور می‌دهد تا صفحات یا بخش‌های خاصی از یک وب‌سایت را crawl (دنبال نکنند). اکثر موتورهای جستجوی بزرگ (از جمله گوگل، بینگ و یاهو) درخواست‌های robots.txt را شناسایی و اجرا می‌کنند.

راهنمای جامع فایل robots.txt

چرا robots.txt مهم است؟

بسیاری از وب‌سایت‌ها نیازی به فایل robots.txt ندارند؛ زیرا گوگل معمولاً به خوبی می‌تواند صفحات مهم یک سایت را شناسایی و فهرست‌بندی کند. همچنین، صفحات کم‌اهمیت یا تکراری به طور خودکار توسط گوگل ایندکس نمی‌شوند.

با این حال، سه دلیل اصلی برای استفاده از فایل robots.txt وجود دارد:

  1. مخفی‌سازی صفحات خصوصی: برخی صفحات در یک وب‌سایت ممکن است خصوصی باشند و نباید در نتایج جستجو نمایش داده شوند (مثلاً صفحات آزمایشی یا ورود به سیستم). در این موارد، از فایل robots.txt برای جلوگیری از دسترسی موتورهای جستجو به این صفحات استفاده می‌شود.

  2. بهینه سازی بودجه خزیدن: اگر سایت شما صفحات بسیار زیادی دارد و موتورهای جستجو نمی‌توانند همه آن‌ها را به سرعت ایندکس کنند، می‌توانید با استفاده از فایل robots.txt، صفحات کم‌اهمیت را مسدود کنید تا موتورهای جستجو روی صفحات مهم‌تر تمرکز کنند.

  3. جلوگیری از ایندکس شدن فایل‌های رسانه‌ای: گرچه متادیتاها (meta directives) ابزاری قدرتمند برای جلوگیری از ایندکس شدن صفحات هستند، اما برای فایل‌های رسانه‌ای مانند PDF و تصاویر، فایل robots.txt کارآمدتر است.

به طور خلاصه: فایل robots.txt به موتورهای جستجو می‌گوید که کدام صفحات از یک وب‌سایت را نباید بررسی کنند.

می‌توانید تعداد صفحاتی را که ایندکس کرده‌اید در کنسول جستجوی گوگل بررسی کنید.

robots.txt چیست؟

اگر تعداد صفحات ایندکس شده با تعداد صفحاتی که می‌خواهید ایندکس شوند مطابقت دارد، نیازی به فایل robots.txt ندارید. اما اگر این عدد بیشتر از حد انتظار شماست (و متوجه URLهای ایندکس شده‌ای می‌شو شوید که نباید ایندکس شوند)، پس وقت آن است که یک فایل robots.txt برای وب‌سایت خود ایجاد کنید.

ایجاد فایل robots.txt

اولین قدم شما برای ایجاد یک استراتژی سئو قوی، ساختن یک فایل robots.txt است. این فایل یک متن ساده است و به راحتی با استفاده از نرم افزار Notepad در ویندوز قابل ایجاد است.

فارغ از اینکه چگونه فایل robots.txt را ایجاد می‌کنید، فرمت آن همیشه یکسان است:

  • User-agent: این بخش، کاربر (ربات) خاصی را که می‌خواهید با آن صحبت کنید، مشخص می‌کند.
  • Disallow: همه چیزهایی که بعد از Disallow می‌آید، صفحاتی یا بخش‌هایی هستند که می‌خواهید از دسترسی ربات‌ها مسدود کنید.

برای مثال:

User-agent: googlebot
Disallow: /images

این قانون به گوگل‌بات می‌گوید که پوشه تصاویر وب‌سایت شما را ایندکس نکند.

همچنین می‌توانید از علامت ستاره (*) برای صحبت با تمام ربات‌هایی که به وب‌سایت شما سر می‌زنند، استفاده کنید.

برای نمونه:

User-agent: *
Disallow: /images

این علامت به تمام خزنده‌های وب می‌گوید که پوشه تصاویر شما را کrawl نکنند.

این تنها یکی از روش‌های متعدد استفاده از فایل robots.txt است. راهنمای مفید گوگل [راهنمای ایجاد و ارسال یک فایل robots.txt](link to Google Search Central robots.txt creation guide) اطلاعات بیشتری در مورد قوانین مختلفی که برای مسدود کردن یا اجازه دادن به ربات‌ها برای کروال صفحات مختلف سایت خود می‌توانید استفاده کنید، در اختیار شما قرار می‌دهد.

فایل robots.txt خود را به راحتی قابل دسترس کنید

پس از ایجاد فایل robots.txt، زمان آن است که آن را فعال کنید.

از نظر فنی، می‌توانید فایل robots.txt خود را در هر دایرکتوری اصلی سایت خود قرار دهید.

اما برای افزایش احتمال یافتن فایل robots.txt، توصیه می‌کنم آن را در اینجا قرار دهید:

https://example.com/robots.txt

(توجه داشته باشید که فایل robots.txt شما حساس به حروف کوچک و بزرگ است. بنابراین حتماً از حرف “r” کوچک در نام فایل استفاده کنید)

بررسی خطاها و اشتباهات

فایل robots.txt شما باید به درستی تنظیم شده باشد، زیرا یک اشتباه کوچک می تواند باعث حذف کل سایت شما از فهرست جستجوی گوگل شود.

خوشبختانه، نیازی نیست که امیدوار باشید کد شما به درستی تنظیم شده است. گوگل یک ابزار مفید تست ربات ها دارد که می توانید از آن استفاده کنید:

Robots.txt – نتایج تست

این ابزار فایل robots.txt شما را به همراه هرگونه خطا و هشداری که پیدا می کند به شما نشان می دهد:

Robots.txt – خطاها

همانطور که مشاهده می کنید، ما از عنکبوت ها می خواهیم که صفحه مدیریت وردپرس ما را خزش نکنند.

ما همچنین از robots.txt برای جلوگیری از خزش صفحات برچسب خودکار تولید شده توسط وردپرس (برای محدود کردن محتوای تکراری) استفاده می کنیم.

Robots.txt در مقابل دستورات متا

چرا به جای استفاده از تگ متای “بدون فهرست No Index” برای مسدود کردن صفحات، باید از فایل robots.txt بهره ببریم؟

همان‌طور که پیش‌تر اشاره کردم، اعمال تگ “بدون فهرست” روی منابع چندرسانه‌ای مثل فیلم‌ها و فایل‌های PDF کار چندان ساده‌ای نیست.

علاوه بر این، اگر تعداد صفحات مورد نظر برای مسدود کردن بسیار زیاد باشد، گاهی مسدود کردن کل بخش خاصی از سایت با استفاده از فایل robots.txt نسبت به افزودن دستی تگ “بدون فهرست” به تک‌تک صفحات، روش ساده‌تری است.

همچنین، در برخی موارد خاص، بهتر است از هدر رفتن بودجه خزش گوگل روی صفحاتی که تگ “بدون فهرست” دارند، جلوگیری کنیم.

با این حال، با وجود این سه مورد استثنا، توصیه من استفاده از دستورات متا به جای فایل robots.txt است. پیاده‌سازی دستورات متا ساده‌تر است و احتمال بروز مشکلات جدی مثل مسدود شدن کل سایت نیز کمتر می‌شود.

4.7/5 - (3 امتیاز)