فایل Robots.txt چیست؟

فایل Robots.txt چیست؟ اهمیت و آموزش ساخت فایل ربات سایت

نویسنده پست:

محمدمهدی خارکن

تاریخ پست:

آبان 3, 1401

تعداد بازدید

8,469

مقاله را به اشتراک بگذار

فایل Robots.txt در حقیقت یک فایلی است که دارای محتویاتی مشخص و چارچوب‌بندی شده است، بر اساس این محتویات که در فایل Robots.txt قرار می‌گیرد، موتور‌های جستجو متوجه برخی از دستورالعمل‌هایی که برایشان مشخص شده است می‌شوند و اقدامات لازم را انجام می‌دهند. در ادامه این نوشته به بررسی دقیق‌تر و عمیق‌تری از فایل Robots.txt می‌پردازیم. اهمیت استفاده از فایل Robots.txt برای یک سایت از آن جهت است که شما می‌توانید مدیریتی درست و ساختارمند بر روی سایت خود و محتوا‌ها و صفحات مختلف آن داشته باشید. برای پیدا کردن یک شناخت بهتر نسبت به فایل Robots.txt در ادامه همراه ما باشید.

کاربرد دقیق فایل Robots.txt در یک سایت چیست؟

موتور‌های جستجوگر شناخته شده نظیر گوگل، بینگ و… این توانایی را دارند که با بررسی محتویات فایل Robots.txt درک بهتری نسبت به ساختار یک سایت پیدا کنند و از برخی دستورات داده شده پیروی کنند. محتویات فایل Robots. txt شامل برخی از دستورالعمل‌ها می‌باشد که بر اساس آن یک موتور جستجو متوجه می‌شود که باید یک صفحه را در نتایج خود ایندکس کند یا خیر و یا اینکه پی می‌برد آیا باید عکس‌های موجود در یک صفحه از سایت را در نتایج تصویری به نمایش بگذارد یا خیر، همچنین با استفاده از آن می‌توانیم فالو یا نو فالو بودن لینک‌های موجود در یک صفحه را مشخص کنیم. Robots.txt مخفف شده عبارت Robots Exclusion Protocol می‌باشد که به معنی پروتکل حذف ربات می‌باشد.

فایل Robots.txt در کجا قرار می‌گیرد؟

فایل Robots.txt دارای اهمیت زیادی می‌باشد، بنابراین محل قرارگیری آن و حتی شیوه نام‌گذاری آن بسیار مهم است. این فایل باید در بخش Public_html سایت شما قرار گیرد. از نظر نام‌گذاری این فایل، باید حواستان به حروف بزرگ و کوچک باشد. به صورت پیش فرض آدرس محل قرار‌گیری فایل Robots.txt به این شکل است: xyz. ir/Robots.txt

مزایای استفاده از فایل Robots.txt چیست؟

قطعاً استفاده از Robots.txt برای سایت یک سری مزایایی را به همراه خواهد داشت، برای مثال یکی از این مزایا عبارت است از بهینه‌سازی بودجه خزش یا همان Crawl Budget. با استفاده از فایل Robots.txt همانطور که گفته شد، شما می‌توانید به خزنده‌های موتور‌های جستجو دستوراتی را بدهید تا با پیروی از آن درک صحیح‌تری از سایت شما داشته باشند. یکی از مشکلاتی که برای سایت‌ها پیش می‌آید و عملاً جز ماموریت‌های یک متخصص سئو می‌باشد، این است که نهایت استفاده از بودجه خزش را بکند، از این رو با مسدود کردن برخی از پیشفرض‌های صفحات سایت می‌تواند این امر را محقق کند. طرز پیاده‌سازی این کار به این شکل است که، برخی از صفحات بی‌اهمیت و یا کم اهمیت سایت را روی حالت نو ایندکس(no index) قرار می‌دهیم و با پیاده‌سازی این حرکت، بودجه خزش ما خرج صفحات اصلی سایت می‌شود.

یکی دیگر از مزایای استفاده از فایل Robots.txt عبارت است از اینکه محتوا‌های تکراری سایت را بتواند حذف کند، برای مثال همانطور که به احتمال زیاد مشاهده کرده‌اید، در سایت‌های فروشگاهی شما می‌توانید با استفاده از فیلتر مجموعه‌ای مشخص از محصولات را برای خد لیست کنید، این فیلتر کردن محصولات باعث می‌شود تا رشته‌هایی به حالت Query String به انتهای آدرس صفحه مد نظر شما اضافه شود و در واقع باعث شود که خزنده‌های گوگل آن را یک صفحه تکراری به حساب بیاورند و این موضوع بر روی سئو سایت شما تأثیر‌گذار خواهد بود، در صورتی که می‌توانید با استفاده از فایل Robots.txt این امر را کنترل کنید.

معایب استفاه از فایل Robots.txt چیست؟

یکی از معایبی که استفاده از فایل Robots.txt دارد این است که اگر ما صفحه‌ای را روی حالت نو ایندکس قرار دهیم، آن صفحه توسط خزنده‌های موتور جستجو مورد بررسی و ارزیابی قرار نخواهند گرفت و بر اساس الگوریتم‌هایی که موجود می‌باشد، اگر محتویات یک صفحه نتواند مورد بررسی و ارزیابی قرار بگیرد، آن صفحه نمی‌تواند اعتباری نزد گوگل داشته باشد و همچنین نمی‌تواند اعتباری را به دیگر صفحات سایت منتقل کند.

ساختار یک فایل Robots.txt چگونه است؟

یک فایل Robots.txt دارای ساختاری می‌باشد که در صورتی که این ساختار دچار اختلالی باشد، شاید اصلاً کاربردی را که باید داشته باشد را از دست بدهد. در ادامه به بخش‌های مختلف یک فایل Robots.txt اشاره می‌کنیم و توضیحاتی را در رابطه با هر بخش خدمت شما همراهان گرامی ارائه می‌کنیم.

بخش user-agent: هر شخص یا بهتر است بگوییم هر سیستمی در فضای وب دارای یک user-agent می‌باشد و این یوز-ایجنت به مرورگر‌ها کمک می‌کند تا اطلاعاتی سازگار با دستگاه یا Device شما را برایتان به نمایش بگذارند. در واقع user-agent شامل اطلاعاتی نظیر نوع مرورگر، سیستم عامل است و حاوی اطلاعات شخصی فرد نیست. user-agent به ما کمک می‌کند تا انواع خزنده‌های موجود موتور‌های جستجو را بشناسیم و برای هر کدام از آن‌ها در فایل Robots.txt دستورالعمل‌های مشخصی را صادر کنیم.

user-agent: mediapartners-Google متعلق به شبکه تبلیغات گوگل است و ما می‌توانیم دسترسی‌های این ربات را در فایل Robots.txt تغییر دهیم و بر اساس آنچه مد نظرمان است، چیدمان کنیم.

user-agent: * نمایانگر این است که تمامی ربات‌های خزنده مد نظر هستند.

نتیجه‌گیری

در این مقاله در گروه تحقیقاتی خارکن سعی ما بر این بود که شما را به صورت کامل و خیلی ساده با موضوع چستی و چگونگی عملکرد فایل Robots.txt آشنا کنیم. در پی صحبت‌هایی که در بالا کردیم پی بردیم که حضور فایل Robots.txt برای یک سایت بسیار ضروری و حیاتی است و ما می‌توانیم با کمک آن روی صفحات سایتمان و میزان دسترسی خزنده‌های گوگل به آن مدیریت داشته باشیم و همچنین با ساختاری که باید یک فایل Robots.txt داشته باشد نیز به صورت کلی آشنا شدیم و پی بردیم که با دستور العمل‌های مختلفی که برای فایل Robots.txt وجود دارد ما می‌توانیم خزنده‌های مشخصی را انتخاب کنیم و برای هر کدام از آن‌ها دستورالعمل‌های مشخصی را بنویسم و یا یکباره برای تمامی خزنده‌ها این کار را انجام دهیم. در صورتی که برای شما درباره موارد دیگری از فایل Robots.txt سؤال وجود دارد، می‌توانید سؤالتان را در بخش کامنت‌های سایت با ما در میان بگذارید.