فایل Robots.txt چیست؟ اهمیت و آموزش ساخت فایل ربات سایت
نویسنده پست:
محمدمهدی خارکن
دستهبندی:
تاریخ پست:
آبان 3, 1401
تعداد بازدید
8,469
فایل Robots.txt در حقیقت یک فایلی است که دارای محتویاتی مشخص و چارچوببندی شده است، بر اساس این محتویات که در فایل Robots.txt قرار میگیرد، موتورهای جستجو متوجه برخی از دستورالعملهایی که برایشان مشخص شده است میشوند و اقدامات لازم را انجام میدهند. در ادامه این نوشته به بررسی دقیقتر و عمیقتری از فایل Robots.txt میپردازیم. اهمیت استفاده از فایل Robots.txt برای یک سایت از آن جهت است که شما میتوانید مدیریتی درست و ساختارمند بر روی سایت خود و محتواها و صفحات مختلف آن داشته باشید. برای پیدا کردن یک شناخت بهتر نسبت به فایل Robots.txt در ادامه همراه ما باشید.
کاربرد دقیق فایل Robots.txt در یک سایت چیست؟
موتورهای جستجوگر شناخته شده نظیر گوگل، بینگ و… این توانایی را دارند که با بررسی محتویات فایل Robots.txt درک بهتری نسبت به ساختار یک سایت پیدا کنند و از برخی دستورات داده شده پیروی کنند. محتویات فایل Robots. txt شامل برخی از دستورالعملها میباشد که بر اساس آن یک موتور جستجو متوجه میشود که باید یک صفحه را در نتایج خود ایندکس کند یا خیر و یا اینکه پی میبرد آیا باید عکسهای موجود در یک صفحه از سایت را در نتایج تصویری به نمایش بگذارد یا خیر، همچنین با استفاده از آن میتوانیم فالو یا نو فالو بودن لینکهای موجود در یک صفحه را مشخص کنیم. Robots.txt مخفف شده عبارت Robots Exclusion Protocol میباشد که به معنی پروتکل حذف ربات میباشد.
فایل Robots.txt در کجا قرار میگیرد؟
فایل Robots.txt دارای اهمیت زیادی میباشد، بنابراین محل قرارگیری آن و حتی شیوه نامگذاری آن بسیار مهم است. این فایل باید در بخش Public_html سایت شما قرار گیرد. از نظر نامگذاری این فایل، باید حواستان به حروف بزرگ و کوچک باشد. به صورت پیش فرض آدرس محل قرارگیری فایل Robots.txt به این شکل است: xyz. ir/Robots.txt
مزایای استفاده از فایل Robots.txt چیست؟
قطعاً استفاده از Robots.txt برای سایت یک سری مزایایی را به همراه خواهد داشت، برای مثال یکی از این مزایا عبارت است از بهینهسازی بودجه خزش یا همان Crawl Budget. با استفاده از فایل Robots.txt همانطور که گفته شد، شما میتوانید به خزندههای موتورهای جستجو دستوراتی را بدهید تا با پیروی از آن درک صحیحتری از سایت شما داشته باشند. یکی از مشکلاتی که برای سایتها پیش میآید و عملاً جز ماموریتهای یک متخصص سئو میباشد، این است که نهایت استفاده از بودجه خزش را بکند، از این رو با مسدود کردن برخی از پیشفرضهای صفحات سایت میتواند این امر را محقق کند. طرز پیادهسازی این کار به این شکل است که، برخی از صفحات بیاهمیت و یا کم اهمیت سایت را روی حالت نو ایندکس(no index) قرار میدهیم و با پیادهسازی این حرکت، بودجه خزش ما خرج صفحات اصلی سایت میشود.
یکی دیگر از مزایای استفاده از فایل Robots.txt عبارت است از اینکه محتواهای تکراری سایت را بتواند حذف کند، برای مثال همانطور که به احتمال زیاد مشاهده کردهاید، در سایتهای فروشگاهی شما میتوانید با استفاده از فیلتر مجموعهای مشخص از محصولات را برای خد لیست کنید، این فیلتر کردن محصولات باعث میشود تا رشتههایی به حالت Query String به انتهای آدرس صفحه مد نظر شما اضافه شود و در واقع باعث شود که خزندههای گوگل آن را یک صفحه تکراری به حساب بیاورند و این موضوع بر روی سئو سایت شما تأثیرگذار خواهد بود، در صورتی که میتوانید با استفاده از فایل Robots.txt این امر را کنترل کنید.
معایب استفاه از فایل Robots.txt چیست؟
یکی از معایبی که استفاده از فایل Robots.txt دارد این است که اگر ما صفحهای را روی حالت نو ایندکس قرار دهیم، آن صفحه توسط خزندههای موتور جستجو مورد بررسی و ارزیابی قرار نخواهند گرفت و بر اساس الگوریتمهایی که موجود میباشد، اگر محتویات یک صفحه نتواند مورد بررسی و ارزیابی قرار بگیرد، آن صفحه نمیتواند اعتباری نزد گوگل داشته باشد و همچنین نمیتواند اعتباری را به دیگر صفحات سایت منتقل کند.
ساختار یک فایل Robots.txt چگونه است؟
یک فایل Robots.txt دارای ساختاری میباشد که در صورتی که این ساختار دچار اختلالی باشد، شاید اصلاً کاربردی را که باید داشته باشد را از دست بدهد. در ادامه به بخشهای مختلف یک فایل Robots.txt اشاره میکنیم و توضیحاتی را در رابطه با هر بخش خدمت شما همراهان گرامی ارائه میکنیم.
بخش user-agent: هر شخص یا بهتر است بگوییم هر سیستمی در فضای وب دارای یک user-agent میباشد و این یوز-ایجنت به مرورگرها کمک میکند تا اطلاعاتی سازگار با دستگاه یا Device شما را برایتان به نمایش بگذارند. در واقع user-agent شامل اطلاعاتی نظیر نوع مرورگر، سیستم عامل است و حاوی اطلاعات شخصی فرد نیست. user-agent به ما کمک میکند تا انواع خزندههای موجود موتورهای جستجو را بشناسیم و برای هر کدام از آنها در فایل Robots.txt دستورالعملهای مشخصی را صادر کنیم.
user-agent: mediapartners-Google متعلق به شبکه تبلیغات گوگل است و ما میتوانیم دسترسیهای این ربات را در فایل Robots.txt تغییر دهیم و بر اساس آنچه مد نظرمان است، چیدمان کنیم.
user-agent: * نمایانگر این است که تمامی رباتهای خزنده مد نظر هستند.
نتیجهگیری
در این مقاله در گروه تحقیقاتی خارکن سعی ما بر این بود که شما را به صورت کامل و خیلی ساده با موضوع چستی و چگونگی عملکرد فایل Robots.txt آشنا کنیم. در پی صحبتهایی که در بالا کردیم پی بردیم که حضور فایل Robots.txt برای یک سایت بسیار ضروری و حیاتی است و ما میتوانیم با کمک آن روی صفحات سایتمان و میزان دسترسی خزندههای گوگل به آن مدیریت داشته باشیم و همچنین با ساختاری که باید یک فایل Robots.txt داشته باشد نیز به صورت کلی آشنا شدیم و پی بردیم که با دستور العملهای مختلفی که برای فایل Robots.txt وجود دارد ما میتوانیم خزندههای مشخصی را انتخاب کنیم و برای هر کدام از آنها دستورالعملهای مشخصی را بنویسم و یا یکباره برای تمامی خزندهها این کار را انجام دهیم. در صورتی که برای شما درباره موارد دیگری از فایل Robots.txt سؤال وجود دارد، میتوانید سؤالتان را در بخش کامنتهای سایت با ما در میان بگذارید.