robots.txt – איך לדבר עם הרובוטים של מנועי החיפוש?
ניר אזולאי,
בואו נדבר עם הרובוטים של מנועי החיפוש בשפה שלהם!
בעבר היה לנו את דפי זהב או מקומון – היינו כותבים מספר מילים על העסק שלנו, מנפים את המידע החשוב ביותר, וגמרנו.
היום כל המידע על העסק \ בלוג \ עלינו נמצא אונליין ברחבי הרשת, ומנועי החיפוש ובראשם Google סורקים אותם על מנת לאתר מידע לגבי העסק שלנו, למשל את מספר הטלפון שלנו עבור הגולשים.
אין ספק, זה נוח, קל ומעולה אבל קיימים מקרים בהם ניהיה מעוניינים שמנועי החיפוש לא יסרקו עמוד מסוים (לא משנה מהי הסיבה, יכולות להיות מספר סיבות) – בדיוק לצורך כך קיים הקובץ robots.txt.
מהו בעצם robots.txt?
קובץ robots.txt אמור להיות ממוקם בתיקייה הראשית של האתר שלכם (https://www.upress.co.il/robots.txt), והוא הקובץ המנחה את מנועי החיפוש והוא אמור לסייע להם להחליט לאילו חלקים באתר הם אמורים להימנע מלהיכנס, מעיין שומר ראש אלקטרוני על האתר שלכם. כאשר מנוע החיפוש סורק את האתר שלכם, הוא בודק קודם את ההנחיות המצויות בקובץ הזה.
לצורך העניין, הדוגמא הבאה תבקש מהרובוט של מנוע החיפוש לאנדקס את כלל העמודים באתר:
User-Agent: * Allow:/
תרגום קצר:
- User-Agent: לאילו Users הניגשים לאתר אנחנו מעוניינים למנוע \ לאפשר גישה (User-Agent הוא הדרך של הדפדפן להזדהות כשהוא ניגש לאתר מסויים)
- Disallow: לאילו חלקים באתר אנו מעוניינים למנוע גישה עבור אותם רובוטים שצוינו.
- Allow: לאילו חלקים באתר אנו מעוניינים לאפשר גישה עבור אותם רובוטים שצוינו.
למה זה טוב?
לרוב קובץ robots.txt נועד עבור מנועי חיפוש שאיננו רוצים שיסרקו תיקיות ניהול, קודים וסקריפטים.
בנוסף יש מצבים בהם נרצה לחסום גם אזורים אשר נראים לעין הגולש מכמה סיבות:
זהירות כאן בונים
כאשר אנו בונים אתר, או לחילופין מעדכנים ומשנים את האתר, לא נרצה שהגולשים יחשפו לעבודה הלא מוגמרת.
לכן נבקש ממנוע החיפוש לא לאנדקס את העמוד עליו אנו עובדים. חשוב לציין שלאחר שהעבודה הסתיימה יש לשחרר את החסימה ולא, מנוע החיפוש לא יסרוק ולא יראה את הדף – זוהי טעות נפוצה מאוד בעת סיום בניית אתרים ועלייתו לאוויר.
לא פעם כאשר לקוח מגיע אלינו עם טענה מהסוג של "האתר שלי לא מופיע בגוגל", הפעולה הראשונה שאנו מבצעים היא להציץ בקובץ robots.txt ולוודא שהוא כתוב בצורה תקינה.
Less is More
סיבה נוספת שנרצה להשתמש בחסימת סריקה היא עמודים שאינך רוצה שגוגל יאנדקס אותם שקיימים היום בכל אתר תוכן לדוגמא דפי פרופיל משתמש, דף חיפוש, דף כתיבת הודעה חדשה, דף ההתחברות למערכת ועוד.
סיבה נוספת לכך שתיתכן כי אנו לא מעוניינים שתדירות הסריקה של גוגל בשרת תהיה גבוהה מדי, או שאנחנו לא רוצים לבזבז את "תקציב הסריקה" על סריקת עמודים שאינם חשובים, או על עמודים דומים החוזרים על עצמם באתר.
מספר דגשים חשובים
יש לזכור: הוראת robots.txt היא בגדר הנחייה בלבד! יתכן כי הרובוטים של Google יצייתו להנחיות הללו, אך סורקים של מנועי חיפוש אחרים לא.
לכן אם ברצונכם לחסום לחלוטין גישה לעמודים מסויימים, מומלץ להגן עליהם באמצעות סיסמה, או להפוך אותם לפרטיים. (ניתן לקרוא לגבי הנושא בפוסט – כיצד להגן על הפוסטים או העמודים שלכם באמצעות סיסמה)
חסימת גישה של מנוע חיפוש לעמוד מסוים אמנם תימנע את איסוף התוכן של העמוד. אך לפעמים, במידה וקיימות הפניות (קישורים) לאותו עמוד בעמודים אחרים בהם מנועי החיפוש כן יכולים להיכנס, אז העמוד כן יופיע בתוצאות החיפוש, אך ללא המידע לגביו (כותרת העמוד, תיאור העמוד וכו').
כיצד משתמשים?
למעשה, אופן השימוש הוא די פשוט, ואלו הפרטים:
- ראשית יוצרים קובץ שנקרא – robots.txt – מומלץ להשתמש בעורך טקסט notepad פשוט.
- מזינים בו את הפקודות החשובות שנרצה לבקש ממנועי החיפוש (אילו חלקים באתר לסרוק ואילו לא).
- מעלים את הקובץ לתיקייה הראשית של האתר יחד עם כל שאר הקבצים והתיקיות (public_html או Home).
הקובץ חייב להופיע בנתיב הבא בלבד: https://www.upress.co.il/robots.txt ולא תחת תיקיה פנימית. - ניתן לבדוק את תקינות הקובץ באמצעות כלי ה Webmasters Tools או בשמו העדכני Google Search Console (במידה ויש לכם חשבון קיים) -> לשונית סריקה -> בודק robots.txt.
להלן, מספר דוגמאות לשימוש:
במידה ונרצה למנוע סריקה של תקיה ספציפית:
User-Agent: * Disallow:/folder/
במידה ונרצה למנוע סריקה של קובץ ספציפי:
User-Agent: * Disallow:/folder/filename.html
במידה ונרצה למנוע סריקה של תקיה ספציפית, ובתוכה כן לסרוק קובץ ספציפי:
User-Agent: * Disallow:/folder/ Allow:/folder/filename.html
לסיכום, החיים קלים יותר עם רובוט
ניסנו להסביר במאמר מהו קובץ robots.txt, את חשיבותו ואת אופן השימוש.
החיים הרבה יותר קלים עם רובוט, כדאי שיהיה לכם קובץ robots.txt גם אם אין לכם מה להסתיר, כיוון שמנועי החיפוש מחפשים קובץ זה בכל פעם שהם ניגשים לסרוק אתר,
במידה והקובץ חסר – מנועי החיפוש עלולים לא להבין את "כוונת המשורר" או במקרה הזה בונה האתרים.
מקווים שהצלחנו להסביר זאת בצורה הכי מובנת וברורה, נשמח לשמוע את דעתכם בתגובות וכמובן לענות על שאלות.