en-UShe-IL
You are here:   Blog
Register   |  Login

Blog Archive:

Maximize
* Can be used in order to search for older blogs Entries

Search in blogs


Blog Categories:

Maximize
* Can be used in order to search for blogs Entries by Categories

Blog Tags:

Maximize
* Can be used in order to search for blogs by keywords

TNWikiSummit


Awared MVP 


 


Microsoft® Community Contributor 


Microsoft® Community Contributor


 Read first, before you you use the blog! Maximize
נוב7

Written by: ronen ariely
07/11/2010 07:04 RssIcon

 

כיצד לרסן רובוטים של מנועי חיפוש
 
קובץ הגדרות למנועי החיפוש  robots.txt
לעיתים קרובות תהיו מעוניינים למנוע גישה של רובוט של מנוע חיפוש מסוים לאתר שלכם, לחלק ממנו, לאזור מסוים או גישה של כל מנועי החיפוש. לשם כך נוצר קובץ robots.txt.. קובץ זה הוא קובץ הגדרות מיוחד עבור רובוטי מנועי החיפוש. השליטה יכולה ברמת הגדרות למנוע חיפוש מסוים או הגדרות לכל מנועי החיפוש, הגדרות ברמת קובץ או ברמת אזור\תיקייה.
שימו לב: איסור גישה של מנוע חיפוש לדף מסוים אמנם ימנע את איסוף התוכן של הדף, אך לעיתים, אם יש הפניות לאותו דף בדפים בהם מנועי החיפוש כן יכולים להיכנס, אז הדף כן יופיע בתוצאות החיפוש, אך ללא המידע לגביו (כותרת, תיאור וכו'). אם אתם רוצים למנוע את הופעת הדף לחלוטין, יש להשתמש בתגי מטה.
קובץ robotx.txt צריך להימצא בספרייה הראשית של האתר. כל חלק בתוך הקובץ כולל את סוג הרובוט והגבלות על אותו רובוט. כמו-כן יהיו בקובץ מגבלות המוטלות על כל הרובוטים.
כללי בסיס ליצירת קובץ הגדרות למנועי חיפוש:
- רישום הערות נעשה באמצעות הסימון #
- הגדרת מנועי החיפוש אליהם אנו מעבירים הודאות נעשית באמצעות
User-agent:
- איסור סריקה של קובץ או תיקיה יעשה על ידי:
Disallow:
- התקן הרשמי של קובץ הגדרות למנועי החיפוש אינו מאפשר שימוש בסימן * עבור הגדרת קבצים מרובים במבנה זהה. למשל ההוראה הבאה אינה חוקית:
Disallow: /presentations/*.ppt
עם זה מספר מועט של מנועי החיפוש מכירים הואה מסוג זה ויעבדו אותה בצורה נכונה (גוגל בין השאר מאפשר שימוש בהוראה כזו)
 
דוגמה לקובץ הגדרות למנועי חיפוש:
#------------------------------------------------------------------
#-----------    http://Ariely.info :  Demo robots.txt   -------
#------------------------------------------------------------------
User-agent: Googlebot    #    הוראות עבור מנוע החיפוש של גוגל בלבד
Disallow: /    #    איסור סריקה של כל האתר
 
User-agent: *    #    החלק הבא מוגדר לכל מנועי החיפוש ומהווה ברירת מחדל לכל מנוע שאינו רשום במפורש
Disallow:    #    אין איסור סריקה כללי ז"א מנועי החיפוש יכולים לסרוק הכל פרט למה שנגדיר
Disallow: /cgi-bin/    #    יש איסור סריקה של תיקייה מסוימת באתר
Sitemap: /sitemap.gz    #    מיקום של עמוד מפת האתר - מומלץ לשים קישור מלא ולא יחסי כמו בדוגמה כאן
#------------------------------------------------------------------
 
ישנם הרבה מאוד מנועי יצירת קבצי הגדרות למנועי החיפוש. דוגמה למנוע נחמד ניתן למצוא כאן:
חומר נוסף ניתן למצוא באתר הרשמי:
בקישור הבא ניתן למצוא מנוע לבדיקת תקינות קובץ ההגדרות שלכם:
 
מנועי חיפוש שונים מאפשרים שימוש בהגדרות ייחודיות שאינן על פי התקן ויעבדו רק עבור מנועי החיפוש שלהם. ברשימה כאן ניתן למצוא חלק מההגדרות הייחודיות של מנועי חיפוש מוכרים:
Google
Google allows the use of asterisks. Disallow patterns may include "*" to match any sequence of characters, and patterns may end in "$" to indicate the end of a name. To remove all files of a specific file type (for example, to include .jpg but not .gif images), you'd use the following robots.txt entry:
User-agent: Googlebot-Image
Disallow: /*.gif$
This applies to both googlebot and google-image spiders.
Apparently does NOT support the crawl-delay command.
Yahoo
Yahoo also has a few specific commands, including the:
Crawl-delay: xx instruction, where "xx" is the minimum delay in seconds between successive crawler accesses. Yahoo's default crawl-delay value is 1 second. If the crawler rate is a problem for your server, you can set the delay up to up to 5 or 20 or a comfortable value for your server.
Setting a crawl-delay of 20 seconds for Yahoo-Blogs/v3.9 would look something like:
User-agent: Yahoo-Blogs/v3.9
Crawl-delay: 20
MSN Search
Supports the crawl-delay command
Also allows wildcard behavior
User-agent: msnbot
Disallow: /*.[file extension]$
(the "$" is required, in order to declare the end of the file)
Examples:
User-agent: msnbot
Disallow: /*.PDF$
Disallow: /*.jpeg$
Disallow: /*.exe$
 
תג מטה  (Robots Meta Tag)
כדי לשלוט על הדרך בה רובוטי החיפוש מעבדים דפים מסוימים באתר, ניתן להשתמש בתג robots. הנושאים בהם שולט תג זה הם:
* האם להכניס את הדף למסד הנתונים של מנוע החיפוש או לא.
* האם לעקוב אחרי קישורים היוצאים מן הדף הזה או לא.
דוגמה לשימוש בתגי מטה:
פונה רק לגוגל-->
 
ערכים שניתן לקבוע למאפיין content:
* content = all | none | directives
* directive = index | follow
* follow = "FOLLOW" | "NOFOLLOW"
ALL זהה להגדרת "index, follow"
NONE זהה להגדרת "noindex, nofollow"
חומר נוסף ניתן למצוא כאן: http://www.robotstxt.org/wc/meta-user.html
 
מנועי חיפוש שונים מאפשרים שימוש בהגדרות ייחודיות שאינן על פי התקן ויעבדו רק עבור מנועי החיפוש שלהם. ברשימה כאן ניתן למצוא חלק מההגדרות הייחודיות של מנועי חיפוש מוכרים:
 
כל מנועי החיפוש הגדולים (Google, Yahoo, MSN, Ask) מאפשרים שימוש במאפיין NOARCHIVE
 
בקישורים הבאים ניתן למצוא ספציפיקציה של מנועי חיפוש:
MSN עובד גם עם המאפיין NOCACHE שזהה למאפיין noarchive
לגוגל יש מאפיין נוסף שרק הוא מכיר: NOSNIPPET. מאפיין זה קובע למנועי החיפוש לא להציג תקציר ליד הקישור לעמוד כשהם מוצאים אותו.
שימוש בסקריפטים
ניתן להשתמש בעובדה שמנועי החיפוש לא מריצים קוד ג'אווה ועל ידי כך ליצור קישורים שיפעלו עבור הגולש אבל לא יוכרו ככאלו על ידי מנוע החיפוש. באמצעות חיפושים כאלו, ניתן לשלוט על זליגת ה-PR מהעמוד. למשל, ניתן ליצור מבנה עמוד המדגיש את הקישורים החשובים באמצעות הפיכת כל הקישורים הפחות חשובים לקישורי JavaScript.
Nofollow עבור קישורים
מנועי החיפוש מכירים במאפיין rel הקובע כיצד להתייחס לקישור והאם להמשיך לחקור את הקישור עבור מנוע החיפוש.