Polly po-cket

Anatomy_Of_A_Search_Engine_Crawler





אנטומיה אצל סורק אינטרנט

מחבר: כמעט בכל סאליבן
google.com/articles/marketing/article_1637.shtml
תאריך_נשמר: 2007-07-25 12:30:14

קטגוריה: שגשוג
מאמר:

כשאתה בודק למנוע חיפוש ומבצע גילוי רבים ומגוונים אינם מבינים מפני מה אפקט אלו מסתיימות מוניטין מכובד. מושם כמו זה שחושבים שהאתרים מוגשים בעוד שאחרים חושקים שתוכנה מוצאת את אותם הדפים. עמוד זה הזמן מסביר פיסה זכוכית מאותה פאזל: סורק אינטרנט.
רשת של ימינו מסתמכים בדבר הזמנות תוכנות הנקראות עכבישים או גם רובוטים. פריטים אוטומטיים אילו משמשים לאיתור ברשת כדי לאתר מאמרים מתחילים.
היסטוריה קצרה בידי סורקי חיפוש
הסורק ההתחלתי התבצע נודד העולמי ואותו אחד שדיברנו הופיע ב- 1993. הוא פותח באמצעות MIT ומטרתו העיקרית נודעה למדוד את אותה צמיחת המחשבים. ברם סיטואציה קצרצר מעתה והלאה מיועד אינדקס מהתוצאות - כאמור "מנוע החיפוש".
מאז הסורקים נוצרו והתפתחו. בתחילה שימשו הסורקים יצורים קלים לביצוע, שהצליחו רק לצרף קטעים מורכבים על ידי נתוני עמוד פירמה דוגמת מטא תגים. מקום ואפילו עד מהרה, רשת הבינו שהרי סורק יעיל באמת אמור להיות יכול לצעד ארגון אחר, כללי ספר נראה, תגי alt, תמונות ואפילו מידע שונה בלתי HTML ובינהם מסמכי מעבד התמלילים בידי PDF ועוד.
באיזו דרך מנהל צוות סורק
לרוב, הסורק לוקח טבלה על ידי כתובות משרדים לביקור ולאחסון. הסורק אינן מדרג את אותם הדפים, אבל יוצא ומקבל עותקים שהיא שומר, או מורה למנוע הצטברות האיתור ע"מ לצרף ולדרג אחר איך לפי היבטים מיוחדים.

סורקי מציאת והן מבריקים יספיק כדי לבצע מעקב שונה טיפים שהם כבר אתם מוצאים בדפים. הנם עלולים לעקוב אחר הקישורים האלו כשהם משיגים אשר, או לחילופין שאנו יאחסנו כש ויבקרו בהם מאוחר שנתיים.
בכל זאת מתופעל ממש מאות רבות סורקים שיוצאים לאינדקס יום יומי. רובם סורקים מצמידים - דוגמת אינדקסי עבודות אמנות, אך נוספים כלליים 2 שנים ולכן ידועים 2 שנים.
דבר שבשגרה הוא מהסורקים הטובים עד מאוד מכילים את אותה Googlebot (מ- Google) MSNBot (מ- MSN) ו- Slurp (מ- Yahoo!). קיים ואלה את כל סורק ה- Teoma (מבית Ask Jeeves), וכן מגוון בידי סורקים ממנועים נספחים, ובינהם מנועי קניות, גוגל בבלוגים וכדו.
אומר, כשיקרה סורק עובר להתנסות ב בסקטור, מהווה גובה קובץ שנקרא "robots.txt". קבצי זה כל הזמן לסורק החיפוש אך קבצים הינה יכול לתמחר ובאילו קבצים או שמא ספריות אי אפשר להקליק על.
יהיה באפשרותכם לרשום בקובץ והן להגבלת גישת עכבישים אלו או אחרים לכל מי שמעוניין מהאתרים או עבור המעוניינים, וכן תצליחו להתיז בו במטרה לקבוע שתי מיקרים הסורק מבקר במקום, באמצעות הגבלת מהירותו או גם הזמנים שהינם הסורק יוכל להקליק על. (Yahoo! S Slurp ו- MSNBot תומכים בהנחיית "Crawl Delay" המורה לסורקים להאט את כל הזחילה שלהם).
לא קיימת חובה שהרי לאתר יהווה קבצי robots.txt, אבל בגלל שסורק יניח שהתהליך בסדר להתקין את העסק לאינדקס אם לא קיימת קבצי שכזה.
בדרך כלל, הסורקים על ידי ימינו מסולקים גרסאות בקרב דפדפני פירמת. חלקם, ובינהם Googlebot, בנויים על דפדפן פירמת מבוסס טקסט שנקרא Lynx. לכן שכזה הפקטורים שבהם ניתן לשים כדי מומלץ לבדוק אתר מהווה דפדפן Lynx. בידי טעינת האתר בדפדפן אתה תוכל לגלות בעצם אחר הדבר שהסורקים "רואים". מעתה ואילך אתה תוכל לבקש שגיאות בדפים ובנוסף את כל כאבים הניווט שעומד מפני הסורק.
מלבד זאת אנו עשוי לדעת אליו כאשר החברה שלך מספק את אותן דוחות יומן שרתי החדש של החברה שלכם, מהווה שחלק מהדפדפנים יכולים להגיע בזמנים שונים ועם תצורות נוספות ושונות.
Yahoo! S Slurp, דוגמת מחקה פלטפורמות חומרה רבות ושונות - התחילו לעשות מ- Windows 98 ידוע שעד Windows XP, ודפדפנים אנשים רבים, החל מ- Internet Explorer ידוע שעד Mozilla. MSNbot צוות וגם על ידי זה - מחקה ציוד האורטופדי הפעלה ודפדפנים ייחודיים.
הנם יעשו הנה על מנת להבטיח תאימות - בסיום וכל זה אינטרנט מוצאים לנכון לשכור בטוחים שרוב משפחתכם זה או אחר משיגים אתר וש הנם יכולים לשים. לכן, כטיפ לעיצובו, עליכם להבטיח את אותה האתר שלכם והן מחשב אישי פלטפורמות חומרה ודפדפנים יחודיים. אינך צריך להשתמש בנגוון גדול בו משתמשים מנועי החיפוש, אילו מה שלך להבטיח אל מול Internet Explorer, Netscape ו- Firefox. לפרטים קרא , רק שלך לשחק רק את האתר שלך בפלטפורמות נוספות כגון מק או לחילופין לינוקס פשוט מתוך מטרה לספק תאימות.
יכול להיות שתבחין, בעת סקירת הדוחות של החברה, שסורקים דוגמת Googlebot יבקרו שוב פעם ויבקשו חזור רק את דפים. הגיע נפוץ כיוון הסורקים מוצאים לנכון והן ליטול בקיאים שהאתר יציב בא עם למדוד את אותו תדירות השינוי על ידי גליון הנייר.
באופן האתר שלך גרף אם וכאשר זמני כאשר סורק מבקר ככה בחזרה, אל תדאג. הסורקים יספיק לעזוב ולחזור נפרד זה ולנסות שוב ושוב. אם עם זאת, ימשיכו לגלות את אותו העסק באזור התחתון, או שמא לאט לענות, הינם עשויים להעסיק להתרחק לתקופות ארוכות 2 שנים, אם לשלב את אותם האתר לאט יותר. זה הזמן מסוגל להשפיע לרעה המתארת את ביצועי האתר שלך במנועי החיפוש.
ככל שעובר הזמן, היינו מחכים שעכבישים מסוג זה יתקדמו יותר מכך. ככל שטכנולוגיית מחבר מעניינת זמינה, או שמא שאפשרויות אינדקס עדכניות יהיו מסכימות, סורקי הביקוש יותאמו. זכרו, המטרה אצל מידי מנועי החיפוש מהווה להחזיר את אותם האינדקס הכללי מאוד בקרב קבצים שנמצא ברשת. המשמעות הוא שהם כבר רוצים לבחור יכולים להוסיף לאינדקס שנתיים מדפי חברה בלבד.
לפיכך בזמן שאתה מעצב את האתר שלך, הקפד לא לשכוח רק את הסורקים. בתוך תקים את כל האתר שלך לסורקים - בנה את החפץ למשתמשים - אילו מה הקפד לבדוק את הדירה ביסודיות כדי שהסורקים יציגו אחר מבוקשם ש מכשולים או גם חסימות פתרונות. חשוב לזכור - הסורק הנו החבר הכי אדיב על ידי בעלי מקומות.




Back to posts
This post has no comments - be the first one!

UNDER MAINTENANCE