יום ראשון, 05 פברואר 2012
הפוך לעמוד הבית
  • חיפוש מאמרים באתר
  • חיפוש ב Google
  • חיפוש ב Yahoo
הרשמה

התחברות / התנתקות

הכנת זחלן-רשת (Web Spider) בפלאש PDF Print E-mail
נכתב על ידי אלעד כהן   
יום שלישי, 31 אוגוסט 2010 10:33

מהו זחלן-רשת?

 

זחלן-רשת הוא תוכנת מחשב שסורקת אתרי-אינטרנט בזה אחר זה ומבצעת פעולות המבוססות על התוכן הנמצא בדפי-האתרים. המעבר של זחלן-הרשת מאתר לאתר מבוצע ע"י זיהוי הקישורים החיצוניים (קישורים לאתרים אחרים) שנמצאים באתר הנוכחי שנסרק. לדוגמא, זחלן-הרשת מתחיל מכתובת של אתר אינטרנט ומבצע את הפעולות הבאות: קבלת קוד ה-HTML של העמוד הראשי באתר, ניתוח קוד ה-HTML, שליפת הקישורים (תגי ) וסיווג כל קישור כקישור שמוביל לעמוד אחר באותו האתר (קישור פנימי) או כקישור שמוביל לאתר אחר (קישור חיצוני), לאחר מכן ביצוע אותם הפעולות בעמוד הבא באתר (שנשלף מרשימת הקישורים הפנימיים). בתום סריקת דפי-האתר, הזחלן מתקדם לאתר הבא מתוך רשימת הקישורים החיצוניים שנוצרה. כך הזחלן סורק את הרשת, דף אחר דף, אתר אחר אתר.

זחלן-הרשת של גוגל


זחלן-הרשת של גוגל סורק את כל הדפים שנמצאים באינטרנט בתדירות שונה לכל אתר (בהתאם לקצב השינויים באתר). הרובוט שומר את קוד ה-HTML של העמודים כדי שבשלב מאוחר יותר, קוד זה ישמש כקלט של האלגוריתמים של גוגל, המדרגים את העמודים וקובעים את מיקומם בתוצאות החיפוש. כאשר מבוצעת בקשה לקבלת דף-אינטרנט משרת Web, היא מבוצעת בפרוטוקול HTTP, אחד השדות בפרוטוקול HTTP הוא השדה UserAgent המכיל מחרוזת שמזהה את התוכנה שביצעה את הבקשה (לדוגמא שם הדפדפן שהגולש משתמש בו). כשהזחלן של גוגל מבקש דף-אינטרנט, בשדה UserAgent מופיעה המחרוזת Googlebot. שרת ה-Web יכול לדעת מהו ערך השדה UserAgent ולפיכך לדעת מתי הזחלן של גוגל סרק כל עמוד.

איך להכין זחלן-רשת בפלאש


ניתן להכין זחלן-רשת בפלאש (בשפת AS3) ע"י שימוש במחלקה URLLoader.

 

סדר הפעולות ליצירת זחלן-רשת:

 

א. שימוש במחלקה URLLoader כדי לקבל את קוד ה-HTML של דף האינטרנט הראשון ממנו הזחלן יתחיל לפעול. קוד ה-HTML מתקבל באמצעות הגדרת האירוע Event.COMPLETE.

 

ב. ניתוח קוד ה-HTML ע"י שימוש ב: Regular Expressions, indexOf, lastIndexOf, substr, substring כדי לשלוף את כל הקישורים הפנימיים (שמובילים לדפים אחרים בתוך האתר) והקישורים החיצוניים (שמובילים לאתרים אחרים).

 

ג. ביצוע פעולות שונות בהתאם למטרות הזחלן, הקלט של הפעולות הוא קוד ה-HTML של העמוד.

 

ד. שימוש ב-URLLoader שוב בצורה רקורסיבית על פני כל אחד מהעמודים ברשימת הקישורים הפנימיים ולאחר סריקת כל עמודי האתר, מעבר לאתר חדש.
 
מאמרים נוספים :

» כתיבה שיווקית

  כתיבה שיווקית ברשת האינטרנט היא מפתח הפותח לכם דלת גדולה וקסומה אל עבר מאות מיליונים של לקוחות פוטנציאליים. אתם בטח תוהים מדוע וכיצד. היא כלי פרסומי שלא הומצא בעידן האינטרנט. כתיבה שיווקית היא כלי בו משתמש עולם הפרסום מאז ומתמיד, אך ישנם שני הבדלים מהותיים בין כתיבה...

» עיצוב אתרים

  כבר שנים שאני מנהל את העסק שלי דרך אתר אינטרנט. אין ספק שהרווחים נאים אך בזמן האחרון הרגשתי שזה לא מספיק. הלקוחות אותם לקוחות והגעתי לאיזון שלא מספק אותי יותר. הפער בין הכניסות לאתר לבין הרכישות היה גדול. הרגשתי שאני צריך לשנות משהו. התייעצתי עם חבר יקר והוא אמר לי בכנות...

» פרסום באינטרנט

  בשנים האחרונות, עבר טרנספורמציה של ממש. אם בעבר המפרסמים היו בוחרים כברירת מחדל לפרסם את מוצריהם אצל העיתונים, בשילוט חוצות, רשתות הטלוויזיה וברדיו, אז בשנות האלפיים כללי המשחק השתנו לגמרי. פרסום באינטרנט לקח את הבכורה, ובגדול. לא זו בלבד, אלא שעל פי כל התחזיות, פרסום...

» פרסום בגוגל

  קחו לעצמכם רגע ונסו לדמיין אינטרנט נטול הדבר הזה שנקרא גוגל. קשה, נכון? מומחים רבים של מגדילים לעשות וטוענים כי גוגל זה האינטרנט. יש מידה רבה של צדק בגישה שכזו, הרי שאם בן אדם צריך למצוא משהו באינטרנט ברוב המכריע של המקרים הוא לא יגלוש לאתר אחר פרט לגוגל בשביל תשובות...

» קורס קידום אתרים

קורס הוא קורס המלמד ומכשיר את הלומדים אותו לקדם אתרי אינטרנט במנועי החיפוש. כשכגולשי אינטרנט מחפשים מילות חיפוש במנוע חיפוש הם לרוב ייכנסו לאתרים הראשונים אליהם הם מגיעים. הוא למעשה קורס בשיווק אתרי אינטרנט. העובר את קורס קידום אתרים יכול לשווק ולקדם את אתר האינטרנט שלו...
מאמרים - עמוד הבית

כל הזכויות שמורות לאתר הגאון - מבית אקטיביטק קידום אתרים

Copyright © 2012. Joomla!. Designed by Shape5.com