მოძებნეთ ობობები. მოძებნეთ რობოტები. როგორ მუშაობს საძიებო სისტემის რობოტები

24.11.2021

განმარტებები და ტერმინოლოგია
რობოტების სახელები
ცოტა ისტორია
რას აკეთებენ საძიებო სისტემების რობოტები?
რობოტების ქცევა საიტზე
რობოტის კონტროლი
დასკვნები

რა არის საძიებო სისტემის რობოტები? რა ფუნქციას ასრულებენ ისინინიატი? რა მახასიათებლები აქვს საძიებო რობოტების მუშაობას? ჩვენ აქ ვართჩვენ შევეცდებით ამ და სხვა კითხვებზე პასუხის გაცემას,ჩართულია რობოტების მუშაობაში.

განმარტებები და ტერმინოლოგია

ინგლისურში საძიებო რობოტების სახელების რამდენიმე ვარიანტია: რობოტები, ვებ-ბოტები, მცოცავი, ობობები; რუსულ ენაში ფაქტობრივად ერთი ტერმინი გაჩნდა - რობოტები ან მოკლედ ბოტები.

საიტზე www. robotstxt. org განსაზღვრავს რობოტებს შემდეგნაირად:

„ვებბოტი არის პროგრამა, რომელიც კვეთს WWW-ის ჰიპერტექსტის სტრუქტურას დოკუმენტების რეკურსიულად მოთხოვნითა და მოძიებით“.

საკვანძო სიტყვა ამ განმარტებაში არის რეკურსიულად,იმათ. ეს ნიშნავს, რომ დოკუმენტის მიღების შემდეგ რობოტი ითხოვს დოკუმენტებს მისგან ბმულების გამოყენებით და ა.შ.

სახელებირობოტები

საძიებო რობოტების უმეტესობას აქვს საკუთარი უნიკალური სახელი (გარდა იმ რობოტებისა, რომლებიც რატომღაც თავს იცვამენ მომხმარებლის ბრაუზერებში).

რობოტის სახელი შეგიძლიათ იხილოთ სერვერის ჟურნალის ფაილების მომხმარებლის აგენტის ველში, სერვერის სტატისტიკის სისტემის ანგარიშებში და საძიებო სისტემის დახმარების გვერდებზე.

ასე რომ, Yandex რობოტს ერთობლივად უწოდებენ Yandex, Rambler რობოტს არის StackRambler, Yahoo! - სლურპ და ა.შ. მომხმარებლის პროგრამებიც კი, რომლებიც აგროვებენ შინაარსს მოგვიანებით სანახავად, შეიძლება სპეციალურად იყოს წარმოდგენილი მომხმარებლის აგენტის ველში არსებული ინფორმაციის გამოყენებით.

რობოტის სახელის გარდა, მომხმარებლის აგენტის ველი შეიძლება შეიცავდეს დამატებით ინფორმაციას: რობოტის ვერსიას, დანიშნულებას და გვერდის მისამართს დამატებითი ინფორმაციით.

Ცოტამოთხრობები

ჯერ კიდევ 1990-იანი წლების პირველ ნახევარში, ინტერნეტის განვითარების დროს, გაჩნდა ვებ რობოტების პრობლემა, რომელიც დაკავშირებულია იმ ფაქტთან, რომ ზოგიერთმა პირველმა რობოტმა შეიძლება მნიშვნელოვნად ჩატვირთოს ვებ სერვერი, მის წარუმატებლობამდე. კეთება. დიდი რიცხვიმოთხოვნა საიტზე ძალიან მოკლე დროში. სისტემის ადმინისტრატორებმა და ვებ სერვერის ადმინისტრატორებმა არ შეძლეს აკონტროლონ რობოტის ქცევა თავიანთ საიტებში, მაგრამ მხოლოდ მთლიანად დახურეს რობოტის წვდომა არა მხოლოდ საიტზე, არამედ სერვერზეც.

1994 წელს შეიქმნა robots.txt პროტოკოლი, რომელიც ადგენს გამონაკლისებს რობოტებისთვის და საშუალებას აძლევს მომხმარებლებს გააკონტროლონ საძიებო რობოტები თავიანთ საიტებში. თქვენ წაიკითხეთ ამ მახასიათებლების შესახებ მე-6 თავში, „თქვენი საიტის ხელმისაწვდომობა საძიებო სისტემებისთვის“.

მომავალში, როგორც ვებ იზრდებოდა, გაიზარდა საძიებო რობოტების რაოდენობა და მათი ფუნქციონირება მუდმივად ფართოვდებოდა. Ზოგიერთი საძიებო რობოტებიდღემდე არ გადარჩა, დარჩა მხოლოდ 1990-იანი წლების ბოლოს სერვერის ჟურნალის ფაილების არქივებში. ვის ახსოვს ახლა T-Rex რობოტი, რომელიც აგროვებს ინფორმაციას Lycos სისტემისთვის? გადაშენებულია დინოზავრის მსგავსად, რომლის სახელიც მას ეწოდა. ან სად ვიპოვო სკუტერი - Altavista სისტემის რობოტი? არსად! მაგრამ 2002 წელს ის კვლავ აქტიურად ახორციელებდა დოკუმენტების ინდექსირებას.

Yandex-ის მთავარი რობოტის სახელითაც კი შეიძლება იხილოთ წარსული დღეების ექო: მისი სრული სახელის ფრაგმენტი „თავსებადი; Win16;” დაემატა ზოგიერთ ძველ ვებ სერვერთან თავსებადობისთვის.

Რაკეთებარობოტებიძებნასისტემები

რა ფუნქციების შესრულება შეუძლიათ რობოტებს?

საძიებო სისტემაში რამდენიმე განსხვავებული რობოტია და თითოეულს თავისი დანიშნულება აქვს. აქ მოცემულია რობოტების მიერ შესრულებული რამდენიმე დავალება:

მოთხოვნების დამუშავება და დოკუმენტების მოძიება;
ბმულის შემოწმება;
განახლებების მონიტორინგი, საიტის ან სერვერის ხელმისაწვდომობის შემოწმება;
გვერდების შინაარსის ანალიზი კონტექსტური რეკლამის შემდგომი განთავსებისთვის;
შინაარსის შეგროვება ალტერნატიულ ფორმატებში (გრაფიკა, მონაცემები RSSnAtom ფორმატებში).

მაგალითისთვის ავიღოთ Yandex რობოტების სია. Yandex იყენებს რამდენიმე ტიპის რობოტს სხვადასხვა ფუნქციით. მათი ამოცნობა შეგიძლიათ მომხმარებლის აგენტის სტრიქონით.

Yandex/1.01.001 (თავსებადი; Win 16; I) - მთავარი ინდექსირების რობოტი.
Yandex/1.01.001 (თავსებადი; Win 16; P) - გამოსახულების ინდექსატორი.
Yandex/1.01.001 (თავსებადი; Win 16; H) - რობოტი, რომელიც აღმოაჩენს ვებსაიტების სარკეებს.
Yandex/1.03.003 (თავსებადი; Win 16; D) - რობოტი, რომელიც წვდება გვერდზე, როდესაც მას დაემატება "URL-ის დამატება" ფორმის საშუალებით.
Yandex/1.03.000 (თავსებადი; Win 16; M) - რობოტი, რომელიც წვდება ბმულს "ნაპოვნი სიტყვები" გვერდის გახსნისას.
YandexBlog/0.99.101 (თავსებადი; DOS3.30; Mozilla/5.0; B;robot) - რობოტი, რომელიც ახდენს xml ფაილების ინდექსირებას ბლოგის საძიებლად.
YandexSomething/1.0 არის რობოტი, რომელიც ახდენს ახალი ამბების ინდექსირებას Yandex.News-ის პარტნიორებიდან და რობოტებიდან. txt ბლოგის მცოცავისთვის.

გარდა ამისა, Yandex-ს აქვს რამდენიმე შემმოწმებელი რობოტი - "უბრალოდ-თავი დაუქნია“,რომელიც მხოლოდ ამოწმებს დოკუმენტების ხელმისაწვდომობას, მაგრამ არ ახდენს მათ ინდექსირებას.

Yandex/2.01.000 (თავსებადი; Win 16; Dyatel; С) - Yandex.Catalog-ის „მარტივი ქნევა“. თუ საიტი რამდენიმე დღის განმავლობაში მიუწვდომელია, ის ამოღებულია გამოქვეყნებიდან. როგორც კი საიტი იწყებს რეაგირებას, ის ავტომატურად გამოჩნდება დირექტორიაში.
Yandex/2.01.000 (თავსებადი; Win 16; Dyatel; Z) - „მარტივი დახრილი“ Yandex.Bookmarks. მიუწვდომელი საიტების ბმულები მონიშნულია ნაცრისფერში.
Yandex/2.01.000 (თავსებადი; Win 16; Dyatel; D) - Yandex.Direct-ის „გლუვი როლიკერი“. ის ამოწმებს რეკლამებიდან ბმულების სისწორეს მოდერაციამდე.

თუმცა, ყველაზე გავრცელებული რობოტები არიან ისეთები, რომლებიც ითხოვენ, იღებენ და დაარქივებენ დოკუმენტებს სხვა საძიებო სისტემების მიერ შემდგომი დამუშავებისთვის. აქ მიზანშეწონილი იქნება რობოტის გამოყოფა ინდექსატორისგან.

მცოცავი გადის ვებსაიტებზე და იღებს დოკუმენტებს მისამართების შიდა სიის მიხედვით. ზოგიერთ შემთხვევაში, რობოტს შეუძლია შეასრულოს დოკუმენტის ძირითადი ანალიზი მისამართების სიის შესავსებად. დოკუმენტების შემდგომი დამუშავება და საძიებო სისტემის ინდექსის აგება უკვე ხდება საძიებო სისტემის ინდექსატორის მიერ. ამ სქემის რობოტი მხოლოდ "კურიერია" მონაცემების შეგროვებისთვის.

რობოტების ქცევა საიტზე

რა განსხვავებაა საიტზე რობოტის ქცევასა და ჩვეულებრივი მომხმარებლის ქცევას შორის?

კონტროლირებადი.უპირველეს ყოვლისა, "ინტელექტუალურმა" რობოტმა უნდა მოითხოვოს რობოტების ფაილი სერვერიდან. txt ინდექსირების ინსტრუქციებით.
შერჩევითი სატუმბი.დოკუმენტის მოთხოვნისას, რობოტი ნათლად მიუთითებს მოთხოვნილი მონაცემების ტიპებზე, განსხვავებით ჩვეულებრივი ბრაუზერისგან, რომელიც მზად არის მიიღოს ყველაფერი ზედიზედ. პოპულარული საძიებო სისტემების მთავარი რობოტები პირველ რიგში მოითხოვენ ჰიპერტექსტს და უბრალო ტექსტურ დოკუმენტებს, უგულებელყოფენ CSS სტილის ფაილებს, სურათებს, ვიდეოებს. Zip არქივები და ა.შ. ამჟამად ინფორმაცია ასევე მოთხოვნადია PDF, Rich Text, MS Word, MS Excel და სხვა ფორმატებში.
არაპროგნოზირებადობა.შეუძლებელია რობოტის საიტისკენ მიმავალი გზის თვალყურის დევნება ან პროგნოზირება, რადგან ის არ ტოვებს ინფორმაციას Referer ველში - იმ გვერდის მისამართს, საიდანაც ის მოვიდა; რობოტი უბრალოდ ითხოვს დოკუმენტების სიას, როგორც ჩანს, შემთხვევითი თანმიმდევრობით, მაგრამ სინამდვილეში მისი შიდა სიის ან ინდექსირების რიგის შესაბამისად.
სიჩქარე.მცირე დრო სხვადასხვა დოკუმენტების მოთხოვნებს შორის. აქ საუბარია წამებზე ან წამის ნაწილებზე ორი განსხვავებული დოკუმენტის მოთხოვნას შორის. ზოგიერთი რობოტისთვის არის სპეციალური ინსტრუქციებიც კი, რომლებიც მითითებულია რობოტების ფაილში. txt, შეზღუდოს დოკუმენტების მოთხოვნის სიჩქარე, რათა არ გადაიტვირთოს საიტი.

ჩვენ არ ვიცით, როგორი შეიძლება იყოს HTML გვერდი რობოტის თვალში, მაგრამ შეგვიძლია ვცადოთ მისი წარმოდგენა ბრაუზერში გრაფიკის გამორთვით და სტილისტიკით.

ამრიგად, შეგვიძლია დავასკვნათ, რომ საძიებო რობოტები ატვირთავენ გვერდის HTML სტრუქტურას თავიანთ ინდექსში, მაგრამ დიზაინის ელემენტების და სურათების გარეშე.

რობოტის კონტროლი

როგორ შეუძლია ვებმასტერს მართოს საძიებო რობოტების ქცევა თავის საიტზე?

როგორც ზემოთ აღინიშნა, 1994 წელს ვებმასტერებს შორის ღია დებატების შედეგად შეიქმნა სპეციალური გამონაკლისის პროტოკოლი რობოტებისთვის. დღემდე, ეს პროტოკოლი არ იქცა სტანდარტად ვალდებულიაშეასრულეთ ყველა რობოტი გამონაკლისის გარეშე, რჩება მხოლოდ მკაცრი რეკომენდაციების სტატუსში. არ არსებობს შემთხვევა, როდესაც შეგიძლიათ უჩივლოთ რობოტს, რომელიც არ იცავს გამონაკლისის წესებს, თქვენ შეგიძლიათ უარყოთ საიტზე წვდომა მხოლოდ ვებ სერვერის პარამეტრების ან ქსელური ინტერფეისების გამოყენებით IP მისამართებისთვის, საიდანაც "არაინტელექტუალური" რობოტმა გაგზავნა თავისი მოთხოვნები.

თუმცა, დიდი საძიებო სისტემების რობოტები იცავენ გამონაკლისის წესებს, უფრო მეტიც, ისინი ქმნიან მათ საკუთარ გაფართოებებს.

სპეციალური robots.txt ფაილის ინსტრუქციების შესახებ. და სპეციალური რობოტების მეტა-ტეგი დეტალურად იყო განხილული მე-6 თავში, „თქვენი საიტის ხელმისაწვდომობა საძიებო სისტემებისთვის“.

robots.txt-ის დამატებითი ინსტრუქციების დახმარებით, რომლებიც არ არის სტანდარტში, ზოგიერთი საძიებო სისტემა იძლევა უფრო მოქნილ კონტროლს მათი რობოტების ქცევაზე. მაგალითად, Crawl-delay ინსტრუქციის გამოყენებით, ვებმასტერს შეუძლია დააყენოს დროის ინტერვალი ორი დოკუმენტის თანმიმდევრულ მოთხოვნას შორის Yahoo! რობოტებისთვის. და MSN და გამოყენებით ინსტრუქცია No-; მიუთითეთ Yandex-ის მთავარი საიტის სარკის მისამართი. თუმცა, რობოტებში არასტანდარტული ინსტრუქციებით მუშაობა. txi უნდა იყოს ძალიან ფრთხილად, რადგან სხვა საძიებო სისტემის რობოტს შეუძლია უგულებელყოს არა მხოლოდ ინსტრუქცია, რომელიც არ ესმის, არამედ მასთან დაკავშირებული წესების მთელი ნაკრები.

ასევე შესაძლებელია საძიებო რობოტების ვიზიტების არაპირდაპირი კონტროლი, მაგალითად, გუგლის საძიებო სისტემის რობოტი უფრო ხშირად ხელახლა აგროვებს იმ დოკუმენტებს, რომლებზეც ბევრია მითითებული სხვა საიტებიდან.

საძიებო სისტემის რობოტები, რომლებსაც ზოგჯერ უწოდებენ "ობობებს" ან "მცოცავებს" (crawlers) არის პროგრამული უზრუნველყოფის მოდულები, რომლებიც ეძებენ ვებ გვერდებს. როგორ მუშაობენ ისინი? რას აკეთებენ ისინი სინამდვილეში? რატომ არიან ისინი მნიშვნელოვანი?

საძიებო სისტემების ოპტიმიზაციისა და საძიებო სისტემების ინდექსების მონაცემთა ბაზების ირგვლივ არსებული ხმაურით, შესაძლოა ფიქრობთ, რომ რობოტები დიდი და ძლიერი არსებები უნდა იყვნენ. Სიმართლეს არ შეესაბამება. საძიებო სისტემის რობოტებს აქვთ მხოლოდ ძირითადი ფუნქციები, რომლებიც მსგავსია ადრეული ბრაუზერების ფუნქციებით, თუ რა ინფორმაციის ამოცნობა შეუძლიათ მათ საიტზე. ადრეული ბრაუზერების მსგავსად, რობოტებს უბრალოდ არ შეუძლიათ გარკვეული რამის გაკეთება. რობოტებს არ ესმით ჩარჩოები, Flash ანიმაციები, სურათები ან JavaScript. ისინი ვერ შედიან პაროლით დაცულ განყოფილებებში და არ შეუძლიათ დააწკაპუნონ ყველა ღილაკზე, რომელიც არის საიტზე. მათ შეუძლიათ "გაჩუმდნენ" დინამიური URL-ების ინდექსირების პროცესში და იმუშაონ ძალიან ნელა, JavaScript-ის ნავიგაციის შეჩერებამდე და უძლურებამდე.

როგორ მუშაობენ საძიებო სისტემის რობოტები?

ვებ მცოცავი უნდა ჩაითვალოს, როგორც ავტომატური მონაცემთა მოპოვების პროგრამებს, რომლებიც ინტერნეტში სრიალებს ინფორმაციის და ინფორმაციის ბმულების მოსაძებნად.

როდესაც გადადიხართ "URL-ის გაგზავნა" გვერდზე და დაარეგისტრირებთ სხვა ვებ გვერდს საძიებო სისტემაში, ახალი URL ემატება რიგში რობოტის მიერ საიტების სანახავად. მაშინაც კი, თუ თქვენ არ დაარეგისტრირებთ გვერდს, ბევრი რობოტი იპოვის თქვენს საიტს, რადგან არის ბმულები სხვა საიტებიდან, რომლებიც აკავშირებენ თქვენს საიტს. ეს არის ერთ-ერთი მიზეზი, რის გამოც მნიშვნელოვანია ბმულების პოპულარობის გაზრდა და ბმულების განთავსება სხვა თემატურ რესურსებზე.

როდესაც ისინი თქვენს საიტზე მოდიან, რობოტები ჯერ ამოწმებენ არის თუ არა robots.txt ფაილი. ეს ფაილი ეუბნება რობოტებს თქვენი საიტის რომელი სექციები არ უნდა იყოს ინდექსირებული. ჩვეულებრივ, ეს შეიძლება იყოს დირექტორიები, რომლებიც შეიცავს ფაილებს, რომლებიც რობოტს არ აინტერესებს ან არ უნდა იცოდეს.

რობოტები ინახავენ და აგროვებენ ბმულებს ყველა გვერდიდან, რომელსაც ისინი სტუმრობენ და მოგვიანებით მიჰყვებიან ამ ბმულებს სხვა გვერდებზე. მთელი მსოფლიო ქსელი აგებულია ბმულებით. ინტერნეტ ქსელის შექმნის თავდაპირველი იდეა იყო ის, რომ შესაძლებელი იქნებოდა ბმულების მიყოლა ერთი ადგილიდან მეორეზე. ასე მოძრაობენ რობოტები.

რეალურ დროში გვერდის ინდექსირების "მახვილგონივრული" ხარისხი დამოკიდებულია საძიებო სისტემის ინჟინრებზე, რომლებმაც გამოიგონეს საძიებო სისტემების მცოცავებით მოძიებული ინფორმაციის შესაფასებლად გამოყენებული მეთოდები. საძიებო სისტემის მონაცემთა ბაზაში ჩაშენების შემდეგ, ინფორმაცია ხელმისაწვდომია მომხმარებლებისთვის, რომლებიც ასრულებენ ძიებას. როდესაც საძიებო სისტემის მომხმარებელი აკრიფებს საძიებო მოთხოვნა, კეთდება სწრაფი გამოთვლების სერია, რათა უზრუნველვყოთ საიტების სწორი ნაკრების დაბრუნება ყველაზე შესაბამისი პასუხისთვის.

თქვენ შეგიძლიათ ნახოთ თქვენი საიტის რომელ გვერდებს უკვე ეწვია საძიებო რობოტი, რომელსაც ხელმძღვანელობს სერვერის ჟურნალის ფაილები ან ჟურნალის ფაილის სტატისტიკური დამუშავების შედეგები. რობოტების იდენტიფიცირებით, თქვენ ხედავთ, როდის ეწვივნენ ისინი თქვენს საიტს, რომელ გვერდებს და რამდენად ხშირად. ზოგიერთი რობოტი ადვილად იდენტიფიცირებულია მათი სახელებით, როგორიცაა Google-ის "Googlebot". სხვები უფრო დამალულია, როგორც ინქტომის „სლურპი“. ჟურნალებში სხვა რობოტებიც მოიძებნება და შესაძლებელია მათი ამოცნობა დაუყოვნებლივ ვერ შეძლოთ; ზოგიერთი მათგანი შეიძლება იყოს ადამიანის მიერ კონტროლირებადი ბრაუზერები.

გარდა უნიკალური მცოცავების იდენტიფიცირებისა და მათი ვიზიტების დათვლისა, სტატისტიკამ ასევე შეიძლება აჩვენოს აგრესიული, გამტარუნარიანობის მცოცავი მცოცავი ან მცოცავი, რომლის მონახულებაც არ გსურთ თქვენს საიტზე.

როგორ კითხულობენ ისინი თქვენი ვებსაიტის გვერდებს?

როდესაც მცოცავი ეწვევა გვერდს, ის უყურებს მის ხილულ ტექსტს, სხვადასხვა ტეგების შინაარსს თქვენი გვერდის საწყის კოდში (სათაურის ტეგი, მეტატეგები და ა.შ.) და გვერდის ჰიპერბმულებს. თუ ვიმსჯელებთ ბმულების სიტყვებით, საძიებო სისტემა წყვეტს, თუ რაზეა გვერდი. ბევრი ფაქტორი გამოიყენება გვერდის „როლის თამაშის“ საკვანძო პუნქტების გამოსათვლელად. თითოეულ საძიებო სისტემას აქვს ინფორმაციის შეფასების და დამუშავების საკუთარი ალგორითმი. იმის მიხედვით, თუ როგორ არის რობოტის კონფიგურაცია, ინფორმაცია ინდექსირებულია და შემდეგ მიეწოდება საძიებო სისტემის მონაცემთა ბაზას.

ამის შემდეგ, საძიებო სისტემის ინდექსის მონაცემთა ბაზებში მიწოდებული ინფორმაცია ხდება საძიებო სისტემისა და მონაცემთა ბაზის რეიტინგის პროცესის ნაწილი. როდესაც სტუმარი აკეთებს შეკითხვას, საძიებო სისტემა გადის მთელ მონაცემთა ბაზას, რათა დააბრუნოს საბოლოო სია, რომელიც შეესაბამება საძიებო მოთხოვნას.

საძიებო სისტემის მონაცემთა ბაზები საგულდაგულოდ არის დამუშავებული და გასწორებული. თუ უკვე ხართ მონაცემთა ბაზაში, რობოტები პერიოდულად გესტუმრებიან, რათა შეაგროვონ ცვლილებები გვერდებზე და დარწმუნდნენ, რომ მათ აქვთ უახლესი ინფორმაცია. ვიზიტების რაოდენობა დამოკიდებულია საძიებო სისტემის პარამეტრებზე, რომლებიც შეიძლება განსხვავდებოდეს მისი ტიპისა და დანიშნულების მიხედვით.

ზოგჯერ საძიებო რობოტებს არ შეუძლიათ ვებსაიტის ინდექსირება. თუ თქვენი საიტი გაფუჭდა ან ვიზიტორთა დიდი რაოდენობა სტუმრობს საიტს, რობოტი შეიძლება უძლური იყოს მის ინდექსირებაში. როდესაც ეს მოხდება, საიტის ხელახალი ინდექსირება შეუძლებელია, იმისდა მიხედვით, თუ რამდენად ხშირად სტუმრობს მას რობოტი. უმეტეს შემთხვევაში, რობოტები, რომლებმაც ვერ შეძლეს თქვენს გვერდებზე წვდომა, შეეცდებიან მოგვიანებით, იმ იმედით, რომ თქვენი საიტი მალე იქნება ხელმისაწვდომი.

ბევრი მცოცავი ვერ იდენტიფიცირებულია ჟურნალების ნახვისას. ისინი შესაძლოა თქვენთან სტუმრობდნენ, მაგრამ ჟურნალებში ნათქვამია, რომ ვიღაც იყენებს Microsoft ბრაუზერს და ა.შ. ზოგიერთი რობოტი იდენტიფიცირებულია საძიებო სისტემის (googlebot) ან მისი კლონის (Scooter = AltaVista) სახელის გამოყენებით.

იმის მიხედვით, თუ როგორ არის რობოტის კონფიგურაცია, ინფორმაცია ინდექსირებულია და შემდეგ მიეწოდება საძიებო სისტემის მონაცემთა ბაზებს.

საძიებო სისტემის მონაცემთა ბაზები ექვემდებარება ცვლილებას სხვადასხვა დროს. დირექტორიებიც კი, რომლებსაც აქვთ მეორადი ძიების შედეგები, იყენებენ რობოტის მონაცემებს, როგორც მათი ვებსაიტის შინაარსს.

ფაქტობრივად, რობოტებს საძიებო სისტემები მხოლოდ ზემოაღნიშნულისთვის არ იყენებენ. არის რობოტები, რომლებიც ამოწმებენ მონაცემთა ბაზებს ახალი შინაარსისთვის, ეწვევიან მონაცემთა ძველ შინაარსს, ამოწმებენ შეიცვალა თუ არა ბმულები, ჩამოტვირთავს მთელ საიტებს დასათვალიერებლად და ა.შ.

ამ მიზეზით, ჟურნალის ფაილების წაკითხვა და საძიებო სისტემის შედეგების თვალყურის დევნება გეხმარებათ თვალი ადევნოთ თქვენი პროექტების ინდექსირებას.

საძიებო რობოტი დაურეკა სპეციალური პროგრამანებისმიერი საძიებო სისტემა, რომელიც შექმნილია ინტერნეტში ნაპოვნი საიტებისა და მათი გვერდების მონაცემთა ბაზაში შესაყვანად (ინდექსირებაში). ასევე გამოიყენება სახელები: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

მოქმედების პრინციპი

საძიებო რობოტი არის ბრაუზერის ტიპის პროგრამა. ის მუდმივად ათვალიერებს ქსელს: სტუმრობს ინდექსირებულ (მისთვის უკვე ცნობილ) საიტებს, მიჰყვება მათგან ბმულებს და პოულობს ახალ რესურსებს. როდესაც ახალი რესურსი იპოვება, პროცედურის რობოტი ამატებს მას საძიებო სისტემის ინდექსში. საძიებო რობოტი ასევე ახდენს საიტების განახლებების ინდექსირებას, რომელთა სიხშირე ფიქსირდება. მაგალითად, საიტს, რომელიც კვირაში ერთხელ განახლდება, ამ სიხშირით ობობა ეწვევა და საინფორმაციო საიტებზე შიგთავსის ინდექსირება შესაძლებელია გამოქვეყნებიდან რამდენიმე წუთში. თუ სხვა რესურსებიდან არცერთი ბმული არ მიდის საიტზე, მაშინ საძიებო რობოტების მოსაზიდად რესურსი უნდა დაემატოს სპეციალური ფორმის საშუალებით (Google Webmaster Center, Yandex Webmaster Panel და ა.შ.).

საძიებო რობოტების ტიპები

Yandex ობობები:

Yandex/1.01.001 I არის მთავარი ინდექსირების ბოტი,
Yandex/1.01.001 (P) - ინდექსებს სურათებს,
Yandex/1.01.001 (H) - პოულობს საიტის სარკეებს,
Yandex/1.03.003 (D) - განსაზღვრავს, შეესაბამება თუ არა ვებმასტერის პანელიდან დამატებული გვერდი ინდექსირების პარამეტრებს,
YaDirectBot/1.0 (I) - ინდექსებს რესურსებს Yandex სარეკლამო ქსელიდან,
Yandex/1.02.000 (F) — აინდექსებს საიტის ფავიკონებს.

Google ობობები:

Googlebot არის მთავარი რობოტი,
Googlebot News - იკვლევს და ინდექსებს სიახლეებს,
Google Mobile - ახდენს ვებსაიტების ინდექსირებას მობილური მოწყობილობებისთვის,
Googlebot Images - ეძებს და ინდექსებს სურათებს,
Googlebot Video - ინდექსებს ვიდეოებს,
Google AdsBot - ამოწმებს სადესანტო გვერდის ხარისხს,
Google Mobile AdSense და Google AdSense - ახდენს Google სარეკლამო ქსელის საიტების ინდექსირებას.

სხვა საძიებო სისტემები ასევე იყენებენ რამდენიმე ტიპის რობოტს, რომლებიც ფუნქციურად მსგავსია ჩამოთვლილთათვის.

გამარჯობა მეგობრებო! დღეს გაიგებთ, თუ როგორ მუშაობენ Yandex და Google საძიებო რობოტები და რა ფუნქციას ასრულებენ ისინი ვებსაიტის პოპულარიზაციაში. ასე რომ წავიდეთ!

საძიებო სისტემები აკეთებენ ამ მოქმედებას იმისათვის, რომ იპოვონ ათი WEB პროექტი მილიონი საიტიდან, რომლებსაც აქვთ მაღალი ხარისხის და შესაბამისი პასუხი მომხმარებლის შეკითხვაზე. რატომ მხოლოდ ათი? რადგან ის მხოლოდ ათი პოზიციისგან შედგება.

მოძებნეთ რობოტების მეგობრები და ვებმასტერები და მომხმარებლები

რატომ არის მნიშვნელოვანი საძიებო რობოტების მიერ საიტის მონახულება, უკვე ნათელი გახდა და რატომ არის ეს მომხმარებლისთვის? ასეა, იმისათვის, რომ მომხმარებელმა გახსნას მხოლოდ ის საიტები, რომლებიც სრულად პასუხობენ მის მოთხოვნას.

ძებნა რობოტი- ძალიან მოქნილი ინსტრუმენტი, მას შეუძლია იპოვოთ საიტი, თუნდაც ის, რომელიც ახლახან შეიქმნა და ამ საიტის მფლობელი ჯერ არ არის ჩართული. ამიტომ, ამ ბოტს ეწოდა ობობა, მას შეუძლია გაჭიმოს თათები და მოხვდეს ნებისმიერ ადგილას ვირტუალურ ქსელში.

შესაძლებელია თუ არა საძიებო რობოტის მართვა თქვენი ინტერესებიდან გამომდინარე

არის შემთხვევები, როდესაც ზოგიერთი გვერდი არ შედის ძიებაში. ეს ძირითადად განპირობებულია იმით, რომ ეს გვერდი ჯერ არ არის ინდექსირებული საძიებო რობოტის მიერ. რა თქმა უნდა, ადრე თუ გვიან საძიებო რობოტი შეამჩნევს ამ გვერდს. მაგრამ ამას დრო სჭირდება, ზოგჯერ კი საკმაოდ დიდი დრო. მაგრამ აქ შეგიძლიათ დაეხმაროთ საძიებო რობოტს ეწვიოს ამ გვერდს უფრო სწრაფად.

ამისათვის თქვენ შეგიძლიათ განათავსოთ თქვენი საიტი სპეციალურ დირექტორიაში ან სიებში, სოციალურ ქსელებში. ზოგადად, ყველა საიტზე, სადაც საძიებო რობოტი უბრალოდ ცხოვრობს. მაგალითად, სოციალურ ქსელებში ყოველ წამს ხდება განახლება. შეეცადეთ მოითხოვოთ თქვენი საიტი და საძიებო რობოტი უფრო სწრაფად მოვა თქვენს საიტზე.

აქედან გამომდინარეობს ერთი, მაგრამ მთავარი წესი. თუ გსურთ საძიებო სისტემის ბოტები ეწვიონ თქვენს საიტს, მათ რეგულარულად უნდა მიეწოდოთ ახალი შინაარსი. იმ შემთხვევაში, თუ ისინი შეამჩნევენ, რომ მიმდინარეობს შინაარსის განახლება, საიტი ვითარდება, ისინი უფრო ხშირად ეწვევიან თქვენს ინტერნეტ პროექტს.

თითოეულ საძიებო რობოტს შეუძლია დაიმახსოვროს რამდენად ხშირად იცვლება თქვენი შინაარსი. ის აფასებს არა მხოლოდ ხარისხს, არამედ დროის ინტერვალებს. და თუ საიტზე მასალა განახლდება თვეში ერთხელ, მაშინ ის მოვა საიტზე თვეში ერთხელ.

ამრიგად, თუ საიტი განახლდება კვირაში ერთხელ, მაშინ საძიებო რობოტი მოვა კვირაში ერთხელ. თუ თქვენ განაახლებთ საიტს ყოველდღე, მაშინ საძიებო რობოტი ეწვევა საიტს ყოველდღე ან ყოველ მეორე დღეს. არის საიტები, რომლებიც ინდექსირებულია განახლებიდან რამდენიმე წუთში. ეს სოციალური მედია, ახალი ამბების აგრეგატორები და საიტები, რომლებიც აქვეყნებენ რამდენიმე სტატიას დღეში.

როგორ მივცეთ დავალება რობოტს და აკრძალოთ რამე?

თავიდანვე გავიგეთ, რომ საძიებო სისტემებს ჰყავთ რამდენიმე რობოტი, რომლებიც ასრულებენ სხვადასხვა დავალებებს. ვიღაც ეძებს სურათებს, ვიღაც ლინკებს და ასე შემდეგ.

თქვენ შეგიძლიათ მართოთ ნებისმიერი რობოტი სპეციალური ფაილის გამოყენებით robots.txt . სწორედ ამ ფაილიდან იწყებს რობოტი საიტის გაცნობას. ამ ფაილში შეგიძლიათ მიუთითოთ, შეუძლია თუ არა რობოტს საიტის ინდექსირება, თუ ასეა, რომელი სექციები. ყველა ეს ინსტრუქცია შეიძლება შეიქმნას ერთი ან ყველა რობოტისთვის.

ვებსაიტის პოპულარიზაციის ტრენინგი

უფრო დეტალურად Google-სა და Yandex-ის საძიებო სისტემებში საიტების SEO პოპულარიზაციის სირთულეების შესახებ, მე ვამბობ ჩემს Skype-ზე. მე მივიტანე ყველა ჩემი WEB პროექტი მეტი დასასწრებად და ამით შესანიშნავი შედეგები მივიღე. მე შემიძლია გასწავლო, თუ დაგაინტერესებს!

საძიებო სისტემის ობობები არის ინტერნეტ ბოტები, რომელთა ამოცანაა გვერდების სისტემატური დათვალიერება მთელ მსოფლიოშივებ, რათა უზრუნველყოს ვებ ინდექსირება. ტრადიციულად, WWW-სივრცის სკანირება ხორციელდება ქსელში განთავსებული შინაარსის შესახებ ინფორმაციის განახლების მიზნით, რათა მომხმარებლებს მიაწოდოს განახლებული მონაცემები კონკრეტული რესურსის შინაარსის შესახებ. საძიებო რობოტების ტიპები და მათი მახასიათებლები განხილული იქნება ამ სტატიაში.

საძიებო ობობებს ასევე შეიძლება სხვანაირად ვუწოდოთ: რობოტები, ვებ ობობები, მცოცავი. თუმცა, სახელის მიუხედავად, ისინი ყველა ეწევა ვირტუალური სივრცის შინაარსის მუდმივ და უწყვეტ შესწავლას. რობოტი ინახავს URL-ების სიას, საიდანაც რეგულარულად იტვირთება დოკუმენტები. თუ ობობა იპოვის ახალ ბმულს ინდექსირების პროცესში, ის ემატება ამ სიას.

ამრიგად, მცოცავის მოქმედებები შეიძლება შევადაროთ ბრაუზერის უკან არსებულ ჩვეულებრივ ადამიანს. ერთადერთი განსხვავება ისაა, რომ ჩვენ ვხსნით მხოლოდ ჩვენთვის საინტერესო ბმულებს, ხოლო რობოტი - ყველაფერს, რის შესახებაც მას აქვს ინფორმაცია. გარდა ამისა, რობოტი, ინდექსირებული გვერდის შინაარსის წაკითხვის შემდეგ, მის შესახებ მონაცემებს სპეციალური ფორმით გადასცემს საძიებო სისტემის სერვერებს შესანახად, სანამ მომხმარებელი ამას არ ითხოვს.

ამავდროულად, თითოეული რობოტი ასრულებს თავის კონკრეტულ დავალებას: ზოგი ახდენს ტექსტის შიგთავსის ინდექსირებას, ზოგი გრაფიკას, ზოგი კი შინაარსს ინახავს არქივში და ა.შ.

საძიებო სისტემების მთავარი ამოცანა- ალგორითმის შექმნა, რომელიც საშუალებას მოგცემთ მიიღოთ ინფორმაცია სწრაფად და სრულად, რადგან ძიების გიგანტებსაც კი არ აქვთ შესაძლებლობა უზრუნველყონ ყოვლისმომცველი სკანირების პროცესი. აქედან გამომდინარე, თითოეული კომპანია რობოტებს სთავაზობს უნიკალურ მათემატიკურ ფორმულებს, რომლებსაც ემორჩილება ბოტი ირჩევს გვერდს, რომელიც უნდა მოინახულოს შემდეგ ეტაპზე. ეს, რეიტინგის ალგორითმებთან ერთად, არის ერთ-ერთი ყველაზე მნიშვნელოვანი კრიტერიუმი, რომლითაც მომხმარებლები ირჩევენ საძიებო სისტემას: სადაც ინფორმაცია საიტების შესახებ უფრო სრულყოფილი, ახალი და სასარგებლოა.

საძიებო სისტემა რობოტმა შეიძლება არ იცოდეს თქვენი საიტის შესახებ, თუ მასზე ბმულები არ არის (რაც, ალბათ, იშვიათია - დღეს, დომენის სახელის რეგისტრაციის შემდეგ, მისი ხსენებები გვხვდება ქსელში). თუ ბმულები არ არის, ამის შესახებ საძიებო სისტემას უნდა აცნობოთ. ამისათვის ჩვეულებრივ გამოიყენება პირადი ანგარიშები» ვებმასტერები.

რა არის საძიებო რობოტების მთავარი ამოცანა

რამდენიც გვსურს, მაგრამ საძიებო რობოტის მთავარი ამოცანა სულაც არ არის, რომ მსოფლიოს მოუყვეს ჩვენი საიტის არსებობის შესახებ. ძნელია მისი ჩამოყალიბება, მაგრამ მაინც, იმის საფუძველზე, რომ საძიებო სისტემები მუშაობს მხოლოდ მათი მომხმარებლების, ანუ მომხმარებლების წყალობით, რობოტმა უნდა უზრუნველყოს ქსელში განთავსებული მონაცემების სწრაფი ძიება და ინდექსირება. მხოლოდ ეს საშუალებას აძლევს PS-ს დააკმაყოფილოს აუდიტორიის მოთხოვნილება შესაბამისი და შესაბამისი ძიების შედეგებისთვის.

რა თქმა უნდა, რობოტებს არ შეუძლიათ ვებსაიტების 100% ინდექსირება. კვლევის მიხედვით, ძიების ლიდერების მიერ დატვირთული გვერდების რაოდენობა არ აღემატება ინტერნეტში განთავსებული URL-ების მთლიანი რაოდენობის 70%-ს. თუმცა, რამდენად შესწავლილია თქვენი რესურსი ბოტის მიერ, ასევე გავლენას მოახდენს მომხმარებელთა რაოდენობაზე, რომლებიც დააწკაპუნებენ ძიების შეკითხვებზე. ამიტომ, ოპტიმიზატორები განიცდიან რობოტის „გამოკვებას“, რათა რაც შეიძლება სწრაფად გაეცნონ მას ცვლილებებს.

Runet-ში Yandex მხოლოდ 2016 წელს გადავიდა მეორე ხაზში ყოველთვიური აუდიტორიის დაფარვის თვალსაზრისით, წააგო Google-თან. ამიტომ, გასაკვირი არ არის, რომ მას აქვს ყველაზე მეტი კოსმოსური ობობები, რომლებიც იკვლევენ შინაურ PS-ებს შორის. ყველა მათგანის ჩამოთვლა აზრი არ აქვს:მისი ნახვა შეგიძლიათ განყოფილებაში "ვებმასტერის დახმარება" > საძიებო რობოტის მართვა > როგორ შევამოწმოთ, რომ რობოტი ეკუთვნის Yandex-ს.

ყველა საძიებო სისტემას აქვს მკაცრად რეგულირებული მომხმარებლის აგენტი. მათ შორის, რომლებსაც საიტის შემქმნელი აუცილებლად უნდა შეხვდეს:

Mozilla/5.0 (თავსებადი; YandexBot/3.0; +http://yandex.com/bots) - მთავარი ინდექსირების ბოტი;
Mozilla/5.0 (iPhone; CPU iPhone OS 8_1, როგორიცაა Mac OS X) AppleWebKit/600.1.4 (KHTML, როგორიცაა Gecko) ვერსია/8.0 Mobile/12B411 Safari/600.1.4 (თავსებადი; YandexBot/3.0; +http://yandex .com/bots) - ინდექსირებადი ობობა;
Mozilla/5.0 (თავსებადი; YandexImages/3.0; +http://yandex.com/bots) - Yandex.Images ბოტი;
Mozilla/5.0 (თავსებადი; YandexMedia/3.0; +http://yandex.com/bots) - მულტიმედიური მასალების ინდექსირებას;
Mozilla/5.0 (თავსებადი; YandexFavicons/1.0; +http://yandex.com/bots) - ახდენს საიტის ხატულების ინდექსირებას.

Yandex ობობების თქვენს საიტზე მოსაზიდად, რეკომენდებულია რამდენიმე მარტივი ნაბიჯის შესრულება:

სწორად დააკონფიგურიროთ robots.txt;
RSS არხის შექმნა;
განათავსეთ საიტის რუკა ინდექსირებული გვერდების სრული სიით;
შექმენით გვერდი (ან გვერდები), რომელიც შეიცავს ყველა რესურს დოკუმენტის ბმულებს;
HTTP სტატუსების კონფიგურაცია;
უზრუნველყოს სოციალური აქტივობა მასალების გამოქვეყნების შემდეგ (და არა მხოლოდ კომენტარები, არამედ დოკუმენტის გაზიარება);
ახალი უნიკალური ტექსტების ინტენსიური განთავსება.

ბოლო არგუმენტს მხარს უჭერს ბოტების უნარი დაიმახსოვრონ შინაარსის განახლების სიჩქარე და მოვიდნენ საიტზე ახალი მასალების დამატების გამოვლენილი სიხშირით.

თუ გსურთ თავიდან აიცილოთ Yandex crawlers გვერდებზე წვდომა (მაგალითად, ტექნიკური განყოფილებები), თქვენ უნდა დააკონფიგურიროთ robots.txt ფაილი. PS ობობებს შეუძლიათ გაიგონ ბოტის გამორიცხვის სტანდარტი, ამიტომ, როგორც წესი, არ არის სირთულე ფაილის შექმნა.

მომხმარებლის აგენტი: Yandex

აკრძალვა :/

ხელს შეუშლის PS-ს მთელი საიტის ინდექსირებაში.

გარდა ამისა, Yandex რობოტებს შეუძლიათ გაითვალისწინონ მეტა ტეგებში მითითებული რეკომენდაციები. მაგალითი: აკრძალავს დემონსტრირებას არქივიდან დოკუმენტის ასლის ბმულის გაცემაში. და დაამატეთ ტეგი გვერდის კოდს მიუთითებს, რომ დოკუმენტს არ სჭირდება ინდექსირება.

სწორი მნიშვნელობების სრული სია შეგიძლიათ იხილოთ ვებმასტერის დახმარების განყოფილებაში "HTML ელემენტების გამოყენება".

გუგლის საძიებო რობოტები

Google-ის მთავარი WWW კონტენტის ინდექსირების მექანიზმს ეწოდება Googlebot. მისი ძრავა შექმნილია იმისათვის, რომ ასკანირებდეს მილიარდობით გვერდს დღეში ახალი ან შეცვლილი დოკუმენტების მოსაძებნად. ამავდროულად, ბოტი თავად ადგენს, რომელი გვერდები უნდა გადაიხედოს და რომელი იგნორირება.

ამ მცოცავისთვის მნიშვნელოვანია, რომ საიტს ჰქონდეს საიტის რუქის ფაილი, რომელიც მოწოდებულია რესურსის მფლობელის მიერ. კომპიუტერების ქსელი, რომელიც უზრუნველყოფს მის ფუნქციონირებას, იმდენად ძლიერია, რომ ბოტს შეუძლია თქვენი საიტის გვერდებზე მოთხოვნების გაგზავნა ყოველ რამდენიმე წამში. ბოტი კი ისეა კონფიგურირებული, რომ ერთბაშად აანალიზებს მეტ გვერდს, რათა არ გამოიწვიოს სერვერზე დატვირთვა. თუ თქვენი საიტი ნელდება ობობის ხშირი მოთხოვნის გამო, შეგიძლიათ შეცვალოთ სეირნობის სიხშირე Search Console-ში მისი კონფიგურაციით. ამავდროულად, სამწუხაროდ, შეუძლებელია სკანირების სიჩქარის გაზრდა.

Google-ის ბოტს შეიძლება სთხოვონ საიტის ხელახლა დათვალიერება. ამისათვის თქვენ უნდა გახსნათ Search Console და იპოვოთ ფუნქცია Add to Index, რომელიც ხელმისაწვდომია Browse as Googlebot ინსტრუმენტის მომხმარებლებისთვის. სკანირების შემდეგ გამოჩნდება ღილაკი Add to Index. ამავდროულად, Google არ იძლევა გარანტიას ყველა ცვლილების ინდექსირებაზე, რადგან პროცესი ასოცირდება "კომპლექსური ალგორითმების" მუშაობასთან.

სასარგებლო ინსტრუმენტები

საკმაოდ რთულია ჩამოვთვალოთ ყველა ის ინსტრუმენტი, რომელიც ეხმარება ოპტიმიზატორებს ბოტებთან მუშაობაში, რადგან ბევრი მათგანია. გარდა ზემოთ ნახსენები „Googlebot-ის ნახვა“, აღსანიშნავია Google და Yandex robots.txt ფაილების ანალიზატორები, საიტის რუქის ფაილების ანალიზატორები და სერვერის პასუხის შემოწმების სერვისი რუსული PS-დან. მათი შესაძლებლობების წყალობით, თქვენ გექნებათ წარმოდგენა იმაზე, თუ როგორ გამოიყურება თქვენი საიტი ობობის თვალში, რაც დაგეხმარებათ თავიდან აიცილოთ შეცდომები და უზრუნველყოთ საიტის ყველაზე სწრაფი ცოცხალი.