რა არის საძიებო რობოტის კომპონენტები. ძებნა რობოტი. როგორ მუშაობს საძიებო სისტემის რობოტები

24.11.2021

თემატური ბმულების კოლექციები არის სიები, რომლებიც შედგენილია პროფესიონალთა ჯგუფის ან თუნდაც ინდივიდუალური კოლექციონერების მიერ. ძალიან ხშირად, უაღრესად სპეციალიზებული თემის გაშუქება შეიძლება უკეთესად ერთმა სპეციალისტმა, ვიდრე დიდი კატალოგის თანამშრომლების ჯგუფმა. ინტერნეტში იმდენი თემატური კოლექციაა, რომ კონკრეტული მისამართების მიცემას აზრი არ აქვს.

დომენის სახელის შერჩევა

კატალოგი მოსახერხებელი საძიებო სისტემაა, თუმცა, Microsoft-ის ან IBM-ის სერვერზე მოსახვედრად, კატალოგზე მითითებას აზრი არ აქვს. ძნელი არ არის შესაბამისი საიტის სახელის გამოცნობა: www.microsoft.com, www.ibm.com ან www.microsoft.ru, www.ibm.ru - ამ კომპანიების რუსული წარმომადგენლობითი ოფისების საიტები.

ანალოგიურად, თუ მომხმარებელს სჭირდება საიტი, რომელიც ეძღვნება მსოფლიოს ამინდს, ლოგიკურია მისი ძებნა www.weather.com სერვერზე. უმეტეს შემთხვევაში, საიტის ძიება სათაურში საკვანძო სიტყვით უფრო ეფექტურია, ვიდრე დოკუმენტის ძიება, რომლის ტექსტშიც ეს სიტყვაა გამოყენებული. თუ დასავლურ კომერციულ კომპანიას (ან პროექტს) აქვს მონოსილაბური სახელი და ახორციელებს საკუთარ სერვერს ინტერნეტში, მაშინ მისი სახელი დიდი ალბათობით ჯდება www.name.com ფორმატში და Runet-ისთვის (ვეების რუსული ნაწილი) - www.name.ru, სადაც სახელი - კომპანიის ან პროექტის სახელი. მისამართის გამოცნობას წარმატებით შეუძლია კონკურენცია გაუწიოს სხვა საძიებო მეთოდებს, ვინაიდან ასეთი საძიებო სისტემით შესაძლებელია კავშირის დამყარება სერვერთან, რომელიც არ არის რეგისტრირებული არცერთ საძიებო სისტემაში. თუმცა, თუ ვერ იპოვით სასურველ სახელს, მოგიწევთ საძიებო სისტემას მიმართოთ.

საძიებო სისტემები

მითხარი რას ეძებ ინტერნეტში და გეტყვი ვინ ხარ

კომპიუტერი რომ იყოს უაღრესად ინტელექტუალური სისტემა, რომელიც ადვილად აგიხსნის რას ეძებთ, მაშინ მოგცემთ ორ-სამ დოკუმენტს - ზუსტად ისეთს, რაც გჭირდებათ. მაგრამ, სამწუხაროდ, ეს ასე არ არის და მოთხოვნის საპასუხოდ, მომხმარებელი, როგორც წესი, იღებს დოკუმენტების დიდ ჩამონათვალს, რომელთაგან ბევრს არავითარი კავშირი არ აქვს იმასთან, რაზეც მან იკითხა. ასეთ დოკუმენტებს უწოდებენ შეუსაბამო (ინგლისურიდან შესაბამისი - შესაბამისი, შესაბამისი). ამრიგად, შესაბამისი დოკუმენტი არის დოკუმენტი, რომელიც შეიცავს ინფორმაციას, რომელსაც ეძებთ. ცხადია, მიღებული შესაბამისი დოკუმენტაციის პროცენტი დამოკიდებულია მოთხოვნის სწორად გაცემის უნარზე. საძიებო სისტემის მიერ ნაპოვნი ყველა დოკუმენტის ჩამონათვალში შესაბამისი დოკუმენტების პროპორციას ძიების სიზუსტე ეწოდება. შეუსაბამო დოკუმენტებს ხმაური ეწოდება. თუ ყველა ნაპოვნი დოკუმენტი შესაბამისია (ხმაურის გარეშე), მაშინ ძიების სიზუსტე არის 100%. თუ ყველა შესაბამისი დოკუმენტი იქნა ნაპოვნი, მაშინ ძიების სისრულე არის 100%.

ამრიგად, ძიების ხარისხი განისაზღვრება ორი ურთიერთდამოკიდებული პარამეტრით: ძიების სიზუსტე და სისრულე. ძიების სისრულის გაზრდა ამცირებს სიზუსტეს და პირიქით.

როგორ მუშაობს საძიებო სისტემა

საძიებო სისტემებიშეიძლება შევადაროთ დამხმარე მაგიდას, რომლის აგენტები დადიან ბიზნესის გარშემო და აგროვებენ ინფორმაციას მონაცემთა ბაზაში (სურათი 4.21). სერვისთან დაკავშირებისას ინფორმაცია გაიცემა ამ მონაცემთა ბაზიდან. მონაცემთა ბაზაში არსებული მონაცემები მოძველებულია, ამიტომ აგენტები პერიოდულად განაახლებს მას. ზოგიერთი საწარმო თავად აგზავნის მონაცემებს საკუთარ თავზე და აგენტები არ უნდა მოვიდნენ მათთან. სხვა სიტყვებით რომ ვთქვათ, დახმარების მაგიდას აქვს ორი ფუნქცია: მონაცემთა ბაზაში მონაცემთა შექმნა და მუდმივად განახლება და კლიენტის მოთხოვნით მონაცემთა ბაზაში ინფორმაციის მოძიება.

ბრინჯი. 4.21.

ანალოგიურად, საძიებო სისტემაშედგება ორი ნაწილისაგან: ეგრეთ წოდებული რობოტი (ან ობობა), რომელიც გვერდს უვლის ვებ სერვერებს და ქმნის საძიებო სისტემის მონაცემთა ბაზას.

რობოტის საფუძველს ძირითადად თავად აყალიბებს (რობოტი თავად პოულობს ბმულებს ახალ რესურსებთან) და გაცილებით ნაკლებად - რესურსების მფლობელების მიერ, რომლებიც არეგისტრირებენ საიტებს საძიებო სისტემაში. გარდა რობოტისა (ქსელის აგენტი, ობობა, ჭია), რომელიც აყალიბებს მონაცემთა ბაზას, არსებობს პროგრამა, რომელიც განსაზღვრავს ნაპოვნი ბმულების რეიტინგს.

საძიებო სისტემის ფუნქციონირების პრინციპია ის, რომ ის ითხოვს მის შიდა კატალოგს (მონაცემთა ბაზას) იმ საკვანძო სიტყვებისთვის, რომლებსაც მომხმარებელი აზუსტებს მოთხოვნის ველში და აწარმოებს ბმულების ჩამონათვალს რელევანტურობის მიხედვით.

უნდა აღინიშნოს, რომ კონკრეტული მომხმარებლის მოთხოვნის დამუშავებისას, საძიებო სისტემა მუშაობს ზუსტად შიდა რესურსებით (და არ იწყებს მოგზაურობას ინტერნეტში, როგორც ხშირად გამოუცდელი მომხმარებლები თვლიან), ხოლო შიდა რესურსები ბუნებრივად შეზღუდულია. მიუხედავად იმისა, რომ საძიებო სისტემის მონაცემთა ბაზა მუდმივად განახლდება, საძიებო სისტემაყველა ვებ დოკუმენტის ინდექსირება შეუძლებელია: მათი რაოდენობა ძალიან დიდია. ამიტომ, ყოველთვის არის შესაძლებლობა, რომ რესურსი, რომელსაც თქვენ ეძებთ, უბრალოდ უცნობია კონკრეტული საძიებო სისტემისთვის.

ეს იდეა ნათლად არის ილუსტრირებული ნახ. 4.22. Ellipse 1 ზღუდავს ყველა ვებ დოკუმენტის კომპლექტს, რომელიც არსებობს დროის გარკვეულ მომენტში, ელიფსი 2 - ყველა დოკუმენტი, რომელიც ინდექსირებულია ამ საძიებო სისტემის მიერ და ელიფსი 3 - საჭირო დოკუმენტები. ამრიგად, ამ საძიებო სისტემის გამოყენებით შეგიძლიათ იპოვოთ საჭირო დოკუმენტების მხოლოდ ის ნაწილი, რომელიც ინდექსირებულია მის მიერ.

ბრინჯი. 4.22.

არასაკმარისი ძიების სისრულის პრობლემა არის არა მხოლოდ საძიებო სისტემის შეზღუდული შიდა რესურსები, არამედ ის ფაქტი, რომ რობოტის სიჩქარე შეზღუდულია და ახალი ვებ დოკუმენტების რაოდენობა მუდმივად იზრდება. საძიებო სისტემის შიდა რესურსების გაზრდა პრობლემას სრულად ვერ გადაჭრის, რადგან რობოტის მიერ რესურსების მცოცავი სიჩქარე სასრულია.

ამავე დროს, ვივარაუდოთ, რომ საძიებო სისტემაშეიცავს ორიგინალური ინტერნეტ რესურსების ასლს, არასწორი იქნებოდა. სრული ინფორმაცია (წყაროს დოკუმენტები) არავითარ შემთხვევაში არ ინახება ყოველთვის, უფრო ხშირად ინახება მისი მხოლოდ ნაწილი - ე.წ. საძიებო მოთხოვნები.

ინდექსის შესაქმნელად, წყაროს მონაცემები გარდაიქმნება ისე, რომ მონაცემთა ბაზის მოცულობა იყოს მინიმალური, ხოლო ძებნა არის ძალიან სწრაფი და უზრუნველყოფს მაქსიმალურ სასარგებლო ინფორმაციას. იმის ახსნით, თუ რა არის ინდექსირებული სია, შეგვიძლია გავავლოთ პარალელი მის ქაღალდის ანალოგისთან - ე.წ. ლექსიკონი, რომელშიც ანბანური თანმიმდევრობით ჩამოთვლილია კონკრეტული მწერლის მიერ გამოყენებული სიტყვები, მათზე მითითებები და მათი გამოყენების სიხშირე მის ნაწარმოებებში.

ცხადია, კონკორდენცია (ლექსიკონი) ბევრად უფრო კომპაქტურია, ვიდრე ნაწარმოებების წყაროს ტექსტები და მასში სწორი სიტყვის პოვნა ბევრად უფრო ადვილია, ვიდრე წიგნის გადაფურცვლა სწორ სიტყვაზე დაბრკოლების იმედით.

ინდექსის შენობა

ინდექსის მშენებლობის სქემა ნაჩვენებია ნახ. 4.23. ვებ-აგენტები, ანუ ობობის რობოტები, „იძვრებიან“ ინტერნეტში, აანალიზებენ ვებ გვერდების შინაარსს და აგროვებენ ინფორმაციას იმის შესახებ, თუ რა იყო ნაპოვნი რომელ გვერდზე.

ბრინჯი. 4.23.

შემდეგი HTML გვერდის პოვნისას, საძიებო სისტემების უმეტესობა იჭერს მასში შემავალ სიტყვებს, სურათებს, ბმულებს და სხვა ელემენტებს (სხვადასხვა საძიებო სისტემებში სხვადასხვა გზით). უფრო მეტიც, გვერდზე სიტყვების თვალყურის დევნებისას ფიქსირდება არა მხოლოდ მათი ყოფნა, არამედ მათი მდებარეობა, ე.ი. სადაც ეს სიტყვები მდებარეობს: სათაურში (სათაური), სუბტიტრები ( სუბტიტრები ), მეტა ტეგებში 1 მეტა თეგები არის სერვისის ტეგები, რომლებიც დეველოპერებს საშუალებას აძლევს განათავსონ სერვისის ინფორმაცია ვებ გვერდებზე, მათ შორის საძიებო სისტემის ორიენტირების მიზნით.(მეტა ტეგები) ან სხვაგან. ამ შემთხვევაში, მნიშვნელოვანი სიტყვები ჩვეულებრივ ფიქსირდება, ხოლო კავშირები და შუამავლები, როგორიცაა "ა", "მაგრამ" და "ან" უგულებელყოფილია. მეტა ტეგები გვერდის მფლობელებს საშუალებას აძლევს განსაზღვრონ საკვანძო სიტყვები და თემები, რომლებისთვისაც არის გვერდი ინდექსირებული. ეს შეიძლება იყოს შესაბამისი, როდესაც საკვანძო სიტყვებს მრავალი მნიშვნელობა აქვს. მეტა ტეგებს შეუძლია უხელმძღვანელოს საძიებო სისტემას სიტყვის რამდენიმე მნიშვნელობიდან ერთადერთ სწორზე არჩევისას. თუმცა, მეტა ტეგები საიმედოდ მუშაობს მხოლოდ მაშინ, როდესაც შევსებულია საიტის პატიოსანი მფლობელების მიერ. ვებსაიტების არაკეთილსინდისიერი მფლობელები თავიანთ მეტა ტეგებში აყენებენ ინტერნეტში ყველაზე პოპულარულ სიტყვებს, რომლებსაც საერთო არაფერი აქვთ საიტის თემასთან. შედეგად, ვიზიტორები მიდიან არასასურველ საიტებზე, რითაც იზრდება მათი რეიტინგი. ამიტომ ბევრი თანამედროვე საძიებო სისტემა ან იგნორირებას უკეთებს მეტა ტეგებს ან თვლის მათ დამატებით გვერდის ტექსტს. თითოეული რობოტი ინახავს რესურსების საკუთარ სიას, რომლებიც ისჯება უსამართლო რეკლამისთვის.

ცხადია, თუ საიტებს ეძებთ საკვანძო სიტყვით "ძაღლი", მაშინ საძიებო სისტემამ უნდა მოიძიოს არა მხოლოდ ყველა გვერდი, სადაც სიტყვა "ძაღლი" არის ნახსენები, არამედ ის, სადაც ეს სიტყვა დაკავშირებულია საიტის თემასთან. იმის დასადგენად, თუ რამდენად შეესაბამება კონკრეტული სიტყვა კონკრეტული ვებ გვერდის პროფილს, აუცილებელია შევაფასოთ რამდენად ხშირად ჩნდება იგი გვერდზე, არის თუ არა ამ სიტყვის სხვა გვერდების ბმულები. მოკლედ, აუცილებელია გვერდზე ნაპოვნი სიტყვების რანჟირება მნიშვნელობის მიხედვით. სიტყვებს ენიჭება წონა იმის მიხედვით, თუ რამდენჯერ და სად ხდება ისინი (გვერდის სათაურში, გვერდის დასაწყისში ან ბოლოს, ბმულზე, მეტატეგში და ა.შ.). თითოეულ საძიებო სისტემას აქვს საკუთარი წონის ალგორითმი - ეს არის ერთ-ერთი მიზეზი, რის გამოც საძიებო სისტემები აძლევენ რესურსების სხვადასხვა ჩამონათვალს ერთი და იგივე საკვანძო სიტყვისთვის. იმის გამო, რომ გვერდები მუდმივად განახლდება, ინდექსირების პროცესი უნდა იყოს უწყვეტი. Spiderbots კვეთს ბმულებს და ქმნიან ფაილს, რომელიც შეიცავს ინდექსის, რომელიც შეიძლება იყოს საკმაოდ დიდი. მისი ზომის შესამცირებლად ისინი მიმართავენ ინფორმაციის რაოდენობის შემცირებას და ფაილის შეკუმშვას. მრავალი რობოტით, საძიებო სისტემას შეუძლია წამში ასობით გვერდის დამუშავება. დღეს მძლავრი საძიებო სისტემები ინახავს ასობით მილიონ გვერდს და ყოველდღიურად იღებენ ათობით მილიონ შეკითხვას.

ინდექსის აგებისას ასევე მოგვარებულია დუბლიკატების რაოდენობის შემცირების პრობლემა - არა ტრივიალური ამოცანა, იმის გათვალისწინებით, რომ სწორი შედარებისთვის, ჯერ უნდა დაადგინოთ დოკუმენტის კოდირება. უფრო მეტიც რთული ამოცანაარის ძალიან მსგავსი დოკუმენტების გამოყოფა (მათ უწოდებენ "თითქმის დუბლიკატებს"), მაგალითად, მათ, რომლებშიც მხოლოდ სათაური განსხვავდება და ტექსტი დუბლირებულია. ინტერნეტში უამრავი მსგავსი დოკუმენტია – მაგალითად, ვიღაცამ ჩამოწერა რეფერატი და გამოაქვეყნა საიტზე თავისი ხელმოწერით. თანამედროვე საძიებო სისტემები საშუალებას გაძლევთ გადაჭრას ასეთი პრობლემები.

საძიებო სისტემის რობოტები, რომლებსაც ზოგჯერ უწოდებენ "ობობებს" ან "მცოცავებს" (crawlers) არის პროგრამული უზრუნველყოფის მოდულები, რომლებიც ეძებენ ვებ გვერდებს. როგორ მუშაობენ ისინი? რას აკეთებენ ისინი სინამდვილეში? რატომ არიან ისინი მნიშვნელოვანი?

საძიებო სისტემების ოპტიმიზაციისა და საძიებო სისტემების ინდექსების მონაცემთა ბაზების ირგვლივ არსებული ხმაურით, შესაძლოა ფიქრობთ, რომ რობოტები დიდი და ძლიერი არსებები უნდა იყვნენ. Სიმართლეს არ შეესაბამება. საძიებო სისტემის რობოტებს აქვთ მხოლოდ ძირითადი ფუნქციები, რომლებიც მსგავსია ადრეული ბრაუზერების ფუნქციებით, თუ რა ინფორმაციის ამოცნობა შეუძლიათ მათ საიტზე. ადრეული ბრაუზერების მსგავსად, რობოტებს უბრალოდ არ შეუძლიათ გარკვეული რამის გაკეთება. რობოტებს არ ესმით ჩარჩოები, Flash ანიმაციები, სურათები ან JavaScript. ისინი ვერ შედიან პაროლით დაცულ განყოფილებებში და არ შეუძლიათ დააწკაპუნონ ყველა ღილაკზე, რომელიც არის საიტზე. მათ შეუძლიათ გაიჭედონ დინამიური URL-ების ინდექსირების პროცესში და იყვნენ ძალიან ნელი, გაჩერებამდე და უძლური JavaScript ნავიგაციაზე.

როგორ მუშაობენ საძიებო სისტემის რობოტები?

ვებ მცოცავი უნდა ჩაითვალოს, როგორც ავტომატური მონაცემთა მოპოვების პროგრამებს, რომლებიც ინტერნეტში სრიალებს ინფორმაციის და ინფორმაციის ბმულების მოსაძებნად.

როდესაც თქვენ ეწვიეთ URL-ის გაგზავნის გვერდს, დარეგისტრირდებით სხვა ვებ გვერდს საძიებო სისტემაში, ახალი URL ემატება რიგში რობოტის მიერ საიტების სანახავად. მაშინაც კი, თუ თქვენ არ დაარეგისტრირებთ გვერდს, ბევრი რობოტი იპოვის თქვენს საიტს, რადგან არის ბმულები სხვა საიტებიდან, რომლებიც აკავშირებენ თქვენს საიტს. ეს არის ერთ-ერთი მიზეზი, რის გამოც მნიშვნელოვანია ბმულების პოპულარობის გაზრდა და ბმულების განთავსება სხვა თემატურ რესურსებზე.

როდესაც ისინი თქვენს საიტზე მოდიან, რობოტები ჯერ ამოწმებენ არის თუ არა robots.txt ფაილი. ეს ფაილი ეუბნება რობოტებს თქვენი საიტის რომელი სექციები არ უნდა იყოს ინდექსირებული. ჩვეულებრივ, ეს შეიძლება იყოს დირექტორიები, რომლებიც შეიცავს ფაილებს, რომლებიც რობოტს არ აინტერესებს ან არ უნდა იცოდეს.

რობოტები ინახავენ და აგროვებენ ბმულებს ყველა გვერდიდან, რომელსაც ისინი სტუმრობენ და მოგვიანებით მიჰყვებიან ამ ბმულებს სხვა გვერდებზე. მთელი მსოფლიო ქსელი აგებულია ბმულებით. ინტერნეტ ქსელის შექმნის თავდაპირველი იდეა იყო ის, რომ შესაძლებელი იქნებოდა ბმულების მიყოლა ერთი ადგილიდან მეორეზე. ასე მოძრაობენ რობოტები.

რეალურ დროში გვერდების ინდექსირების გამოგონება დამოკიდებულია საძიებო სისტემების ინჟინრებზე, რომლებმაც გამოიგონეს საძიებო სისტემის რობოტების მიერ მიღებული ინფორმაციის შესაფასებლად გამოყენებული მეთოდები. საძიებო სისტემის მონაცემთა ბაზაში ჩაშენების შემდეგ, ინფორმაცია ხელმისაწვდომია მომხმარებლებისთვის, რომლებიც ასრულებენ ძიებას. როდესაც საძიებო სისტემის მომხმარებელი შეაქვს საძიებო ტერმინს, კეთდება სწრაფი გამოთვლების სერია, რათა უზრუნველყოფილ იქნას საიტების სწორი ნაკრები ყველაზე შესაბამისი პასუხისთვის.

თქვენ შეგიძლიათ ნახოთ თქვენი საიტის რომელ გვერდებს უკვე ეწვია საძიებო რობოტი, რომელსაც ხელმძღვანელობს სერვერის ჟურნალის ფაილები ან ჟურნალის ფაილის სტატისტიკური დამუშავების შედეგები. რობოტების იდენტიფიცირებით, თქვენ ხედავთ, როდის ეწვივნენ ისინი თქვენს საიტს, რომელ გვერდებს და რამდენად ხშირად. ზოგიერთი რობოტი ადვილად იდენტიფიცირებულია მათი სახელებით, როგორიცაა Googles Googlebot. სხვები უფრო დამალულია, როგორიცაა Inktomis Slurp. ჟურნალებში სხვა რობოტებიც მოიძებნება და შესაძლებელია მათი ამოცნობა დაუყოვნებლივ ვერ შეძლოთ; ზოგიერთი მათგანი შეიძლება იყოს ადამიანის მიერ კონტროლირებადი ბრაუზერები.

გარდა უნიკალური მცოცავების იდენტიფიცირებისა და მათი ვიზიტების დათვლისა, სტატისტიკამ ასევე შეიძლება აჩვენოს აგრესიული, გამტარუნარიანობის მცოცავი მცოცავი ან მცოცავი, რომლის მონახულებაც არ გსურთ თქვენს საიტზე.

როგორ კითხულობენ ისინი თქვენი ვებსაიტის გვერდებს?

როდესაც მცოცავი ეწვევა გვერდს, ის უყურებს მის ხილულ ტექსტს, სხვადასხვა ტეგების შინაარსს თქვენი გვერდის საწყის კოდში (სათაურის ტეგი, მეტატეგები და ა.შ.) და გვერდის ჰიპერბმულებს. თუ ვიმსჯელებთ ბმულების სიტყვებით, საძიებო სისტემა წყვეტს, თუ რაზეა გვერდი. ბევრი ფაქტორი გამოიყენება გვერდის „როლის თამაშის“ საკვანძო პუნქტების გამოსათვლელად. თითოეულ საძიებო სისტემას აქვს ინფორმაციის შეფასების და დამუშავების საკუთარი ალგორითმი. იმის მიხედვით, თუ როგორ არის რობოტის კონფიგურაცია, ინფორმაცია ინდექსირებულია და შემდეგ მიეწოდება საძიებო სისტემის მონაცემთა ბაზას.

ამის შემდეგ საძიებო სისტემის ინდექსების მონაცემთა ბაზებში მიწოდებული ინფორმაცია ხდება საძიებო სისტემისა და მონაცემთა ბაზის რეიტინგის პროცესის ნაწილი. როდესაც სტუმარი აკეთებს მოთხოვნას, საძიებო სისტემა გადის მთელ მონაცემთა ბაზას, რათა დააბრუნოს საბოლოო სია, რომელიც შესაბამისია საძიებო მოთხოვნა.

საძიებო სისტემის მონაცემთა ბაზები საგულდაგულოდ არის დამუშავებული და გასწორებული. თუ თქვენ უკვე იმყოფებით მონაცემთა ბაზაში, რობოტები პერიოდულად გესტუმრებიან, რათა შეაგროვონ ცვლილებები გვერდებზე და დარწმუნდნენ, რომ მათ აქვთ უახლესი ინფორმაცია. ვიზიტების რაოდენობა დამოკიდებულია საძიებო სისტემის პარამეტრებზე, რომლებიც შეიძლება განსხვავდებოდეს მისი ტიპისა და დანიშნულების მიხედვით.

ზოგჯერ საძიებო რობოტებს არ შეუძლიათ ვებსაიტის ინდექსირება. თუ თქვენი საიტი გათიშულია ან საიტი გაქრება დიდი რიცხვივიზიტორებს, რობოტი შესაძლოა უძლური იყოს მის ინდექსირებაში. როდესაც ეს მოხდება, საიტის ხელახალი ინდექსირება შეუძლებელია, იმისდა მიხედვით, თუ რამდენად ხშირად სტუმრობს მას რობოტი. უმეტეს შემთხვევაში, რობოტები, რომლებმაც ვერ შეძლეს თქვენს გვერდებზე წვდომა, შეეცდებიან მოგვიანებით, იმ იმედით, რომ თქვენი საიტი მალე იქნება ხელმისაწვდომი.

ბევრი მცოცავი ვერ იდენტიფიცირებულია ჟურნალების ნახვისას. ისინი შესაძლოა თქვენთან სტუმრობდნენ, მაგრამ ჟურნალებში ნათქვამია, რომ ვიღაც იყენებს Microsoft ბრაუზერს და ა.შ. ზოგიერთი რობოტი იდენტიფიცირებულია საძიებო სისტემის (googlebot) ან მისი კლონის (Scooter = AltaVista) სახელის გამოყენებით.

იმის მიხედვით, თუ როგორ არის რობოტის კონფიგურაცია, ინფორმაცია ინდექსირებულია და შემდეგ მიეწოდება საძიებო სისტემის მონაცემთა ბაზებს.

საძიებო სისტემის მონაცემთა ბაზები ექვემდებარება ცვლილებას სხვადასხვა დროს. დირექტორიებიც კი, რომლებსაც აქვთ მეორადი ძიების შედეგები, იყენებენ რობოტის მონაცემებს, როგორც მათი ვებსაიტის შინაარსს.

ფაქტობრივად, რობოტებს საძიებო სისტემები მხოლოდ ზემოაღნიშნულისთვის არ იყენებენ. არის რობოტები, რომლებიც ამოწმებენ მონაცემთა ბაზებს ახალი შინაარსისთვის, ეწვევა ძველი მონაცემთა ბაზის შიგთავსს, ამოწმებს შეიცვალა თუ არა ბმულები, ჩამოტვირთავს მთელ საიტებს დასათვალიერებლად და ა.შ.

ამ მიზეზით, ჟურნალის ფაილების წაკითხვა და საძიებო სისტემის შედეგების თვალყურის დევნება გეხმარებათ თვალი ადევნოთ თქვენი პროექტების ინდექსირებას.

განმარტებები და ტერმინოლოგია
რობოტების სახელები
ცოტა ისტორია
რას აკეთებენ საძიებო სისტემების რობოტები?
რობოტების ქცევა საიტზე
რობოტის კონტროლი
დასკვნები

რა არის საძიებო სისტემის რობოტები? რა ფუნქციას ასრულებენ ისინინიატი? რა მახასიათებლები აქვს საძიებო რობოტების მუშაობას? ჩვენ აქ ვართჩვენ შევეცდებით ამ და სხვა კითხვებზე პასუხის გაცემას,ჩართულია რობოტების მუშაობაში.

განმარტებები და ტერმინოლოგია

ინგლისურში საძიებო რობოტების სახელების რამდენიმე ვარიანტია: რობოტები, ვებ-ბოტები, მცოცავი, ობობები; რუსულ ენაში ფაქტობრივად ერთი ტერმინი გაჩნდა - რობოტები ან მოკლედ ბოტები.

საიტზე www. robotstxt. org განსაზღვრავს რობოტებს შემდეგნაირად:

„ვებბოტი არის პროგრამა, რომელიც კვეთს WWW-ის ჰიპერტექსტის სტრუქტურას დოკუმენტების რეკურსიულად მოთხოვნითა და მოძიებით“.

საკვანძო სიტყვა ამ განმარტებაში არის რეკურსიულად,იმათ. ეს ნიშნავს, რომ დოკუმენტის მიღების შემდეგ რობოტი ითხოვს დოკუმენტებს მისგან ბმულების გამოყენებით და ა.შ.

სახელებირობოტები

საძიებო რობოტების უმეტესობას აქვს საკუთარი უნიკალური სახელი (გარდა იმ რობოტებისა, რომლებიც რატომღაც თავს იცვამენ მომხმარებლის ბრაუზერებში).

რობოტის სახელი შეგიძლიათ იხილოთ სერვერის ჟურნალის ფაილების მომხმარებლის აგენტის ველში, სერვერის სტატისტიკის სისტემის ანგარიშებში და საძიებო სისტემის დახმარების გვერდებზე.

ასე რომ, Yandex რობოტს ერთობლივად უწოდებენ Yandex, Rambler რობოტს არის StackRambler, Yahoo! - სლურპ და ა.შ. მომხმარებლის პროგრამებიც კი, რომლებიც აგროვებენ შინაარსს მოგვიანებით სანახავად, შეიძლება სპეციალურად იყოს წარმოდგენილი მომხმარებლის აგენტის ველში არსებული ინფორმაციის გამოყენებით.

რობოტის სახელის გარდა, მომხმარებლის აგენტის ველი შეიძლება შეიცავდეს დამატებით ინფორმაციას: რობოტის ვერსიას, დანიშნულებას და გვერდის მისამართს დამატებითი ინფორმაციით.

Ცოტამოთხრობები

ჯერ კიდევ 1990-იანი წლების პირველ ნახევარში, ინტერნეტის განვითარების დროს, გაჩნდა ვებ რობოტების პრობლემა, რომელიც დაკავშირებულია იმ ფაქტთან, რომ ზოგიერთმა პირველმა რობოტმა შეიძლება მნიშვნელოვნად ჩატვირთოს ვებ სერვერი, მის წარუმატებლობამდე, იმის გამო, რომ ისინი ძალიან მოკლე დროში ასრულებდნენ საიტს უამრავ მოთხოვნას. სისტემის ადმინისტრატორებმა და ვებ სერვერის ადმინისტრატორებმა არ შეძლეს აკონტროლონ რობოტის ქცევა თავიანთ საიტებზე, მაგრამ მხოლოდ მთლიანად დაბლოკეს რობოტის წვდომა არა მხოლოდ საიტზე, არამედ სერვერზეც.

1994 წელს შეიქმნა robots.txt პროტოკოლი, რომელიც ადგენს გამონაკლისებს რობოტებისთვის და საშუალებას აძლევს მომხმარებლებს გააკონტროლონ საძიებო რობოტები თავიანთ საიტებში. თქვენ წაიკითხეთ ამ მახასიათებლების შესახებ მე-6 თავში, „თქვენი საიტის ხელმისაწვდომობა საძიებო სისტემებისთვის“.

მომავალში, როგორც ვებ იზრდებოდა, გაიზარდა საძიებო რობოტების რაოდენობა და მათი ფუნქციონირება მუდმივად ფართოვდებოდა. ზოგიერთი საძიებო რობოტი დღემდე არ შემორჩენილა, დარჩა მხოლოდ 1990-იანი წლების ბოლოს სერვერის ჟურნალის ფაილების არქივებში. ვის ახსოვს ახლა T-Rex რობოტი, რომელიც აგროვებს ინფორმაციას Lycos სისტემისთვის? გადაშენებულია დინოზავრის მსგავსად, რომლის სახელიც მას ეწოდა. ან სად ვიპოვო სკუტერი - Altavista სისტემის რობოტი? არსად! მაგრამ 2002 წელს ის კვლავ აქტიურად ახორციელებდა დოკუმენტების ინდექსირებას.

Yandex-ის მთავარი რობოტის სახელითაც კი შეიძლება იხილოთ წარსული დღეების ექო: მისი სრული სახელის ფრაგმენტი „თავსებადი; Win16;” დაემატა ზოგიერთ ძველ ვებ სერვერთან თავსებადობისთვის.

Რაკეთებარობოტებიძებნასისტემები

რა ფუნქციების შესრულება შეუძლიათ რობოტებს?

საძიებო სისტემაში რამდენიმე განსხვავებული რობოტია და თითოეულს თავისი დანიშნულება აქვს. აქ მოცემულია რობოტების მიერ შესრულებული რამდენიმე დავალება:

მოთხოვნების დამუშავება და დოკუმენტების მოძიება;
ბმულის შემოწმება;
განახლებების მონიტორინგი, საიტის ან სერვერის ხელმისაწვდომობის შემოწმება;
გვერდების შინაარსის ანალიზი კონტექსტური რეკლამის შემდგომი განთავსებისთვის;
შინაარსის შეგროვება ალტერნატიულ ფორმატებში (გრაფიკა, მონაცემები RSSnAtom ფორმატებში).

მაგალითისთვის ავიღოთ Yandex რობოტების სია. Yandex იყენებს რამდენიმე ტიპის რობოტს სხვადასხვა ფუნქციით. მათი ამოცნობა შეგიძლიათ მომხმარებლის აგენტის სტრიქონით.

Yandex/1.01.001 (თავსებადი; Win 16; I) - მთავარი ინდექსირების რობოტი.
Yandex/1.01.001 (თავსებადი; Win 16; P) - გამოსახულების ინდექსატორი.
Yandex/1.01.001 (თავსებადი; Win 16; H) - რობოტი, რომელიც აღმოაჩენს ვებსაიტების სარკეებს.
Yandex/1.03.003 (თავსებადი; Win 16; D) - რობოტი, რომელიც წვდება გვერდზე, როდესაც მას დაემატება "URL-ის დამატება" ფორმის საშუალებით.
Yandex/1.03.000 (თავსებადი; Win 16; M) - რობოტი, რომელიც წვდება ბმულს "ნაპოვნი სიტყვები" გვერდის გახსნისას.
YandexBlog/0.99.101 (თავსებადი; DOS3.30; Mozilla/5.0; B;robot) - რობოტი, რომელიც ახდენს xml ფაილების ინდექსირებას ბლოგის საძიებლად.
YandexSomething/1.0 არის რობოტი, რომელიც ახდენს ახალი ამბების ინდექსირებას Yandex.News-ის პარტნიორებიდან და რობოტებიდან. txt ბლოგის მცოცავისთვის.

გარდა ამისა, Yandex-ს აქვს რამდენიმე შემმოწმებელი რობოტი - "უბრალოდ-თავი დაუქნია",რომელიც მხოლოდ ამოწმებს დოკუმენტების ხელმისაწვდომობას, მაგრამ არ ახდენს მათ ინდექსირებას.

Yandex/2.01.000 (თავსებადი; Win 16; Dyatel; С) - Yandex.Catalog-ის „მარტივი ქნევა“. თუ საიტი რამდენიმე დღის განმავლობაში მიუწვდომელია, ის ამოღებულია გამოქვეყნებიდან. როგორც კი საიტი იწყებს რეაგირებას, ის ავტომატურად გამოჩნდება დირექტორიაში.
Yandex/2.01.000 (თავსებადი; Win 16; Dyatel; Z) - „მარტივი დახრილი“ Yandex.Bookmarks. მიუწვდომელი საიტების ბმულები მონიშნულია ნაცრისფერში.
Yandex/2.01.000 (თავსებადი; Win 16; Dyatel; D) - Yandex.Direct-ის „გლუვი როლიკერი“. ის ამოწმებს რეკლამებიდან ბმულების სისწორეს მოდერაციამდე.

თუმცა, ყველაზე გავრცელებული რობოტები არიან ისინი, რომლებიც ითხოვენ, იღებენ და დაარქივებენ დოკუმენტებს სხვა საძიებო სისტემების მიერ შემდგომი დამუშავებისთვის. აქ მიზანშეწონილი იქნება რობოტის გამოყოფა ინდექსატორისგან.

საძიებო რობოტი ათვალიერებს საიტებს და იღებს დოკუმენტებს მისამართების შიდა სიის მიხედვით. ზოგიერთ შემთხვევაში, რობოტს შეუძლია შეასრულოს დოკუმენტების ძირითადი ანალიზი მისამართების სიის დასასრულებლად. დოკუმენტების შემდგომი დამუშავება და საძიებო სისტემის ინდექსის აგება უკვე საძიებო სისტემის ინდექსატორის მიერ ხდება. ამ სქემის რობოტი მხოლოდ "კურიერია" მონაცემების შეგროვებისთვის.

რობოტების ქცევა საიტზე

რა განსხვავებაა საიტზე რობოტის ქცევასა და ჩვეულებრივი მომხმარებლის ქცევას შორის?

კონტროლირებადი.უპირველეს ყოვლისა, "ინტელექტუალურმა" რობოტმა უნდა მოითხოვოს რობოტების ფაილი სერვერიდან. txt ინდექსირების ინსტრუქციებით.
შერჩევითი სატუმბი.დოკუმენტის მოთხოვნისას, რობოტი ნათლად მიუთითებს მოთხოვნილი მონაცემების ტიპებზე, განსხვავებით ჩვეულებრივი ბრაუზერისგან, რომელიც მზად არის მიიღოს ყველაფერი ზედიზედ. პოპულარული საძიებო სისტემების მთავარი რობოტები პირველ რიგში მოითხოვენ ჰიპერტექსტს და უბრალო ტექსტურ დოკუმენტებს, უგულებელყოფენ CSS სტილის ფაილებს, სურათებს, ვიდეოებს. Zip არქივები და ა.შ. ამჟამად ინფორმაცია ასევე მოთხოვნადია PDF, Rich Text, MS Word, MS Excel და სხვა ფორმატებში.
არაპროგნოზირებადობა.შეუძლებელია რობოტის საიტისკენ მიმავალი გზის თვალყურის დევნება ან პროგნოზირება, რადგან ის არ ტოვებს ინფორმაციას Referer ველში - იმ გვერდის მისამართს, საიდანაც ის მოვიდა; რობოტი უბრალოდ ითხოვს დოკუმენტების სიას, როგორც ჩანს, შემთხვევითი თანმიმდევრობით, მაგრამ სინამდვილეში მისი შიდა სიის ან ინდექსირების რიგის შესაბამისად.
სიჩქარე.მცირე დრო სხვადასხვა დოკუმენტების მოთხოვნებს შორის. აქ საუბარია წამებზე ან წამის ნაწილებზე ორი განსხვავებული დოკუმენტის მოთხოვნას შორის. ზოგიერთი რობოტისთვის არის სპეციალური ინსტრუქციებიც კი, რომლებიც მითითებულია რობოტების ფაილში. txt, შეზღუდოს დოკუმენტების მოთხოვნის სიჩქარე, რათა არ გადაიტვირთოს საიტი.

ჩვენ არ ვიცით, როგორი შეიძლება იყოს HTML გვერდი რობოტის თვალში, მაგრამ შეგვიძლია ვცადოთ მისი წარმოდგენა ბრაუზერში გრაფიკის გამორთვით და სტილისტიკით.

ამრიგად, შეგვიძლია დავასკვნათ, რომ საძიებო რობოტები ატვირთავენ გვერდის HTML სტრუქტურას თავიანთ ინდექსში, მაგრამ დიზაინის ელემენტების და სურათების გარეშე.

რობოტის კონტროლი

როგორ შეუძლია ვებმასტერს მართოს საძიებო რობოტების ქცევა თავის საიტზე?

როგორც ზემოთ აღინიშნა, 1994 წელს ვებმასტერებს შორის ღია დებატების შედეგად შეიქმნა სპეციალური გამონაკლისის პროტოკოლი რობოტებისთვის. დღემდე, ეს პროტოკოლი არ იქცა სტანდარტად ვალდებულიაშეასრულეთ ყველა რობოტი გამონაკლისის გარეშე, რჩება მხოლოდ მკაცრი რეკომენდაციების სტატუსში. არ არსებობს შემთხვევა, როდესაც შეგიძლიათ უჩივლოთ რობოტს, რომელიც არ იცავს გამონაკლისის წესებს, თქვენ შეგიძლიათ უარყოთ საიტზე წვდომა მხოლოდ ვებ სერვერის პარამეტრების ან ქსელური ინტერფეისების გამოყენებით IP მისამართებისთვის, საიდანაც "არაინტელექტუალური" რობოტმა გაგზავნა თავისი მოთხოვნები.

თუმცა, დიდი საძიებო სისტემების რობოტები იცავენ გამონაკლისის წესებს, უფრო მეტიც, ისინი ქმნიან მათ საკუთარ გაფართოებებს.

სპეციალური robots.txt ფაილის ინსტრუქციების შესახებ. და სპეციალური რობოტების მეტა-ტეგი დეტალურად იყო განხილული მე-6 თავში, „თქვენი საიტის ხელმისაწვდომობა საძიებო სისტემებისთვის“.

robots.txt-ის დამატებითი ინსტრუქციების დახმარებით, რომლებიც არ არის სტანდარტში, ზოგიერთი საძიებო სისტემა იძლევა უფრო მოქნილ კონტროლს მათი რობოტების ქცევაზე. მაგალითად, Crawl-delay ინსტრუქციის გამოყენებით, ვებმასტერს შეუძლია დააყენოს დროის ინტერვალი ორი დოკუმენტის თანმიმდევრულ მოთხოვნას შორის Yahoo! რობოტებისთვის. და MSN და გამოყენებით ინსტრუქცია No-; მიუთითეთ Yandex-ის მთავარი საიტის სარკის მისამართი. თუმცა, რობოტებში არასტანდარტული ინსტრუქციებით მუშაობა. txi უნდა იყოს ძალიან ფრთხილად, რადგან სხვა საძიებო სისტემის რობოტს შეუძლია უგულებელყოს არა მხოლოდ ინსტრუქცია, რომელიც არ ესმის, არამედ მასთან დაკავშირებული წესების მთელი ნაკრები.

ასევე შესაძლებელია საძიებო რობოტების ვიზიტების არაპირდაპირი კონტროლი, მაგალითად, გუგლის საძიებო სისტემის რობოტი უფრო ხშირად ხელახლა აგროვებს იმ დოკუმენტებს, რომლებზეც ბევრია მითითებული სხვა საიტებიდან.

ხელმისაწვდომია უმაღლესი განათლება - მასაჟისტთა ტრენინგი.

ინტერნეტში ას მილიონზე მეტი რესურსია და მილიონობით საჭირო გვერდი ჩვენთვის არასოდეს გახდება ცნობილი. როგორ ვიპოვოთ წვეთი, რომელიც გვჭირდება ამ ოკეანეში? სწორედ აქ არის საქმე ჩვენს დახმარებაში. ძიება ow მანქანა. ის ობობა, და მხოლოდ მან იცის, რა და რომელ ქსელში აქვს.

ძიებაახალი მანქანები ინტერნეტიდა, ეს არის სპეციალურად შექმნილი საიტები, რათა დაგეხმაროთ იპოვოთ თქვენთვის საჭირო ინფორმაცია მსოფლიო ქსელის გლობალურ ქსელში. არსებობს სამი ძირითადი ფუნქცია, იგივე ყველასთვის ძიებაახალი მანქანები:

- ძიება oviks მოცემულ საკვანძო სიტყვებზე „მოძებნე“ ინტერნეტში;
- მისამართები ინდექსირებულია ძიებაოვიკამი სიტყვებთან ერთად;
- ინდექსირებული ვებ გვერდები ქმნიან საფუძველს, რომელიც ძიება oviki მომხმარებლებს სთავაზობს ძიებადა საკვანძო სიტყვები ან მათი კომბინაციები.

Პირველი ძიებაჰოვიკი დღეში 2000-მდე მოთხოვნას იღებდა და ასობით ათასი გვერდის ინდექსირებას ახდენს. დღესდღეობით მოთხოვნათა რაოდენობა დღეში ასობით მილიონ გვერდს და ათეულ მილიონს აღწევს.

პსაძიებო სისტემები მდე მსოფლიო ქსელში.

Პირველი ძიებაოვიკამი ინტერნეტიდა იყო "გოფერი" და "არჩი" გადაცემები. მათ დაკავშირებულზე მდებარე ფაილების ინდექსირება მოახდინეს ინტერნეტისერვერები, რომლებიც არაერთხელ ამცირებენ დროს ძიებასაჭირო დოკუმენტები. 1980-იანი წლების ბოლოს, მუშაობის უნარი ინტერნეტიარჩის, გოფერის, ვერონიკას და მსგავსების გამოყენების უნარს არ მოჰყოლია ძიებაახალი პროგრამები.

დღეს ვებგახდა ყველაზე მოთხოვნადი ნაწილი ინტერნეტიდა უმრავლესობა ინტერნეტიმომხმარებლები ახორციელებენ ძიებამხოლოდ შიგნით მსოფლიო ფართო ქსელი (www).

რობოტი - ობობა

რობოტის პროგრამა გამოიყენება ძიებაახალი მანქანები, მას ასევე უწოდებენ "ობობა", ობობა(ობობა), ასრულებს wed-resource გვერდზე ნაპოვნი სიტყვების სიის შექმნის პროცესს. პროცესს ე.წ ვებ მცოცავი(მცოცავი). ძიებაახალი ობობაათვალიერებს უამრავ სხვა გვერდს, აშენებს და აფიქსირებს სასარგებლო სიტყვების სიას, ე.ი. აქვს გარკვეული მნიშვნელობა, წონა.

მოგზაურობა მეშვეობით ძიება u ქსელში ობობა (ობობა) იწყება ყველაზე დიდი სერვერით და ყველაზე პოპულარული ვებ გვერდებით. ასეთი საიტის გვერდის ავლით და ყველა ნაპოვნი სიტყვის ინდექსაციის შემდეგ, ის მიდის სხვა საიტებზე ნაპოვნი ბმულების გამოყენებით. ამ გზით რობოტი ობობაიჭერს მთელ ვებ სივრცეს.

Google-ის დამფუძნებლები სერგეი ბრინი და ლორენს პეიჯი მაგალითს აძლევენ Google-ის მუშაობას ობობა ov. Არსებობს რამდენიმე. ძიებაიწყება სამი ობობაამი. ერთი ობობამხარს უჭერს 300-მდე გვერდის კავშირს ერთდროულად. პიკური დატვირთვა, ოთხი ობობადა შეუძლიათ წამში ასამდე გვერდის დამუშავება, ხოლო ტრაფიკის გენერირება დაახლოებით 600 კილობაიტი/წმ. ამ მომენტში, როდესაც ამას კითხულობთ, რიცხვები შეიძლება სასაცილოდ მოგეჩვენოთ.

საკვანძო სიტყვები საძიებო სისტემის რობოტისთვის

ჩვეულებრივ, ვებ რესურსის მფლობელს სურს ჩართვა ძიებაახალი შედეგები საჭირო ძიებაუი სიტყვები. ამ სიტყვებს ე.წ გასაღების. კლიუჩევისიტყვები განსაზღვრავს ვებ გვერდის შინაარსის არსს. და მეტა ტეგები ამაში გვეხმარება. შემდეგ ისინი სთავაზობენ საძიებო რობოტს არჩევანს გასაღებიგვერდის ინდექსისთვის გამოყენებული სიტყვები. მაგრამ ჩვენ არ გირჩევთ მეტატეგების დამატებას პოპულარულ შეკითხვებზე, რომლებიც არ არის დაკავშირებული თავად გვერდის შინაარსთან. საძიებო სისტემის ბოტები ებრძვიან ამ ფენომენს და გაგიმართლებთ, თუ ის უბრალოდ გამოტოვებს მეტა ტეგებს გასაღებისხვა სიტყვებით რომ ვთქვათ, არ შეესაბამება გვერდების შინაარსს.

მეტა ტეგები ძალიან სასარგებლო ინსტრუმენტია, როდესაც გასაღებიმათი პირველი სიტყვები გვერდის ტექსტში რამდენჯერმე მეორდება. ოღონდ არ გადააჭარბოთ, არის შანსი, რომ რობოტმა გვერდი კარიბჭისკენ წაიღოს.

საძიებო სისტემის ინდექსირების ალგორითმები

ალგორითმები ძიებაჰოვიკები ორიენტირებულია საბოლოო შედეგის ეფექტურობაზე, მაგრამ ყველას აქვს განსხვავებული მიდგომა ამის მიმართ. ლიკოსი ძიებაახალი რობოტები აფიქსირებენ სიტყვებს სათაურში (სათაურში), ბმულებს (ბმულებს) და ასამდე ხშირად გამოყენებულ სიტყვას გვერდზე და თითოეულ სიტყვას გვერდის შინაარსის პირველი 20 სტრიქონიდან.

Googlebot ითვალისწინებს სიტყვის მდებარეობას გვერდზე (სხეულის ელემენტში). სერვისის სექციების სიტყვები, როგორიცაა სუბტიტრები, სათაური, მეტა ტეგებიდა სხვები აღნიშნავს, როგორც განსაკუთრებით მნიშვნელოვანს, გამორიცხულია შუამავლები "a", "an" და "the.".

სხვა ძიება oviki-ს შეიძლება ჰქონდეს ოდნავ განსხვავებული გზა, რათა მიუახლოვდეს გამოყენებული სიტყვების ინდექსირებას ძიებამომხმარებლების ახალი მოთხოვნები.

ჩვეულებრივ, საძიებო სისტემაარის საიტი, რომელიც სპეციალიზირებულია მომხმარებლის მოთხოვნის კრიტერიუმების შესაბამისი ინფორმაციის მოძიებაში. ასეთი საიტების მთავარი ამოცანაა ქსელში ინფორმაციის ორგანიზება და სტრუქტურა.

ადამიანების უმეტესობას, საძიებო სისტემის სერვისების გამოყენებით, არასოდეს უკვირს, თუ როგორ მუშაობს მანქანა, ეძებს საჭირო ინფორმაციას ინტერნეტის სიღრმიდან.

ჩვეულებრივი ქსელის მომხმარებლისთვის, საძიებო სისტემების მუშაობის პრინციპების კონცეფცია არ არის კრიტიკული, რადგან ალგორითმები, რომლებიც ხელმძღვანელობენ სისტემას, შეუძლიათ დააკმაყოფილონ იმ ადამიანის მოთხოვნილებები, რომლებმაც არ იციან როგორ გააკეთოს ოპტიმიზებული მოთხოვნა ძიების დროს. საჭირო ინფორმაცია. მაგრამ ვებ დეველოპერისთვის და ვებ გვერდის ოპტიმიზაციაში ჩართული სპეციალისტებისთვის, უბრალოდ, აუცილებელია ჰქონდეთ სულ მცირე საწყისი კონცეფციები საძიებო სისტემების სტრუქტურისა და პრინციპების შესახებ.

თითოეული საძიებო სისტემა მუშაობს ზუსტ ალგორითმებზე, რომლებიც დაცულია უმკაცრესი კონფიდენციალურობით და ცნობილია მხოლოდ თანამშრომლების მცირე წრისთვის. მაგრამ საიტის დიზაინის ან მისი ოპტიმიზაციისას აუცილებელია გავითვალისწინოთ საძიებო სისტემების ფუნქციონირების ზოგადი წესები, რომლებიც განხილულია შემოთავაზებულ სტატიაში.

იმისდა მიუხედავად, რომ თითოეულ PS-ს აქვს საკუთარი სტრუქტურა, ფრთხილად შესწავლის შემდეგ ისინი შეიძლება გაერთიანდეს ძირითად, განზოგადებულ კომპონენტებად:

ინდექსირების მოდული

ინდექსირების მოდული - ეს ელემენტი მოიცავს სამ დამატებით კომპონენტს (ბოტებს):

1. ობობა (ობობის რობოტი) - ჩამოტვირთავს გვერდებს, ფილტრავს ტექსტის ნაკადს, ამოიღებს მისგან ყველა შიდა ჰიპერბმულს. გარდა ამისა, Spider ინახავს გადმოტვირთვის თარიღს და სერვერის პასუხის სათაურს, ასევე URL - გვერდის მისამართს.

2. მცოცავი (მცოცავი რობოტი ობობა) - აანალიზებს გვერდზე არსებულ ყველა ბმულს და ამ ანალიზის საფუძველზე ადგენს რომელი გვერდის მონახულება და რომელი არ ღირს. ანალოგიურად, მცოცავი პოულობს ახალ რესურსებს, რომლებიც უნდა დამუშავდეს PS-ის მიერ.

3. ინდექსატორი (Robot-indexer) - ეხება ობობის მიერ გადმოწერილი ინტერნეტ გვერდების ანალიზს. ამ შემთხვევაში, გვერდი თავად იყოფა ბლოკებად და აანალიზებს ინდექსატორის მიერ მორფოლოგიური და ლექსიკური ალგორითმების გამოყენებით. ინდექსატორი აანალიზებს ვებ გვერდის სხვადასხვა ნაწილს: სათაურებს, ტექსტებს და სხვა სერვისულ ინფორმაციას.

ამ მოდულის მიერ დამუშავებული ყველა დოკუმენტი ინახება მაძიებლის მონაცემთა ბაზაში, რომელსაც ეწოდება სისტემის ინდექსი. თავად დოკუმენტების გარდა, მონაცემთა ბაზა შეიცავს საჭირო სერვისის მონაცემებს - ამ დოკუმენტების ფრთხილად დამუშავების შედეგს, რომლითაც საძიებო სისტემა ასრულებს მომხმარებლის მოთხოვნებს.

საძიებო სერვერი

სისტემის შემდეგი ძალიან მნიშვნელოვანი კომპონენტია საძიებო სერვერი, რომლის ამოცანაა მომხმარებლის მოთხოვნის დამუშავება და ძიების შედეგების გვერდის გენერირება.

მომხმარებლის მოთხოვნის დამუშავებით, საძიებო სერვერი ითვლის შერჩეული დოკუმენტების შესაბამისობის ქულას მომხმარებლის მოთხოვნასთან. ეს რეიტინგი განსაზღვრავს პოზიციას, რომელსაც ვებ გვერდი დაიკავებს ძიების შედეგებში. თითოეული დოკუმენტი, რომელიც ემთხვევა საძიებო კრიტერიუმებს, ნაჩვენებია შედეგების გვერდზე, როგორც ფრაგმენტი.

ფრაგმენტი არის გვერდის მოკლე აღწერა, მათ შორის სათაური, ბმული, საკვანძო სიტყვები და მოკლე ტექსტური ინფორმაცია. სნიპეტის საფუძველზე მომხმარებელს შეუძლია შეაფასოს საძიებო სისტემის მიერ შერჩეული გვერდების შესაბამისობა მის მოთხოვნასთან.

ყველაზე მნიშვნელოვანი კრიტერიუმი, რომლითაც საძიებო სერვერი ხელმძღვანელობს მოთხოვნის შედეგების რეიტინგისას, არის ჩვენთვის უკვე ნაცნობი TCI მაჩვენებელი ().

PS-ის ყველა აღწერილი კომპონენტი ძვირია და ძალიან რესურსზე ინტენსიურია. საძიებო სისტემის მუშაობა პირდაპირ დამოკიდებულია ამ კომპონენტების ურთიერთქმედების ეფექტურობაზე.

მოგეწონა სტატია? გამოიწერეთ ბლოგის სიახლეები ან გააზიარეთ სოციალურ ქსელებში და მე გიპასუხებთ

6 კომენტარი პოსტზე „საძიებო სისტემები მათი რობოტები და ობობებია“

დიდი ხანია ვეძებ ამ ინფორმაციას, მადლობა.

პასუხი

მიხარია, რომ თქვენი ბლოგი მუდმივად ვითარდება. ასეთი პოსტები მხოლოდ პოპულარობას მატებს.