Infobroker | Broker Informacji

Schemat działania wyszukiwarki internetowej

Wyszukiwarki internetowe to jedno z podstawowych narzędzi brokerów informacji. Bardzo często poszukiwania informacji zaczyna się w Internecie, nierzadko właśnie tu znajdziemy wszystko, co jest nam potrzebne do wykonania zlecenia. Kiedy indziej zaś po wstępnej analizie dokumentów z sieci pogłębiamy nasze analizy przez przegląd innych źródeł takich jak książki czy specjalistyczne czasopisma. Warto zatem poznać mechanizm działania wyszukiwarek. Wyszukiwarka składa się z czterech podstawowych elementów:

  • Pajączka (Spider, Crawler),
  • Bazy danych,
  • Indeksu,
  • Programu Wyszukującego.

Pajączek czyta zlecone mu strony tak, jak to robi przeglądarka. Czyta kod strony i interpretuje go. W przeciwieństwie jednak do przeglądarki Pajączek czyści kod z niepotrzebnych znaczników HTML i zapamiętuje tylko interesujący go tekst. Oczywiście tekst ten ma własne znaczniki informujące w dalszym procesie program wyszukujący, gdzie dany tekst się znajdywał w kodzie strony, czy był to tytuł, nagłówek H1, zwykły tekst itd. Pajączek po przeczytaniu strony podąża po linkach do podstron w tej samej domenie również je czytając. Różne wyszukiwarki mają zdefiniowaną różną głębokość, na którą zagłębia się pajączek. Zakłada się, że najważniejsze strony powinny być najdalej 2 kliknięcia od strony głównej.

Po \"przerobieniu\" danego serwisu Pajączek poprzez linki kierujące na zewnątrz trafia na inne, nieznane mu dotąd strony. Celem większości wyszukiwarek oprócz prawidłowego dostarczania rankingu jest objęcie jak największej liczby stron – Google na tą chwilę (2005-01-02) ma 8,058,044,651 zindeksowanych stron. Proces indeksowania Internetu opiera się o 2 założenia:

  • do prawie każdej strony ktoś się kiedyś odwołał i można do niej dojść po linkach na stronach bazy wyjściowej i stron znalezionych poprzez tą bazę. Baza wyjściowa to pewna liczba stron www, głównie portali i katalogów, które administratorzy nowej wyszukiwarki ustalają ręcznie, aby ich pajączek miał wyjście na możliwie najwięcej serwisów.
  • resztę stron zaproponują właściciele. Zwykle mówi się o \"dodawaniu stron do wyszukiwarki\". W rzeczywistości formularze wyszukiwarek proponują pajączkowi, które strony ma odwiedzić. Ręczne \"dodanie\" poprzez formularz nie jest więc równoznaczne ze zindeksowaniem strony przez wyszukiwarkę.

Zebrane informacje przekazywane są do Bazy Danych wyszukiwarki. Pajączki wracają na zindeksowane strony po pewnym określonym czasie, lub przy ponownym zaproponowaniu strony do indeksacji. Sprawdza wtedy czy strony się nie zmieniły i ewentualnie pobiera nowe dane.

Baza Danych i Indeks. Baza Danych jest indeksowana (najprawdopodobniej po dodaniu nowego wpisu). Tworzy się Indeks. To czy strona pojawi się przy wyszukiwaniu zależy od tego, czy jej treść została uwzględniona w Indeksie, a nie w Bazie Danych, chociaż zazwyczaj jest to równoważne. Indeks to spis wszystkich unikalnych słów wraz z odnośnikami do miejsc występowania ich w bazie danych. Indeks wyszukiwarki można porównać do indeksu, który można znaleźć w książkach – idea jest taka sama.

Program Wyszukujący. Gdy użytkownik wpisze jakieś hasło w formularzu wyszukiwarki, Program Wyszukujący przeszukuje Indeks w poszukiwaniu tego słowa. Jeśli słowo zostanie znalezione, Program Wyszukujący czyta wszystkie strony z Bazy Danych oznaczone w indeksie jako zawierające dane zapytanie. Następnie posługując się swoimi algorytmami ocenia wartości każdej strony. Za ocenę stron mogą odpowiadać algorytmy w samym Programie Wyszukującym, dodatkowy program (np. PageRank w Google). Na podstawie ocen jest tworzony ranking. W bazie danych znajduje się pełny, zapamiętany tekst.