Seks nie rządzi w wynikach

Jan Kaliński
opublikowano: 11-07-2007, 00:00

Do niedawna użytkownicy wyszukiwarek po wpisaniu hasła otrzymywali listę stron niezwiązanych z obiektem poszukiwań.

Wyszukiwarki w ciągu dekady zmieniły się w zaawansowane systemy

Do niedawna użytkownicy wyszukiwarek po wpisaniu hasła otrzymywali listę stron niezwiązanych z obiektem poszukiwań.

Wraz z rozwojem internetu bardzo szybko stało się jasne, że aby sprawnie poruszać się w gąszczu stron, niezbędne są wyspecjalizowane narzędzia — katalogi oraz wyszukiwarki, umożliwiające łatwy i szybki dostęp do potrzebnych informacji. Od wielu lat mechanizm wyszukiwania jest udoskonalany. Dziś, kiedy sieć tworzą miliardy stron, wyszukiwarki są niezbędne praktycznie każdemu internaucie.

Wabiki i ranking

Na początku istnienia wyszukiwarek ich działanie opierało się na analizie tzw. słów kluczowych wpisanych w źródle strony. Jednak wyrazy wpisywał autor, co sprawiało, że metoda była mało precyzyjna. Każdy mógł dla zwiększenia popularności wpisać jako kluczowe słowo, które użytkownicy internetu najczęściej wpisują w wyszukiwarki. A słowem tym jest... „seks”.

— Pierwsze wyszukiwarki w połowie lat 90. bazowały głównie na analizie tekstu przeszukiwanej strony. Przełomem okazał się algorytm PageRank, wprowadzony przez firmę Google pod koniec ubiegłej dekady. Uwzględniał on pozycję strony w rankingu innych stron www. Mówiąc prościej, im więcej „ważnych” stron zawierało linki do strony „X”, tym jej pozycja była wyższa — wyjaśnia Grzegorz Borowski, kierownik działu funkcjonowania portalu Wirtualna Polska.

Przez długi czas ten mechanizm bardzo dobrze spełniał swoje zadanie. Jednak i on w końcu okazał się zawodny.

— Wraz z popularyzacją wiedzy na temat znaczenia linkowania dokumentów coraz częściej okazywało się, że webmasterzy nie zawsze polecają wartościowe dokumenty. Ponieważ ruch z wyszukiwarek łatwo przekładał się na przychody właścicieli serwisów internetowych, część z nich zaczęła wykorzystywać tę wiedzę, sztucznie zawyżając pozycję swojej strony w wynikach wyszukiwania. W rezultacie słuszny w swoim założeniu mechanizm działał coraz słabiej — twierdzi Artur Banach, prezes spółki NetSprint.pl.

Dziś ranking stron, czyli ich pozycję w wyszukiwarce, w większości serwisów ustala się na podstawie nawet kilkudziesięciu czynników. Najważniejszym wciąż pozostaje liczba odnośników do danej strony, ale bierze się też pod uwagę analizę jej treści. Niektóre wyszukiwarki uwzględniają także popularność strony w internecie.

— Tak zwany Traffic Index umożliwia porównanie zarówno najpopularniejszych portali, jak i małych serwisów hobbystycznych. Algorytm ten jest trudny do zmanipulowania. Wartość serwisu określaną przez ten indeks można zmienić jedynie, poprawiając wartość merytoryczną i zwiększając liczbę internautów regularnie odwiedzających serwis — mówi Artur Banach.

Wyszukiwarki wykorzystują także analizę topologii sieci. Dzięki tej metodzie po wpisaniu np. hasła „Anna Przybylska” użytkownik nie zobaczy stron pornograficznych (których jest najwięcej w sieci), bo zostaną one uznane za niezwiązane z tematem.

Jak to działa?

Aby po sekundzie od wpisania hasła wyszukiwarka mogła podać listę interesujących stron, niezbędne są skomplikowane narzędzia.

— W każdej sekundzie serwis obsługuje kilkadziesiąt zapytań, a odpowiedź musi dostarczyć w ułamku sekundy. Aby uporać się z tymi wyzwaniami, wyszukiwarka gromadzi w swoim magazynie możliwie dużo stron internetowych. Proces ten nazywamy crawlingiem — tłumaczy Artur Banach.

Nie wystarczy zebrać strony tylko raz. Trzeba często sprawdzać, czy dokumenty nie uległy zmianie. Tym wszystkim zajmują się tzw. crawlery.

— Są moduły odpowiedzialne za gromadzenie dokumentów. Wyspecjalizowane programy „wędrują” po sieci, ściągając strony www i dokonując analizy linków w nich umieszczonych. Te z kolei używane są jako adresy kolejnych stron do zebrania itd. Każda strona odwiedzana jest przez program cyklicznie, aby zagwarantować, że w indeksie znajduje się jej najaktualniejsza wersja — opisuje Grzegorz Borowski.

Mając magazyn zawierający wszystkie strony internetowe, system przekodowuje je do takiej formy, która pozwoli na ich szybkie wyszukanie. Tworzy katalog zawierający dokumenty z danym słowem.

— To proces indeksowania. Powstały w jego wyniku indeks jest magazynem, który pozwala szybko znajdować dokumenty pasujące do zapytania — opisuje Artur Banach.

© ℗
Rozpowszechnianie niniejszego artykułu możliwe jest tylko i wyłącznie zgodnie z postanowieniami „Regulaminu korzystania z artykułów prasowych” i po wcześniejszym uiszczeniu należności, zgodnie z cennikiem.

Podpis: Jan Kaliński

Polecane

Inspiracje Pulsu Biznesu

Tematy