Как работает поисковая система Google

Очередной ответ Мэтта Каттса, возглавляющего в поисковике группу Google Webspam, на ставшие уже традиционными вопросы от вебмастеров. В этот раз Мэтту задали вопрос о том, как работает поисковая система Google.

Как заметил Мэтт, что для того чтобы заслужить право называться лучшим поисковиком в мире, нужно быть лучшими в трех вещах:

Проводить глубокое и всестороннее сканирование сети;

Проводить качественную индексацию страниц;

Ранжировать и транслировать в выдаче самые релевантные результаты. Также вас может заинтересовать сканирование слайдов, посмотреть более подробную информацию вы сможете перейдя по ссылке.

Обычно пользователи думают про краулинг, как очень простой и автоматизированный процесс, на самом деле это не так. Скорость сканирования поисковой системы определенного ресурса, напрямую зависит от того, каким page rank’ом обладает страница, от количества ссылок с авторитетных сайтов. По факту, с учетом использования page rank процесс краулинга можно описать в определенной последовательности. Весь процесс занимает около 30 дней. После чего, около двух недель затрачивается на индексацию страниц и последующую обработку информации. Чтобы результаты не теряли актуальности и всегда были наиболее свежими, бот поисковой системы посещает ресурсы с высоким показателем PR регулярно, чтобы не пропустить появления свежей и важной информации.

После чего наступает процесс индексации. Допустим, вам нужно найти Ketty Perry. Алгоритм поиска Google проводит оценку документов со словом Katy и со словом Perry. В случае, когда, например, Katy встречается в 1,2,89, 555,789, а Perry – в 2, 8, 73, 555, 1000. Когда Google нашел эти документы, он проверяет, в каком порядке идут слова и как они расположены в документе. Если на одной странице есть Katy, но не встречается Perry, она исключается поисковой системой. Например, в документе 2 встречаются оба эти слова, такой документ оставляется Google. Также вас могут заинтересовать оцифровать кинопленки, посмотреть подробнее вы сможете перейдя по ссылке.

Когда нужные документы отобраны, поисковая система определяет, каким образом их ранжировать. Процесс ранжирования осуществляется по page rank и большому количеству критериев ранжирования, а их больше 200. К примеру, вернемся опять к Katy, есть ресурс с одним словом Perry, но также где-то на странице есть слово Katy. А также, имеем документ, в котором Katy и Perry следуют друг за другом. Алгоритм Google старается найти оптимальное решение, найти качественный документ с высоким показателем репутации и также показать ресурс, раскрывающий запрос пользователя. Такая процедура осуществляется поисковой системой несколько сот миллионов раз ежедневно, пользователь приходит на сайт Google, осуществляет запрос и получает результаты поисковой выдачи с наиболее релевантными ресурсами, на все это уходит менее чем полсекунды.

Чтобы более детально ознакомиться с техническими деталями работы поисковой системы Google, о page rank, Мэтт рекомендует почитать различные технические статьи и научные работы.
Источник https://domarxiv.ru

Рекомендуем также

Оставить комментарий

Свежие комментарии