Если представить все в максимально упрощенном виде, то веб-поиск можно сравнить с просмотром огромной книги, имеющей очень длинное оглавление, в котором подробно указано, где что находится. Когда вы выполняете поиск Google, программы проверяют индекс с целью определить наиболее релевантные результаты поиска, которые вы получаете.
За предоставление результатов поиска отвечают три основных процесса:
· Сканирование.
· Индексирование.
· Предоставление результатов.
Сканирование
Сканирование - это процесс, в ходе которого робот Googlebot обнаруживает новые и обновленные страницы для добавления в индекс Google.
Google использует огромную сеть компьютеров, чтобы извлечь (или «просканировать») содержание миллиардов веб-страниц. Программа, выполняющая сканирование, называется роботом Google (или пауком). Робот Googlebot использует алгоритмический процесс: программы определяют, какие сайты нужно сканировать, как часто это нужно делать, а также какое количество страниц следует выбрать на каждом сайте.
Процесс сканирования Google начинается со списка URL веб-страниц, созданного на основе предыдущих сеансов сканирования. Его дополняют данные из файлов Sitemap, предоставленных веб-мастерами. Просматривая каждый из этих сайтов, поисковый робот Googlebot находит на каждой странице ссылки и добавляет их в список страниц, подлежащих сканированию. Робот Googlebot отмечает все новые и обновленные сайты, а также неработающие ссылки.
Поисковая система представляет собой отдельную часть бизнеса, не связанная с платной службой Google AdWords.
Индексирование
Робот Googlebot обрабатывает каждую сканируемую страницу, чтобы составить полный индекс всех найденных слов, а также отметить, в какой части страницы они находятся. Кроме того, идет обработка данных из основных тегов и атрибутов, например тегов Title и атрибутов ALT. Робот Googlebot способен обрабатывать многие (но не все) типы содержания. К примеру, обработке не поддается содержание некоторых файлов мультимедиа и динамически создаваемых страниц.
Предоставление результатов
Когда пользователь вводит поисковый запрос, система находит в индексе подходящие страницы и выдает наиболее релевантные, по общему мнению, результаты. Релевантность определяется различными факторами, которых насчитывается более 200. Один из них - это рейтинг PageRank для конкретной страницы. PageRank является показателем «важности» страницы и определяется на основе входящих ссылок с других страниц. Проще говоря, каждая ссылка на страницу сайта с другого сайта увеличивает PageRank вашего сайта. Не все ссылки равноценны. Наибольший вес имеют ссылки, размещение которых связано с качеством содержания вашего сайта.
Для обеспечения адекватного рейтинга сайта на страницах результатов поиска важно, чтобы робот Google мог корректно сканировать и индексировать сайт. В рекомендациях для веб-мастеров описывается ряд оптимальных методов, которые позволяют избежать распространенных ошибок и повысить рейтинг сайта.
Автозаполнение помогает
пользователям быстрее находить нужную информацию, исправляя орфографические
ошибки и подсказывая похожие ключевые слова и популярные запросы. Как и в
результатах поиска Google.ru, ключевые слова, используемые этими функциями,
автоматически создаются веб-сканерами и алгоритмами поиска. Такие подсказки
отображаются только в том случае, если, по мнению Google, они могут сэкономить
время пользователя. Если сайт имеет высокий рейтинг в результатах поиска по
ключевому слову, это связано с тем, что алгоритмы Google определили, что его
содержание более релевантно запросу пользователя.
Выводы
Прежде всех продуктов компании Google inc., была их сеть поисковых систем - Google, которые снискали популярность у всех пользователей интернета, из-за их быстродействия, удобства и метода поиска. Но с тех пор, прошло много времени. Google inc. обзавелся не только поисковиком, но и почтой, социальной сетью, облаками и даже своим встроенный онлайн-офисом.
Поисковик Google всегда выделялся своей системой рейтинга сайтов, которая определяет порядок сайтов, по определенному запросу, в зависимости от содержания нужного контента, на самом сайте. Запросы обрабатывает специальный робот - Googlebot. Робот находит в индексе подходящие по запросу страницу, исходя из более 200 факторов.
На сегодняшний день сеть поисковых
систем Google является одной из лучших, что позволяет компании
экспериментировать с новыми проектами и несколько двигать прогресс интернет
технологий вперед
Список литературы
1. Гаскаров, Д.В. Интеллектуальные информационные системы
2. /Д.В. Гаскаров - Москва: Высшая школа, 2003. - 432 с. Интеллектуальные информационные системы
. Избачков, Ю.С., Петров, В.Н. Информационные системы / Ю.С. Избачков., В.Н. Петров. - Санкт-Петербург: Питер, 2005. - 688 с.
. Построение эффективной системы управления / Москва: Альпина Бизнес Букс, 2008. - 346 с.
. Каратыгин, С.А. Электронный офис (тома 1, 2) / С.А. Каратыгин - Москва: Нолидж, 1999. - 768 с.