Материал: Работа с документами Google

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Если представить все в максимально упрощенном виде, то веб-поиск можно сравнить с просмотром огромной книги, имеющей очень длинное оглавление, в котором подробно указано, где что находится. Когда вы выполняете поиск Google, программы проверяют индекс с целью определить наиболее релевантные результаты поиска, которые вы получаете.

За предоставление результатов поиска отвечают три основных процесса:

·        Сканирование.

·        Индексирование.

·        Предоставление результатов.

Сканирование

Сканирование - это процесс, в ходе которого робот Googlebot обнаруживает новые и обновленные страницы для добавления в индекс Google.

Google использует огромную сеть компьютеров, чтобы извлечь (или «просканировать») содержание миллиардов веб-страниц. Программа, выполняющая сканирование, называется роботом Google (или пауком). Робот Googlebot использует алгоритмический процесс: программы определяют, какие сайты нужно сканировать, как часто это нужно делать, а также какое количество страниц следует выбрать на каждом сайте.

Процесс сканирования Google начинается со списка URL веб-страниц, созданного на основе предыдущих сеансов сканирования. Его дополняют данные из файлов Sitemap, предоставленных веб-мастерами. Просматривая каждый из этих сайтов, поисковый робот Googlebot находит на каждой странице ссылки и добавляет их в список страниц, подлежащих сканированию. Робот Googlebot отмечает все новые и обновленные сайты, а также неработающие ссылки.

Поисковая система представляет собой отдельную часть бизнеса, не связанная с платной службой Google AdWords.

Индексирование

Робот Googlebot обрабатывает каждую сканируемую страницу, чтобы составить полный индекс всех найденных слов, а также отметить, в какой части страницы они находятся. Кроме того, идет обработка данных из основных тегов и атрибутов, например тегов Title и атрибутов ALT. Робот Googlebot способен обрабатывать многие (но не все) типы содержания. К примеру, обработке не поддается содержание некоторых файлов мультимедиа и динамически создаваемых страниц.

Предоставление результатов

Когда пользователь вводит поисковый запрос, система находит в индексе подходящие страницы и выдает наиболее релевантные, по общему мнению, результаты. Релевантность определяется различными факторами, которых насчитывается более 200. Один из них - это рейтинг PageRank для конкретной страницы. PageRank является показателем «важности» страницы и определяется на основе входящих ссылок с других страниц. Проще говоря, каждая ссылка на страницу сайта с другого сайта увеличивает PageRank вашего сайта. Не все ссылки равноценны. Наибольший вес имеют ссылки, размещение которых связано с качеством содержания вашего сайта.

Для обеспечения адекватного рейтинга сайта на страницах результатов поиска важно, чтобы робот Google мог корректно сканировать и индексировать сайт. В рекомендациях для веб-мастеров описывается ряд оптимальных методов, которые позволяют избежать распространенных ошибок и повысить рейтинг сайта.

Автозаполнение помогает пользователям быстрее находить нужную информацию, исправляя орфографические ошибки и подсказывая похожие ключевые слова и популярные запросы. Как и в результатах поиска Google.ru, ключевые слова, используемые этими функциями, автоматически создаются веб-сканерами и алгоритмами поиска. Такие подсказки отображаются только в том случае, если, по мнению Google, они могут сэкономить время пользователя. Если сайт имеет высокий рейтинг в результатах поиска по ключевому слову, это связано с тем, что алгоритмы Google определили, что его содержание более релевантно запросу пользователя.

Выводы

Прежде всех продуктов компании Google inc., была их сеть поисковых систем - Google, которые снискали популярность у всех пользователей интернета, из-за их быстродействия, удобства и метода поиска. Но с тех пор, прошло много времени. Google inc. обзавелся не только поисковиком, но и почтой, социальной сетью, облаками и даже своим встроенный онлайн-офисом.

Поисковик Google всегда выделялся своей системой рейтинга сайтов, которая определяет порядок сайтов, по определенному запросу, в зависимости от содержания нужного контента, на самом сайте. Запросы обрабатывает специальный робот - Googlebot. Робот находит в индексе подходящие по запросу страницу, исходя из более 200 факторов.

На сегодняшний день сеть поисковых систем Google является одной из лучших, что позволяет компании экспериментировать с новыми проектами и несколько двигать прогресс интернет технологий вперед

Список литературы

1.   Гаскаров, Д.В. Интеллектуальные информационные системы

2.      /Д.В. Гаскаров - Москва: Высшая школа, 2003. - 432 с. Интеллектуальные информационные системы

.        Избачков, Ю.С., Петров, В.Н. Информационные системы / Ю.С. Избачков., В.Н. Петров. - Санкт-Петербург: Питер, 2005. - 688 с.

.        Построение эффективной системы управления / Москва: Альпина Бизнес Букс, 2008. - 346 с.

.        Каратыгин, С.А. Электронный офис (тома 1, 2) / С.А. Каратыгин - Москва: Нолидж, 1999. - 768 с.