Данная поисковая система собирает сведения со страниц, в том числе:
● мультимедийные файлы;
● отсканированные документы;
● открытые базы данных;
● контент, добавленный через сервисы Google (Google Мой Бизнес, Google Карты и др.).
За сканирование и добавление новых страниц в базу данных отвечают специальные боты — Googlebot. Несколько программ анализируют текст, изображения, файлы и другое содержимое. Каждый Googlebot отвечает за определенную категорию контента. Каждый бот умеет определять оригинальные и дублированные страницы, структуру всего сайта.
При сканировании система ищет ссылки на наш сайт на других ресурсах. Дополнительно у нас есть возможность запросить ручное сканирование сервиса или с помощью карты Sitemap. Боты автоматически определяют, какие страницы нужно отсканировать, с какой частотой.
Если на ресурс можно перейти по нескольким URL-адресам или есть похожий контент (например, полная и мобильная версии сайта), система объединяет их в группу. Программа определяет главную (каноническую) страницу, индексирование которой будет проходить чаще.
В Google роботы индексируют контент всех страниц: текст, изображения и теги к ним (title, alt), метатеги (title, description). Если нам нужно скрыть сайт от индексирования, прописываем тег «nofollow» или «noindex». Другой способ — прописать рекомендации в файле Robots.txt, но эту задачу лучше отдать профессиональному разработчику. Из-за небольшой ошибки сайт перестанет работать вовсе.
Поисковую выдачу формируют алгоритмы и выдают пользователю сайты по его запросу. Программы постоянно изменяются и дорабатываются, чтобы человек мог найти полезную информацию. На поисковую выдачу влияет множество факторов, среди которых:
● поведенческие факторы;
● скорость загрузки страниц;
● действия пользователей на сайте;
● наличие мобильной версии;
● уникальный контент;
● проработка навигации;
● местоположение;
● интерфейс.
Поисковая выдача выглядит как список ссылок с заголовками и сниппетами (краткое описание контента). Корректную работу системы обеспечивают программные алгоритмы. Мы не сможем под них подстроиться, так как модераторы регулярно их обновляют и модернизируют ради качественной выдачи.
Алгоритмы выполняют следующие задачи:
1. Анализ ключевых слов и выражений. Программы определяют смысл, находят орфографические ошибки в запросах и даже учитывают сленг. По введеной фразе система автоматически определяет, что конкретно ищет пользователь: товар, новость, обзор.
2. Поиск подходящих страниц. По запросу пользователя Google подбирает наиболее полезные сайты. Поисковая система может вывести не только информационные страницы, но и видео, рекламу. Если в запросе есть вопрос (слово, а не вопросительный знак), Google выводит блок с краткими вопросами и ссылкой на источник. Внизу поисковой выдачи система выдает блок «Похожие вопросы». Программа анализирует требования пользователя и старается упростить поиск.
3. Ранжирование релевантных страниц. В Интернете огромное количество страниц, которые могут быть полезны для пользователя. Алгоритм должен отбирать наиболее подходящие ресурсы. Для этого используется программа расчета авторитетности PageRank. Система определяет, какие авторитетные ресурсы ссылаются на искомый ресурс, какие критерии делают его полезным и интересным.
4. Показ подходящих страниц. После отбора наиболее подходящих сервисов, поисковая система предоставляет их в виде рейтинга по популярности.
5. Учет информации о пользователях. Данные алгоритмы собирают сведения о каждом пользователе, что влияет на поисковый алгоритм. Google учитывает местоположение, индивидуальные настройки поиска на определенном устройстве (ПК, смартфон), предыдущие поисковые запросы, переходы по ссылкам, история браузера, действия на сторонних сервисах.
Все факторы, влияющие на поисковую систему Google условно делятся на 3 категории: внутренние, внешние и поведенческие. Влияние каждого из них индивидуально, так как они зависят от тематики сайта, уникальности контента, актуальности и других критериев.