Лучший опыт

Большинству маркетологов н ... Список поисковых систем: боты-поисковики и как их использовать для достижения успеха

Список поисковых систем: боты-поисковики и как их использовать для достижения успеха...

Большинству маркетологов необходимы постоянные обновления, чтобы их сайт оставался свежим и улучшал его рейтинг в SEO. Однако некоторые сайты содержат сотни или даже тысячи страниц, что затрудняет работу команд, которые вручную отправляют обновления в поисковые системы. Если контент обновляется так часто, как команды могут убедиться, что эти улучшения влияют на их рейтинг в SEO? Вот тут-то и вступают в игру роботы-сканеры. Бот веб-сканера проверит вашу карту сайта на наличие новых обновлений и проиндексирует содержимое в поисковых системах.

Новое

В этом посте мы изложим полный список поисковых роботов, который охватывает всех ботов-поисковиков, о которых вам нужно знать. Прежде чем мы углубимся, давайте определим ботов-поисковиков и покажем, как они функционируют.

Что такое веб-сканер?

Веб-сканер — это компьютерная программа, которая автоматически сканирует и систематически считывает веб-страницы для индексации страниц для поисковых систем. Веб-сканеры также известны как пауки или боты. Чтобы поисковые системы представляли пользователям, инициирующим поиск, актуальные, релевантные веб-страницы, должен выполняться обход с помощью бота-сканера. Иногда этот процесс может выполняться автоматически (в зависимости от настроек как сканера, так и вашего сайта), или он может быть запущен напрямую. Многие факторы влияют на SEO-рейтинг ваших страниц, включая релевантность, обратные ссылки, веб-хостинг и многое другое. Однако все это не имеет значения, если поисковые системы не просматривают и не индексируют ваши страницы. Вот почему так важно убедиться, что ваш сайт позволяет выполнять правильные обходы и устраняет любые препятствия на их пути.

Боты должны постоянно сканировать и очищать Интернет, чтобы обеспечить представление наиболее точной информации. Google является самым посещаемым веб-сайтом в Соединенных Штатах, и примерно 26,9% запросов приходится на американских пользователей:

Графическое изображение, показывающее поиск, начатый из Соединенных Штатов
Поисковые запросы Google в основном инициируются из Соединенных Штатов (источник: Statista)

Однако не существует одного веб-сканера, который сканирует каждую поисковую систему. Каждая поисковая система обладает уникальными преимуществами, поэтому разработчики и маркетологи иногда составляют “список поисковых систем”. Этот список поисковых систем помогает им идентифицировать различные поисковые системы в журнале сайта для принятия или блокировки.

Маркетологам необходимо составить список поисковых систем, полный различных веб-сканеров, и понять, как они оценивают свой сайт (в отличие от парсеров контента, которые крадут контент), чтобы убедиться, что они правильно оптимизируют свои целевые страницы для поисковых систем.

Как работает веб-сканер?

Веб-сканер автоматически просканирует вашу веб-страницу после ее публикации и проиндексирует ваши данные. Поисковые системы ищут определенные ключевые слова, связанные с веб-страницей, и индексируют эту информацию для соответствующих поисковых систем, таких как Google, Bing и другие.

Пошаговый процесс, показывающий сканирование веб-страниц
Сканирование веб-страниц — это многоступенчатый процесс (источник: Нил Патель)

Алгоритмы для поисковых систем извлекут эти данные, когда пользователь отправит запрос по соответствующему ключевому слову, которое к нему привязано. Сканирование начинается с известных URL-адресов. Это установленные веб-страницы с различными сигналами, которые направляют веб-сканеры на эти страницы. Эти сигналы могут быть:

  • Обратные ссылки: количество ссылок на сайт
  • Посетители: сколько трафика направляется на эту страницу
  • Авторитет домена: общее качество домена

Затем они сохраняют данные в индексе поисковой системы. Когда пользователь запускает поисковый запрос, алгоритм извлекает данные из индекса, и они появляются на странице результатов поисковой системы. Этот процесс может происходить в течение нескольких миллисекунд, поэтому результаты часто появляются быстро.

Как веб-мастер, вы можете контролировать, какие боты сканируют ваш сайт. Вот почему важно иметь список поисковых систем. Это robots.txt протокол, который находится на серверах каждого сайта и направляет поисковые системы к новому контенту, который необходимо проиндексировать.

В зависимости от того, что вы вводите в свой robots.txt протокол на каждой веб-странице вы можете указать поисковому роботу сканировать или избегать индексации этой страницы в будущем. Понимая, что ищет веб-сканер при сканировании, вы можете понять, как лучше позиционировать свой контент для поисковых систем.

Составление списка поисковых систем: каковы различные типы веб-сканеров?

Когда вы начинаете думать о составлении своего списка поисковых систем, вам нужно искать три основных типа поисковых систем. К ним относятся:

  • Внутренние сканеры: это сканеры, разработанные командой разработчиков компании для сканирования ее сайта. Обычно они используются для аудита и оптимизации сайта.
  • Коммерческие сканеры: это специально разработанные сканеры, такие как Screaming Frog, которые компании могут использовать для сканирования и эффективной оценки своего контента.
  • Поисковые системы с открытым исходным кодом: это бесплатные поисковые системы, созданные различными разработчиками и хакерами по всему миру.

Важно понимать различные типы существующих поисковых систем, чтобы вы знали, какой тип вам нужно использовать для достижения собственных бизнес-целей.

11 самых распространенных веб-сканеров для добавления в список поисковых систем

Не существует ни одного сканера, который выполнял бы всю работу для каждой поисковой системы. Вместо этого существует множество веб-сканеров, которые оценивают ваши веб-страницы и сканируют содержимое для всех поисковых систем, доступных пользователям по всему миру. Давайте рассмотрим некоторые из наиболее распространенных веб-сканеров на сегодняшний день.

1. Робот Googlebot

Googlebot — это универсальный веб-сканер Google, который отвечает за поиск сайтов, которые будут отображаться в поисковой системе Google.

Поисковый робот Googlebot
Робот Googlebot индексирует сайты для предоставления актуальных результатов Google

Хотя технически существует две версии Googlebot — Googlebot для настольных компьютеров и Googlebot для смартфонов (мобильных устройств), большинство экспертов считают, что Googlebot — это один единственный поисковый робот. Это связано с тем, что оба они используют один и тот же уникальный токен продукта (известный как токен пользовательского агента), записанный в robots.txt . Пользовательский агент Googlebot — это просто “Googlebot”.

Робот Googlebot приступает к работе и обычно обращается к вашему сайту каждые несколько секунд (если вы не заблокировали его в robots.txt ). Резервная копия отсканированных страниц сохраняется в единой базе данных, называемой Google Cache. Это позволяет вам просматривать старые версии вашего сайта. Кроме того, Google Search Console — это еще один инструмент, который веб-мастера используют для понимания того, как робот Googlebot сканирует их сайт, и для оптимизации своих страниц для поиска.

Агент пользователяРобот Googlebot
Полная строка пользовательского агентаMozilla / 5.0 (совместимый; Googlebot / 2.1; +http://www.google.com/bot.html )

2. Bingbot

Bingbot был создан в 2010 году корпорацией Майкрософт для сканирования и индексации URL-адресов, чтобы гарантировать, что Bing предлагает пользователям платформы актуальные и актуальные результаты поисковой системы.

Веб-сканер Bingbot
Bingbot предоставляет Bing релевантные результаты поисковой системы

Подобно Googlebot, разработчики или маркетологи могут определять в своих robots.txt на их сайте независимо от того, одобряют они или нет использование идентификатора агента “bingbot” для сканирования их сайта. Кроме того, у них есть возможность различать поисковые системы индексации для мобильных устройств и поисковые системы для настольных компьютеров, поскольку Bingbot недавно перешел на новый тип агента. Это, наряду с инструментами Bing для веб-мастеров, предоставляет веб-мастерам большую гибкость при отображении того, как их сайт обнаруживается и отображается в результатах поиска.

Агент пользователяBingbot
Полная строка пользовательского агентаMozilla / 5.0 (совместимый; Bingbot / 2.0; +http://www.bing.com/bingbot.htm )

3. Яндекс-бот

Яндекс Бот — это поисковый робот, созданный специально для российской поисковой системы Яндекс. Это одна из крупнейших и самых популярных поисковых систем в России.

Поисковый робот Яндекс Бот
Бот Яндекса индексирует российскую поисковую систему Яндекс

Веб-мастера могут сделать страницы своих сайтов доступными для Яндекс-бота с помощью своих robots.txt досье. Кроме того, они также могут добавить Яндекс.Метрика помечает определенные страницы, переиндексирует страницы в веб-мастере Яндекса или выдает протокол IndexNow, уникальный отчет, который указывает на новые, измененные или деактивированные страницы.

Агент пользователяЯндексБот
Полная строка пользовательского агентаMozilla / 5.0 (совместимый; YandexBot / 3.0; +http://yandex.com/bots )

4. Apple Bot

Apple поручила Apple Bot сканировать и индексировать веб-страницы в соответствии с предложениями Apple Siri и Spotlight.

Веб-сканер Apple Bot
Apple Bot — это веб-сканер для Siri и Spotlight от Apple

Apple Bot учитывает множество факторов при принятии решения о том, какой контент следует улучшить в предложениях Siri и Spotlight. К этим факторам относятся вовлеченность пользователей, релевантность поисковых запросов, количество / качество ссылок, сигналы, основанные на местоположении, и даже дизайн веб-страницы.

Агент пользователяApplebot
Полная строка пользовательского агентаMozilla / 5.0 (устройство; OS_version) Версия AppleWebKit / WebKit_version (KHTML, как Gecko
) / Safari_version Safari / WebKit_version (Applebot / Applebot_version)

5. Бот DuckDuck

DuckDuckBot — это веб-сканер для DuckDuckGo, который обеспечивает “надежную защиту конфиденциальности в вашем веб-браузере”.

Веб-сканер DuckDuck Bot
Бот DuckDuck сканирует сайт, ориентированный на конфиденциальность

Веб-мастера могут использовать API DuckDuckBot, чтобы узнать, просматривал ли их сайт бот DuckDuck. По мере сканирования он обновляет базу данных API DuckDuckBot последними IP-адресами и агентами пользователей.

Это помогает веб-мастерам выявлять любых самозванцев или вредоносных ботов, пытающихся быть связанными с DuckDuck Bot.

Агент пользователяDuckDuckBot
Полная строка пользовательского агентаDuckDuckBot/1.0; (+http://duckduckgo.com/duckduckbot.html )

6. Baidu Spider

Baidu — ведущая китайская поисковая система, а Baidu Spider — единственный поисковик сайта.

Поисковый робот Baidu Spider web
Baidu Spider — это сканер для Baidu, китайской поисковой системы

Google запрещен в Китае, поэтому важно включить Baidu Spider для обхода вашего сайта, если вы хотите выйти на китайский рынок. Чтобы определить, что Baidu Spider сканирует ваш сайт, найдите следующие пользовательские агенты: baiduspider, baiduspider-imagebaiduspider-video и другие.

Если вы не ведете бизнес в Китае, возможно, имеет смысл заблокировать Baidu Spider в вашем robots.txt сценарий. Это предотвратит сканирование вашего сайта Baidu Spider, тем самым исключив вероятность появления ваших страниц на страницах результатов поисковой системы Baidu (SERP).

Агент пользователяBaiduspider
Полная строка пользовательского агентаMozilla / 5.0 (совместимый; Baiduspider / 2.0; +http://www.baidu.com/search/spider.html )

7. Sogou Spider

Sogou — китайская поисковая система, которая, как сообщается, является первой поисковой системой, проиндексировавшей 10 миллиардов страниц на китайском языке.

Поисковый робот Sogou Spider web
Sogou Spider — это сканер для Sogou

Если вы ведете бизнес на китайском рынке, это еще один популярный поисковый робот, о котором вам нужно знать. Sogou Spider следует тексту исключения робота и параметрам задержки обхода. Как и в случае с Baidu Spider, если вы не хотите вести бизнес на китайском рынке, вам следует отключить этот паук, чтобы предотвратить медленную загрузку сайта.

Агент пользователяSogou Pic Spider / 3.0 ( http://www.sogou.com/docs/help/webmasters.htm#07 )
Голова паука Согоу/3.0 ( http://www.sogou.com/docs/help/webmasters.htm#07 )
Паутинный паук Согоу/ 4.0(+http://www.sogou.com/docs/help/webmasters.htm#07 )
Согоу Орион паук/3.0( http://www.sogou.com/docs/help/webmasters.htm#07 )
Sogou-Test-Spider / 4.0 (совместимый; MSIE 5.5; Windows 98)

8. Facebook

Внешний поисковый робот Facebook, также известный как поисковый робот Facebook, сканирует HTML-код приложения или веб-сайта, размещенного на Facebook.

Внешний поисковый робот Facebook
Внешние ссылки Facebook индексируют сайты для обмена ссылками

Это позволяет социальной платформе создавать общедоступный предварительный просмотр каждой ссылки, размещенной на платформе. Заголовок, описание и уменьшенное изображение отображаются благодаря сканеру. Если обход не будет выполнен в течение нескольких секунд, Facebook не будет отображать содержимое в пользовательском фрагменте, созданном перед публикацией.

Агент пользователяfacebot
facebookexternalhit/1.0 (+http://www.facebook.com/externalhit_uatext.php )
facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php )

9. Exabot

Exalead — компания-разработчик программного обеспечения, созданная в 2000 году со штаб-квартирой в Париже, Франция. Компания предоставляет поисковые платформы для потребительских и корпоративных клиентов.

Exabot web crawler
Exabot — это поисковый робот для Exalead, компании, занимающейся поисковой платформой

Exabot — это сканер для их основной поисковой системы, основанной на их продукте CloudView. Как и большинство поисковых систем, Exalead учитывает при ранжировании как обратные ссылки, так и контент на веб-страницах. Exabot — это пользовательский агент робота Exalead. Робот создает “основной индекс”, который собирает результаты, которые увидят пользователи поисковой системы.

Агент пользователяMozilla / 5.0 (совместимый; Konqueror / 3.5; Linux) KHTML / 3.5.5 (как Gecko) (Exabot-эскизы)
Mozilla / 5.0 (совместимый; Exabot / 3.0; +http://www.exabot.com/go/robot )

10. Swiftbot

Swiftype — это настраиваемая поисковая система для вашего сайта. Он сочетает в себе “лучшие поисковые технологии, алгоритмы, структуру приема контента, клиентов и инструменты аналитики”.

Веб-сканер Swiftbot
Swiftype — это программное обеспечение, которое может ускорить поиск вашего сайта

Если у вас сложный сайт с большим количеством страниц, Swiftype предлагает полезный интерфейс для каталогизации и индексации всех ваших страниц. Swiftbot — это веб-сканер Swiftype. Однако, в отличие от других ботов, Swiftbot сканирует только те сайты, которые запрашивают их клиенты.

Агент пользователяSwiftbot
Полная строка пользовательского агентаMozilla / 5.0 (совместимый; Swiftbot / 1.0; UID/54e1c2ebd3b687d3c8000018; +http://swiftype.com/swiftbot )

11. Slurp-бот

Slurp Bot — это поисковый робот Yahoo, который сканирует и индексирует страницы для Yahoo.

Веб-сканер Slurp Bot
Slurp-бот поддерживает результаты поисковой системы Yahoo

Этот обход необходим для обоих Yahoo.com а также его партнерские сайты, включая Yahoo News, Yahoo Finance и Yahoo Sports. Без этого соответствующие списки сайтов не отображались бы. Индексированный контент способствует более персонализированному веб-интерфейсу для пользователей с более релевантными результатами.

Агент пользователяSlurp
Полная строка пользовательского агентаMozilla / 5.0 (совместимый; Yahoo! Slurp; http://help .yahoo.com/help/us/ysearch/slurp )

8 коммерческих сканеров, которые должны знать SEO-специалисты

Теперь, когда в вашем списке поисковых роботов 11 самых популярных ботов, давайте рассмотрим некоторые из распространенных коммерческих поисковых роботов и инструментов SEO для профессионалов.

1. Бот Ahrefs

Бот Ahrefs — это веб-сканер, который компилирует и индексирует базу данных из 12 триллионов ссылок, предлагаемую популярным программным обеспечением для SEO Ahrefs.

Ahrefs Bot
Бот Ahrefs индексирует сайты для платформы SEO, Ahrefs

Бот Ahrefs ежедневно посещает 6 миллиардов веб-сайтов и считается “вторым по активности поисковым роботам”, уступая только роботу Googlebot. Как и другие боты, бот Ahrefs следует robots.txt функции, а также разрешающие / запрещающие правила в коде каждого сайта.

2. Бот Semrush

Бот Semrush позволяет Semrush, ведущему программному обеспечению для SEO, собирать и индексировать данные сайта для использования клиентами на своей платформе.

Бот Semrush
Semrush Bot — это сканер, который Semrush использует для индексации сайтов

Данные используются в общедоступной поисковой системе Semrush для поиска обратных ссылок, инструменте аудита сайта, инструменте аудита обратных ссылок, инструменте построения ссылок и помощнике по написанию. Он сканирует ваш сайт, составляя список URL-адресов веб-страниц, посещая их и сохраняя определенные гиперссылки для будущих посещений.

3. Поисковый робот кампании Moz Rogerbot

Rogerbot — это поисковый робот для ведущего SEO-сайта Moz. Этот поисковый робот специально собирает контент для проверок сайтов кампании Moz Pro.

Веб-сканер Rogerbot
Moz, популярное программное обеспечение для SEO, использует Rogerbot в качестве своего сканера

Rogerbot следует всем правилам, изложенным в robots.txt файлы, чтобы вы могли решить, хотите ли вы заблокировать / разрешить Rogerbot сканирование вашего сайта. Веб-мастера не смогут выполнять поиск по статическому IP-адресу, чтобы узнать, какие страницы были просмотрены Rogerbot, из-за его многогранного подхода.

4. Screaming Frog

Screaming Frog — это поисковый робот, который специалисты по SEO используют для аудита собственного сайта и определения областей улучшения, которые повлияют на их рейтинг в поисковых системах.

Сканер Screaming Frog
Screaming Frog — это сканер, который помогает улучшить SEO

После запуска обхода вы можете просматривать данные в режиме реального времени и выявлять неработающие ссылки или улучшения, которые необходимы для заголовков ваших страниц, метаданных, роботов, дублирующегося контента и многого другого. Для настройки параметров обхода необходимо приобрести лицензию Screaming Frog.

5. Lumar (ранее Deep Crawl)

Lumar — это “централизованный командный центр для поддержания технического состояния вашего сайта”. С помощью этой платформы вы можете инициировать обход вашего сайта, чтобы помочь вам спланировать архитектуру сайта.

Поисковый робот Lumar
Компания Deep Crawl переименовалась в Lumar, сканер для анализа сайтов

Lumar гордится тем, что является “самым быстрым сканером веб-сайтов на рынке” и может сканировать до 450 URL-адресов в секунду.

6. Majestic

Majestic в первую очередь фокусируется на отслеживании и идентификации обратных ссылок на URL-адресах.

Majestic Crawler
Поисковый робот Majestic позволяет оптимизаторам просматривать данные обратных ссылок

Компания гордится тем, что у нее “один из самых полных источников данных о обратных ссылках в Интернете”, подчеркивая свой исторический индекс, который увеличился с 5 до 15 лет ссылок в 2021 году. Поисковый робот сайта делает все эти данные доступными для клиентов компании.

7. cognitiveSEO

cognitiveSEO — еще одно важное программное обеспечение для SEO, которое используют многие профессионалы.

congnitiveSEO
congnitiveSEO предлагает мощный инструмент аудита сайта

Поисковый робот cognitiveSEO позволяет пользователям выполнять комплексные проверки сайта, которые будут информировать их архитектуру сайта и всеобъемлющую стратегию SEO. Бот будет сканировать все страницы и предоставлять “полностью настроенный набор данных”, уникальный для конечного пользователя. В этом наборе данных также будут рекомендации для пользователей о том, как они могут улучшить свой сайт для других поисковых систем — как для влияния на рейтинг, так и для блокировки ненужных поисковых систем.

8. Oncrawl

Oncrawl — это “ведущий в отрасли поисковик SEO и анализатор журналов” для клиентов корпоративного уровня.

Веб-сканер Oncrawl
Oncrawl — еще один поисковый робот для SEO, предоставляющий уникальные данные

Пользователи могут настроить “профили обхода”, чтобы создать конкретные параметры для обхода. Вы можете сохранить эти настройки (включая начальный URL-адрес, ограничения обхода, максимальную скорость обхода и многое другое), чтобы легко запустить обход снова с теми же установленными параметрами.

Нужно ли мне защищать свой сайт от вредоносных веб-сканеров?

Не все сканеры хороши. Некоторые из них могут негативно повлиять на скорость вашей страницы, в то время как другие могут попытаться взломать ваш сайт или иметь злонамеренные намерения. Вот почему важно понимать, как блокировать поисковые системы от входа на ваш сайт. Составив список поисковых систем, вы будете знать, на какие поисковые системы стоит обратить внимание. Затем вы можете отсеять подозрительные и добавить их в свой список блокировки.

Как блокировать вредоносные веб-сканеры

Имея на руках список поисковых роботов, вы сможете определить, какие боты вы хотите одобрить, а какие нужно заблокировать. Первым шагом является просмотр списка искателей и определение пользовательского агента и полной строки агента, связанной с каждым искателем, а также его конкретного IP-адреса. Это ключевые идентифицирующие факторы, которые связаны с каждым ботом.

С помощью пользовательского агента и IP-адреса вы можете сопоставить их в записях вашего сайта с помощью поиска DNS или сопоставления IP. Если они не совпадают в точности, возможно, у вас вредоносный бот, пытающийся выдать себя за реального.

Краткие сведения

Веб-сканеры полезны для поисковых систем и важны для понимания маркетологами. Для успеха вашего бизнеса важно, чтобы ваш сайт правильно просматривался правильными поисковыми системами. Ведя список поисковых систем, вы можете знать, на какие из них следует обратить внимание, когда они появятся в журнале вашего сайта. Следуя рекомендациям коммерческих поисковых систем и улучшая контент и скорость работы вашего сайта, вы облегчите поисковым роботам доступ к вашему сайту и индексирование нужной информации для поисковых систем и потребителей, которые ее ищут.