Лучший опыт

Перевод интересной статьи ? ... 12 лучших инструментов и программного обеспечения для парсинга сайтов и мониторинга цен

12 лучших инструментов и программного обеспечения для парсинга сайтов и мониторинга цен...

Перевод интересной статьи американского автора про парсинга сайтов… как она зарабатывает?

Если и есть что-то, что я узнала о создании контента за последний год, так это то, что независимо от качества моего контента, без стратегического продвижения и маркетинга он не принесет пользы никому, будь то читатели или компания, в которой я работаю. Хотя я рассчитываю на продвижение в социальных сетях и на веб-сайте компании, все-таки если мой блог или whitepaper (англ. — мини-книга о решении определенной проблемы. Например, в ней может быть описана новая концепция или процесс выполнения технических задач) достигнет высококвалифицированного списка читателей, которые найдут контент действительно полезным, вы не сможете найти более благодарного писателя, чем я!

Новое

Итак, как я собираюсь построить этот список для каждого контента, который я создаю? Интернет — это огромный рудник мыслей и интересов, выраженных различными людьми, и сбор данных из этого богатства информации может помочь мне определить правильную аудиторию — процесс, известный как парсинг. Конечно, я могла бы передать всю работу по парсингу на аутсорсинг в специальную сервисную компанию, но мой инстинкт программиста и  исследователя новых инструментов, культивируемый в течение 3 лет работы в качестве “кибертехника” в ведущей компании по разработке ПО, взял верх надо мной. И я решила окунуться с головой во все тонкости парсинга, и количество вариантов, которые я обнаружила, слегка сбило меня с толку. Изучив сферу парсинга, я классифицировала все доступные варианты, которые мне удалось найти, и уникальные особенности популярных инструментов, найденных на рынке, которые обращаются к различным сегментам аудитории.

А как зарабатываем мы на парсинге сайтов?


Прежде чем переходить к инструментам парсинга, важно определиться, как вы будете собирать веб-данные. Это зависит от цели, от уровня любопытства и от ресурсов, которые у вас есть.

Итак, сначала выберите правильный подход к парсингу

С моей точки зрения, парсинг в основном выполняется следующими способами:

  • Создание собственного поискового робота с нуля

Вариант для подкованных в коде людей, которые любят экспериментировать с макетами сайтов и решать проблемы блокировки, а также хорошо разбираются в разных языках программирования, таких как Python, R или Perl. Так же, как и решая свои повседневные задачи посредством программирования для любого научного проекта по data science, студент или исследователь может легко построить свое решение для парсинга с открытыми исходными кодами — такими, как Scrapy на основе Python или пакет rvest, RCrawler в R.

  • Инструменты парсинга, предназначенные для разработчиков

Инструменты парсинга подходят для разработчиков, в основном, там, где они могут создавать пользовательские парсеры с визуальной логикой программирования. Эти инструменты можно приравнять к среде IDE Eclipse для приложений Java EE. Положения для поворота IPs, агентов хоста и данных синтаксического анализа доступны в этом диапазоне для персонализации.

  • “Сделай сам” — инструменты парсинга для не программистов

Для тех, кто не считает себя “технарем” и в коде не разбирается, есть куча визуальных инструментов типа “выбери и кликни”, которые помогут создать список продаж или заполнить информацию о продукте для вашего каталога с помощью сценариев zero manual (без ручной работы).

  • Аутсорсинг всего проекта парсинга

Для предприятий, которые настроены на масштабируемые проекты парсинга или для проектов в цейтноте, где у вас нет команды разработчиков, чтобы собрать собственное решение для парсинга, услуги специальных компаний становятся ценной помощью. Итак, если вы собираетесь воспользоваться инструментами, то вот список преимуществ и недостатков популярных инструментов парсинга, которые попадают во 2-ю и 3-ю категорию.

“Сделай сам” — инструменты парсинга для не программистов, настраиваемые по принципу “выбери и кликни”

Import.io

Настоящий титан в категории инструментов “Сделай сам”, import.io дает шанс каждому, кому необходимо извлечь какую-либо информацию из веб-данных с очень удобным, интуитивно понятным и интерактивным интерфейсом. Облачная платформа может структурировать данные, найденные за изображениями, экраном входа в систему и сотнями веб-страниц — полностью без программирования. Мониторинг изменений веб-сайта и возможность интеграции с рядом инструментов отчетности и приложений делают его отличным вариантом для предприятий с насущной необходимостью в парсинге.

За:

  1. Простой и легкий пользовательский интерфейс, который хорошо работает для не программистов, желающих построить свой список потенциальных клиентов или отслеживать изменения цен.
  2. Это вполне адекватный вариант парсинга на нормальной скорости при сборе данных с разных веб-сайтов одновременно.

Против:

Если на данном этапе все выглядит классно, то осталось упомянуть всего лишь один минус, который может помешать вам попробовать этот инструмент, — это его цена. Несмотря на то что раньше у них была бесплатная пробная версия, теперь она больше не доступна (а базовый план начинается с $299/месяц). Так что вы извлекаете данные с сайтов, а программа извлекает деньги из вашего кармана.

Dexi.io

Ранее известный как CloudScrape, а ныне Dexi.io — еще один потрясающий визуальный инструмент для автоматизации сбора данных, предназначенный для коммерческого использования, надежное и безпроблемное приложение для браузера. Dexi предоставляет возможность для создания роботов, которые могут работать как экстрактор или поисковый робот или выполнять задачи по очистке ETL-данных после извлечения в форме Dexi Pipes. Этот мощный инструмент парсинга решает проблемы разбиения на страницы, выполняет извлечение в цикле и делает скриншоты веб-страниц. Он выдает свои предложения по выбору данных на веб-странице для «умного» извлечения содержимого.

За:

  1. Здесь нет жестких процедур настройки, которым вы должны строго следовать. Зарегистрируйтесь, и приложение браузера откроется для вас, чтобы создать своего робота. Их потрясающая команда поддержки поможет вам с созданием бота в случае, если вы попали в засаду.
  2. Для коммерческого использования есть стандартный тарифный план по цене $119/месяц (для небольших проектов), который выглядит вполне приемлемым, а также профи-тариф, который подойдет для более крупных бизнес-проектов.

Против:

  1. Концепция дополнений в Dexi.io, хотя и выглядит поначалу симпатичной, потом все-таки оказывается не такой классной. Так как дополнений становится все больше и больше, и цены на них тоже растут.
  2. Некоторые пользователи ворчат и высказывают недовольство по поводу документации продукта, которую я надеюсь, ребята из Dexi скоро исправят.

Octoparse

Синий осьминог обещает принести вам все данные “на блюдечке с голубой каемочкой” безо всякого программирования вовсе, и надо сказать, он действительно это может! В течение всего 2 лет после запуска Octoparse прошел через 7 версий сервиса, доводя до ума свой рабочий процесс по обратной связи, полученной от пользователей. Он имеет интуитивно понятный интерфейс «выбери-и-кликни», который поддерживает бесконечную прокрутку, аутентификацию входа, многоформатный экспорт данных и неограниченное количество страниц на заход на своем бесплатном тарифе (да, вам не послышалось!).

За:

  1. Предусмотренные функции парсинга и работа с неограниченным списком веб-страниц за один заход делают его идеальным выбором для сценариев мониторинга цен.
  2. Функций, предусмотренных в их бесплатном плане более чем достаточно, если вы ищете эффективное одноразовое, готовое решение с хорошей документацией руководства пользователя. Кроме того, точное извлечение данных может быть достигнуто с помощью встроенных инструментов XPath и Regex.

Против:

  1. Octoparse еще только предстоит добавить функции извлечения pdf-данных и извлечения данных по изображениям (пока извлекается только URL-адрес изображения), поэтому называть его полноценным инструментом парсинга было бы несколько преждевременным.
  2. Поддержка клиентов “не огонь”, на быстрые ответы можно не рассчитывать.

ParseHub

Десктоп-приложение, которое предлагает графический интерфейс для выбора и извлечения данных по вашему выбору из Javascript и AJAX страниц, также поддерживается Windows, Mac OS X и Linux. ParseHub также может просматривать вложенные комментарии, карты, изображения, календари и всплывающие окна. А еще у него есть расширение на основе браузера, чтобы мгновенно запустить ваш парсинг, и тьюториалы, которые там есть, очень хорошо помогают.За:

  1. ParseHub имеет богатый пользовательский интерфейс и извлекает данные из многих сложных областей веб-сайта, в отличие от других программ.
  2. Разработчики могут попробовать RestfulAPI от ParseHub, который предоставляет удобный доступ к данным по завершении парсинга.

Против:

  1. Предполагаемый бесплатный план от ParseHub выглядит несколько жалким, ограничивая количество пройденных страниц до 200 и количество проектов — всего до 5. Кроме того, их платные версии начинаются со вполне ощутимых $149 в месяц, и все это выглядят как провальный вариант, особенно для одноразовых проектов.
  2. Скорость, с которой выполняется парсинг, должна быть значительно улучшена, потому что в текущем формате парсинг большого объема данных выполняется слишком медленно.

OutwitHub

Outwit technologies предлагает простой, без выпендрежа графический интерфейс, который изначально поставлялся в качестве дополнения Firefox (устаревшая версия все еще доступна, но без обновлений функций), а теперь и в виде свободно загружаемого ПО, которое можно обновить до Light и Pro версий. Без каких-либо навыков программирования при помощи Outwit Hub можно извлекать и экспортировать ссылки, адреса электронной почты, новости RSS и таблицы данных в базы данных CSV, HTML, Excel или SQL. Их другие продукты, такие как Outwit Images и Documents, извлекают изображения и документы с веб-сайтов на ваши локальные диски.За:

  1. Это вполне гибкий и мощный вариант для людей, которым нужны контакты источников и он доступен по цене, начинающейся с $69 для основной одноразовой покупки автономного приложения.
  2. Функция «Fast Scrape» (быстрый парсинг) — это приятное дополнение для быстрого удаления данных из списка URL-адресов, которые вы передали Outwit.

Против:

  1. Пригодность Outwit для повторяющихся широкомасштабных проектов по парсингу  сомнительна, и их документация с обучающими материалами определенно нуждаются в развитии.
  2. Продукту не хватает удобного интерфейса «выбери-и-кликни», поэтому пользователям в первый раз может потребоваться изучить обучающие видео на Youtube перед тем, как реализовывать свой проект по парсингу.

FMiner

ПО для визуального парсинга с макрокомпонентом дизайна для разработки блок-схемы парсинг-проекта путем визуального сопоставления со структурой сайта на том же экране. Инструмент на основе Python можно запускать как на Windows, так и на Mac OS с хорошей поддержкой Regex. FMiner имеет расширенные функции извлечения данных, такие как решение captcha, опции очистки данных после извлечения, а также позволяет вставлять код python для запуска задач на целевых веб-сайтах.

За:

Будучи мульти-платформенным программным обеспечением, доступным как для не программистов, так и для разработчиков, FMiner является мощным инструментом для сбора данных с сайтов со сложными макетами.

Против:

  1. Визуальный интерфейс не очень привлекателен, и необходимо приложить усилия для создания надлежащего рабочего процесса очистки (вспоминая о блок-схемах и соединителях). Вы должны знать свой путь вокруг определения элементов данных с помощью выражений XPath.
  2. После 15-дневной пробной версии вы вынуждены приобрести по крайней мере базовую версию программного обеспечения по цене $168 без планирования, емейл-отчетов или поддержки JS. Кстати, насколько активно они обновляют свой продукт? Не уверена, ибо не слышно новостей о каких-либо свежих улучшениях в FMiner.

Далее мы рассмотрим инструменты парсинга для разработчиков.

Инструменты парсинга для разработчиков

80Legs

Этот продукт размещен в облаке и такие популярные проблемы парсинга как ограничение скорости и вращение между несколькими IP-адресами тут не оставили без внимания (все в бесплатной версии!), так что 80Legs — это чудо парсинга! Загрузите список URL-адресов, установите ограничения обхода, выберите одно из встроенных приложений из обширного каталога от 80Legs, и полный вперед. Примером приложения от 80Legs будет “Ключевое слово”, которое подсчитывает количество раз, когда поисковый запрос появляется во всех перечисленных URL-адресах по отдельности. Пользователи могут создавать свои собственные приложения и код, которые могут быть помещены в 80Legs, что делает инструмент более настраиваемым и мощным.О! И недавно они запустили новую версию своего портала. Загляните.

За:

  1. Неограниченное количество запусков в месяц; один запуск за раз обрабатывает до 10000 URL-адресов прямо в бесплатной версии. Так что можете себе представить, платные тарифы 80Legs еще более привлекательны!
  2. Приложения, перечисленные в 80Legs, дают пользователям возможность анализировать извлеченный веб-контент и позволяют пользоваться этим инструментом даже специалистам с ограниченными познаниями в коде.

Против:

  1. Хотя поддержка огромных краулеров веб-страниц и заявлена, нет никаких базовых вариантов обработки данных, которые были бы необходимы при таких крупномасштабных проектах.
  2. Расширенные функции краулера, которые могут заинтересовать кодеров, в платформе 80Legs не обнаружены, и их команда поддержки также реагирует довольно медленно.

Content Grabber

Хотя рекламируется как визуальный инструмент парсинга для не программистов, полный потенциал этого инструмента может быть использован как раз людьми с отличными навыками программирования, которые позволят им провести эффективный сбор данных. Шаблоны сценариев, предназначенные для захвата, нужны для  настройки ваших парсеров, и вы можете добавить свои собственные строки кода C# или Visual Basic. Agent Explorer и XPath Editor предоставляют опции для группировки нескольких команд и редактирования XPath по мере необходимости.

За:

  1. Разработчики могут отлаживать скрипты очистки, регистрировать и обрабатывать ошибки с помощью встроенной поддержки команд.
  2. Крупные компании, ищущие инфраструктуру для сбора данных, могут попросту начать молиться на Content Grabber за его надежный и очень гибкий интерфейс парсинга, что стало возможным благодаря многим расширенным функциям, найденным в инструменте.

Против:

  1. Программное обеспечение доступно только для Windows и Linux, пользователям Mac OS рекомендуется запускать программное обеспечение в виртуальной среде.
  2. Цена установлена в $995 за одноразовую покупку программного обеспечения, которое ставит его вне досягаемости для скромных и небольших проектов по сбору данных.

Mozenda

Mozenda, предназначенная в основном для коммерческих предприятий и крупных организаций, позволяет создавать поисковые роботы, которые могут быть размещены на собственных серверах Mozenda или работать в вашей системе. Согласна, что у нее есть хороший пользовательский интерфейс, чтобы просто следовать алгоритму “выбери и кликни”, но для разработки поискового робота вам все равно нужно потратить время на обучающие материалы и часто обращаться за помощью их техподдержки. Поэтому классифицировать ее как инструмент DIY для не-технарей будет несправедливо. Этот надежный инструмент понимает списки и сложные макеты веб-сайтов наряду с совместимостью XPath.

За:

  1. Роботы Mozenda собирают данные в довольно быстром темпе для запланированного и параллельного парсинга и поддерживают различные макеты сайтов.
  2. Вы можете извлечь данные в файлах Excel, Word, PDF и объединить их с данными, полученными из интернета с помощью Mozenda.

Против:

Исключительно приложение для Windows по неумеренно высокой цене в $300/месяц, и это за 2 одновременных запуска и 10 роботов.

Connotate

Connotate — это платформа для извлечения данных, созданная исключительно для нужд бизнеса. Хотя там есть интерфейс для сбора данных методом “выбери-и-кликни”, все же пользовательский интерфейс и цены явно не предназначены для людей с запросами “на разок”. Работа со схемами и поддержание поисковых роботов требует обученных пользователей, и если ваша компания ищет способы сбора информации с тысяч URL-адресов, то Connotate — это хороший вариант.

За:

Способность Connotate работать с огромным количеством динамических сайтов наряду с его возможностями извлечения документов делают эту платформу приемлемым вариантом для крупных предприятий, которые собирают веб-данных на регулярной основе.

Против:

Обработка ошибок во время крупномасштабных проектов выполняется не совсем гладко, что может вызвать небольшую загвоздку в вашем текущем проекте сбора данных.

Apify

Apify, как указано в названии, является веб-платформой для программистов, которые хотят превратить веб-сайты в API. Cron-подобное планирование заданий и расширенные функции поискового робота, которые поддерживают обработку больших веб-сайтов, поддерживаются в Apify. У них есть варианты на разный вкус, как для самостоятельных разработчиков, так и для предприятий, чтобы развивать и поддерживать свои API.

За:

  1. Apify может похвастаться живым форумом и поддержкой сообщества, которые позволяют разработчикам повторно использовать исходные коды, размещенные на GitHub, а также он имеет открытую библиотеку конкретных инструментов очистки, таких как SEO audit tool, email extractor и т. Д.
  2. API интегрируется с огромным количеством приложений и может обрабатывать сложные вопросы разбиения на страницы и макета сайта.

Против:

Как бы легко это ни было для разработчиков — написать всего лишь несколько строк Javascript, обработка ротации IP и прокси будет их основной задачей, которая осталась без внимания непосредственно в Apify.

Diffbot

Это другой инструмент сбора данных, также использующий API-доступ к данным, который включает методы ML и NLP для идентификации и сортировки веб-контента. Разработчики могут создавать собственные API для анализа контента в блогах, обзорах и на страницах событий. Diffbot расширяет библиотеку этих API, что позволяет легко выбрать и интегрировать API по вашему выбору.

За:

Их алгоритм машинного обучения, который определяет и классифицирует тип контента, обеспечивая точное извлечение данных.

Против:

Понимание документов на уровне человека еще не внедрено, и Diffbot также находится в ряду дорогостоящих инструментов парсинга.

Diggernaut

“Превратите содержимое веб-сайта в набор данных”, так звучит утверждение на главной странице Diggernaut, дополненное фразой «не требуется навыков программирования». Но облачный инструмент извлечения, который поставляется как расширение Chrome и как автономное настольное приложение, имеет функцию мета-языка, которая позволяет программистам автоматизировать сложные задачи парсинга с помощью собственного кода. Понимание языков разметки HTML,CSS/JQuery и YAML необходимо для настройки их краулеров.

За:

  1. Diggernaut поставляется с довольно классным модулем OCR, который может помочь вам вытащить данные из изображений.
  2. Существует также возможность для разработчиков создавать Restful API для легкого доступа к веб-данным, и все по очень доступным ценам — даже их бесплатная версия поддерживает 3 краулера и 5K запросов страниц.

Против:

Если использовать метод «выбери и кликни», то Diggernaut сначала трудновато понять. Кроме того, при довольно хорошем качестве функций извлечения изображений печально не обнаружить модулей извлечения документов.

Подводя итоги

Инструменты сбора веб-данных представлены в огромном количестве, и они прекрасно работают как для одноразовых мини-поисков, так и для небольших любительских проектов по парсингу, и даже регулярных проектов по сбору данных, у которых есть собственная команда профессионалов, занятых их обслуживанием. Хотя всегда придется приложить некоторые усилия для очистки и обогащения выходных данных. 

Об авторе: Ида Джесси Сагина — специалист по контент-маркетингу, в настоящее время фокусируется на контенте для Scrapeworks — ассоциированного подразделения Mobius Knowledge Services. Она следит за новыми технологическими разработками и любит писать обо всем, что записывает данные.