Давайте посмотрим, каким бы ... Каково будущее парсинга в 2023 году?

Каково будущее парсинга в 2023 году?...

Давайте посмотрим, каким был парсинга в 2022 году с технической, юридической, деловой и трендовой точек зрения, а также попробуем предсказать, что ждет нас в 2023 году. Как много может измениться за один год? Что ж, 2022 год показал нам, что не так уж много и в то же время все. Давайте разберемся, каким был парсинг в 2022 году и как он может развиваться в 2023 году.

Содержание скрыть

1 Защита от парсинга в 2023 году

1.1 ИИ и «отпечатки пальцев» браузеров становятся отраслевым стандартом

1.2 Прокси для дата-центров больше не подходят

1.3 Защита от ботов, влияющая на UX

1.4 Мобильные приложения принимают меры по борьбе с парсингом

1.5 Данные за логином, где это возможно

2 Языки и библиотеки

2.1 Какой язык будет самым популярным для парсинга в 2023 году?

2.2 Какая библиотека для парсинга будет самой популярной в 2023 году?

2.3 Автоматизация браузеров в 2023 году: безголовые браузеры по-прежнему рулят

3 Правовые изменения

3.1 Последнее слово в деле hiQ против LinkedIn?

3.2 Meta продолжает адвокатскую деятельность

3.3 ЕС не играет с конфиденциальностью данных

4 Обзор рынка

4.1 Извлечение данных — это минимум

4.2 Охват полного жизненного цикла

4.3 Новые игроки на рынке

5 Веб-скрейпинг — меньше ниши, больше мейнстрима

5.1 Instagram + арт-проект с живой камерой

5.2 Парсинг Twitter для получения доказательств клеветы (Депп против Херд)

5.3 Робот Google, обученный с помощью парсинга

6 Более распространенное некоммерческое использование парсинга

6.1 Государство : Парсинг распространяется на правительственном уровне

6.2 Веб-скрейпинг и COVID в 2022 году

7 Будущее парсинга: тенденции и прогнозы

7.1 Скраппинг социальных сетей и электронной коммерции остается на вершине

7.2 Increased внимание к конфиденциальности и безопасности данных

7.3 Усиление защиты от скраппинга

7.4 ChatGPT, ИИ и парсинг в наших мыслях

8 Парсинг в 2023 году: обзор ключевых моментов

8.1 ПОХОЖИЕ ПУБЛИКАЦИИ:

Защита от парсинга в 2023 году

Поскольку парсинг становится все более распространенным инструментом для компаний многих отраслей, поставщики систем безопасности эффективно идут в ногу со временем и постоянно совершенствуют свои продукты для борьбы с ботами. Тенденция, согласно которой 40% веб-трафика составляют боты, никуда не исчезнет в 2023 году. Антибот-продукты фокусируются на гораздо более широкой области, чем предотвращение парсинга. Большинство этих решений защищают сайты от атак на сайт или его пользователей. Вредоносные боты составляют 15% всего веб-трафика. К сожалению, эти контрмеры затрагивают и парсинг. Современные программы для парсинга должны знать, как их обойти. Как же будет выглядеть ситуация с антиботами в 2023 году?

ИИ и «отпечатки пальцев» браузеров становятся отраслевым стандартом

Поставщики систем безопасности значительно улучшили свои решения. В прошлые годы только ведущие игроки использовали отпечатки пальцев браузера (проверки браузера). Сегодня это становится отраслевым стандартом. В последние годы мы наблюдаем большой бум в области искусственного интеллекта, и сейчас он также используется в индустрии обнаружения ботов. ИИ играет важную роль в анализе достоверности отпечатков браузера, особенностей запросов и поиске подозрительных моделей посетителей в трафике веб-сайта. С учетом сказанного, современный парсинг осуществляется путем автоматизации браузеров. Конечно, существуют сайты, которые можно парсить без браузера. Однако такие сайты встречаются все реже.

Прокси для дата-центров больше не подходят

Еще одна тенденция, которую мы заметили в последние годы, связана с прокси-серверами. Прокси являются неотъемлемой частью парсинга. Традиционно существует два типа прокси-серверов — для жилых помещений и для центров обработки данных. Прокси центра обработки данных размещаются в центре обработки данных, а жилые прокси размещаются на персональном устройстве, таком как смартфон, маршрутизатор или ноутбук. Исторически сложилось так, что лишь некоторые провайдеры могли отмечать прокси в центрах обработки данных посредством пассивных проверок с помощью баз данных ботов или активных проверок с помощью измерений задержки или сканирования портов. В настоящее время чаще всего прокси-серверы центров обработки данных сразу же блокируются.

Защита от ботов, влияющая на UX

Защиты от ботов влияют не только на ботов — они также влияют на пользователей сайта. Они могут превратить работу пользователя в абсолютный кошмар. Вы, вероятно, тоже считаете капчи раздражающими. Недавно Apple представила функцию для своих операционных систем под названием Private Access Token, которая, возможно, наконец-то избавит пользователей от надоедливых капч. Пока что она используется Cloudflare, но как только все производители ОС будут предоставлять эту функцию, капчи, теоретически, могут исчезнуть. Это создаст нетривиальную проблему для разработчиков парсинга, которые будут копать и пытаться сгенерировать эти маркеры для ботов, чтобы получить доступ к веб-сайтам, защищенным этой новой блестящей технологией. Но давайте не будем терять надежды. Возможно, это произойдет еще не скоро, а до тех пор капчи все еще не являются существенным осложнением для ботов.

Мобильные приложения принимают меры по борьбе с парсингом

Говоря о защите от парсинга, мы не можем обойти вниманием парсинг данных из мобильных приложений. Раньше мобильные приложения лишь иногда были защищены от парсинга. Обычно существовали незащищенные конечные точки, для которых требовались специальные заголовки, общие для всех установок приложения. В настоящее время мобильные приложения также принимают контрмеры для предотвращения парсинга. Наиболее распространенной функцией является генерация уникальных отпечатков пальцев устройства на основе акселерометров и других датчиков, что делает парсинг сложным, но возможным.

Данные за логином, где это возможно

Средства защиты от парсинга развиваются, часто применяя те же сложные технологии, что и средства защиты от антиботов. Это заставляет сайты скрывать часть или весь контент за логином. Парсинг за логином не является невозможным, но он представляет собой юридические проблемы, и его лучше избегать.

Защита от парсинга и языки для парсинга в 2022 году

Языки и библиотеки

Какой язык будет самым популярным для парсинга в 2023 году?

Благодаря разнообразию библиотек, таких как Beautiful Soup и Python Requests, в 2023 году Python останется самым популярным языком для парсинга. В паре с любимым языком специалистов по анализу данных Jupyter Notebook, Python превосходит все другие языки, используемые на GitHub в публично открытых проектах парсинга по состоянию на январь 2023 года.

Самые популярные языки в открытых проектах парсинга (GitHub) https://github.com/topics/web-scraping

Это во многом благодаря синтаксису Python, который в целом легко читается и понимается, что делает его простым языком для начинающих парсеров. При совместном использовании Beautiful Soup и библиотека Python Requests позволяют легко загружать и анализировать веб-страницы, что делает их популярным выбором для многих разработчиков парсинга на Python. Scrapy также является известным фреймворком для парсинга на Python с открытым исходным кодом. Разработчики веб-автоматизации используют его для обработки наиболее распространенных сценариев использования при масштабном парсинге, таких как многопоточность, парсинг, извлечение данных, проверка и сохранение в различных форматах и базах данных.

Python также занимает значительное место в Google, что позволяет нам предположить, что Python является выбором номер один в обнаружении и парсинге начинающих поисковых запросов.

Данные для парсинга + язык для Google Trends в 2022 году

Какая библиотека для парсинга будет самой популярной в 2023 году?

Это зависит от языка, который вы используете. Scrapy остается самой популярной библиотекой для парсинга для Python и в целом в 2023 году. С более чем 45 000 звезд на GitHub ни одна другая библиотека не приблизится к ней.

Но если вы поклонник JavaScript, для вас есть хорошие новости. В 2022 году выйдет Crawlee, которая наконец-то предоставит разработчикам Node.js полнофункциональную библиотеку для парсинга. Она с открытым исходным кодом, имеет полную поддержку TypeScript и построена поверх других популярных библиотек Node.js, таких как Got Scraping, Cheerio, Puppeteer и Playwright. Она дополняет их такими специфическими для парсинга функциями, как интеллектуальный прокси и ротация отпечатков пальцев, очереди URL, автомасштабирование, хранение данных и многое другое.

Мы признаем, что можем быть ужасно предвзяты к Crawlee, поэтому проверьте его сами: это репозиторий №1 на GitHub для категории парсинга. Не забудьте добавить одну звезду к его 7,5K+ звездам на GitHub, если вы влюбитесь в него, как это сделали мы.

Технологический стек парсинга в 2023 году

Автоматизация браузеров в 2023 году: безголовые браузеры по-прежнему рулят

В 2023 году, когда становится все труднее проводить парсинг без использования браузера, лучшие инструменты автоматизации браузера для парсинга остаются прежними: Selenium, Puppeteer и Playwright. Эти инструменты позволяют выполнять рендеринг JavaScript на динамических веб-сайтах, управлять браузерами в режиме headless и создавать автоматизацию рабочего процесса.

Selenium особенно популярен в сообществе Python, но он также поддерживает различные другие языки, включая JavaScript (Node.js), Ruby, Java, Kotlin и C#.
Puppeteer — это библиотека Node.js, разработанная компанией Google и предоставляющая высокоуровневый API для манипулирования Chrome.
Playwright — более новая библиотека, завоевавшая популярность благодаря своим современным возможностям, кроссбраузерной поддержке и простоте использования на разных языках.

В 2023 году без этих инструментов становится все труднее заниматься веб-автоматизацией и извлечением данных, особенно на современных веб-сайтах, использующих JavaScript для динамической загрузки контента.

Правовое развитие прецедентного права по парсингу в 2022 году

Правовые изменения

В 2022 году произошло довольно много интересных юридических событий, которые повлияли на юридическую практику парсинга данных. Судебная практика по парсингу обогатилась новым решением одного печально известного спора.

Последнее слово в деле hiQ против LinkedIn?

Пятилетний спор между компаниями hiQ и LinkedIn о парсинге данных, похоже, получил завершение, точнее, несколько из них. Но было ли это в пользу сообщества парсинга?

У LinkedIn уже давно существует проблема с парсингом, даже если это делается для бизнеса, как в случае с hiQ. Это привело LinkedIn и hiQ к спору в 2017 году, причем LinkedIn утверждала, что систематический парсинг hiQ нарушает Условия предоставления услуг и Закон о компьютерном мошенничестве и злоупотреблении, а HiQ отвергала эти нарушения, поскольку спарсенные данные были открытыми и общедоступными. И вот, спустя шесть лет, дело наконец-то решено.

Но не без некоторых американских горок, обе из которых произошли в 2022 году. Во-первых, под влиянием решения Верховного суда США по делу Ван Бюрена, принятого годом ранее, Девятый округ применил аналогию «ворота вверх/ворота вниз» к делу о данных LinkedIn и вынес решение в пользу hiQ. Концепция ворот Ван Бюрена, примененная к публичным веб-сайтам, предполагает, что изначально не существует ворот (авторизации), которые нужно поднимать, поскольку открытость для всех желающих является определяющей характеристикой публичных веб-сайтов. Исходя из этой логики, в апреле 2022 года Девятый окружной суд постановил, что положение о полномочиях, связанное с Законом о компьютерном мошенничестве и злоупотреблении, не может применяться к публичным веб-сайтам, таким как LinkedIn, что означает, что hiQ не нарушала никаких антихакерских актов и теперь имеет право доступа к данным пользователей LinkedIn.

Однако позже, в октябре того же года, суд вынес еще одно решение, на этот раз в пользу LinkedIn. Во-первых, в августе 2022 года компания hiQ уведомила суд о том, что она больше не занимается бизнесом (во многом благодаря тому, что все это время ей было запрещено парсить данные LinkedIn), что устранило необходимость в доступе к данным пользователей LinkedIn (а также в разрешении суда на это). И всего несколько месяцев спустя (и через несколько недель после того, как очередная партия спарсеных данных пользователей LinkedIn появилась в темной паутине) суд определил, что hiQ нарушила Условия предоставления услуг LinkedIn. Это означает, что хотя hiQ не нарушила уголовное законодательство (CFAA), она нарушила контракт (созданный принятием Условий обслуживания LinkedIn). Урегулирование потребовало выплаты 500 000 долларов в пользу LinkedIn и уничтожения спарсеных данных.

Не очень похоже на победу сообщества парсинга, не так ли? Скорее 50 на 50. Победа в первой части (CFAA) и поражение во второй (ToS).

Ветер меняется. Из-за решения Van Buren 2021 и основанного на нем решения hiQ April 2022, CFAA потеряла свою привлекательность в качестве основного иска, когда веб-сайты хотят подать в суд на компании, занимающиеся парсингом. Судебная практика по делам о парсинге теперь сводится к доказательству нарушения Условий использования веб-сайта.

Решения по делу hiQ были важными, но это были только решения по упрощенному порядку, что означает, что суд еще не закончил рассмотрение этой истории. Мировое соглашение в октябре 2022 года было важным, но еще более важным было решение, вынесенное в апреле 2022 года. Независимо от того, как будут развиваться юридические события в 2023 году, для сообщества парсинга важно то, что знаковое постановление от апреля 2022 года, развеявшее страх перед уголовно-правовыми последствиями парсинга публичных данных, остается в силе.

Meta продолжает адвокатскую деятельность

Между тем, некоторые вещи никогда не меняются: технологические гиганты продолжают рассылать письма C&D, подавать иски против небольших компаний, занимающихся парсингом, и выигрывать их. Летом 2022 года Meta подала два иска на основании Условий предоставления услуг против компаний, занимающихся парсингом: Octopus за предоставление услуг по парсингу по найму и Mystalk за создание сайтов-клонов с использованием спарсенных данных. Позже, осенью этого года, Meta выиграла два иска от 2020 года против BrandTotal и Unimania, которые предлагали решения по маркетинговой аналитике, основанные на спарсеных данных социальных сетей.

Все иски Meta содержат схожие требования, согласно которым компаниям или частным лицам, занимающимся парсингом, должно быть запрещено использовать данные Facebook и Instagram, прекращено извлечение прибыли из собранных данных и, конечно же, выплачены деньги. Скорее всего, в наступающем году Meta продолжит свои усилия по борьбе со парсингом (как технически, так и юридически). Компания уже приняла более 300 правоприменительных мер против людей и организаций, которые занимаются масштабным парсингом, и начала новый год с нового иска против Voyager Labs.

ЕС не играет с конфиденциальностью данных

Европейский Союз не шутит, когда речь идет о конфиденциальности данных. В целом, в 2022 году компания Meta получила от главного регулирующего органа GDPR, DPC, в общей сложности 747 млн евро штрафов, включая штраф в размере 265 млн евро за утечку данных, которая затронула 530 млн пользователей 2021 года. Meta не одинока в этом. Компания Clearview AI, занимающаяся распознаванием лиц с помощью ИИ + парсинга, также была оштрафована на основании GDPR. В этом году мы, вероятно, увидим еще больше штрафов и дискуссий вокруг данных социальных сетей.

Обзор рынка

За последние десять лет частота поиска парсинга в Google выросла в 3 раза. И согласно единственному публично доступному отчету о расходах на извлечение веб-данных (выполненному компанией Opimas в 2018 году), общие расходы на парсинг должны были достичь $7B к 2020 году. Однако их последние цифры прогноза, опубликованные в 2022 году, начинаются с $3B для 2020 года. Неужели $4B просто исчезли?

Прогнозы расходов на извлечение веб-данных от Opimas в 2018 году по сравнению с 2022 годом

Мораль этой истории такова: возможно, аналитика Opimas стала более точной и, следовательно, более реалистичной в 2022 году по сравнению с 2018 годом. Или, возможно, не стоит так уж сильно доверять прогнозам рынка. С другой стороны, тенденции парсинга могут быть немного более надежными. Среди них в 2022 году:

Извлечение данных — это минимум

С такими терминами, как «данные как услуга», «поставщики веб-данных», «каналы данных» и «поставщики данных», которыми оперирует сообщество парсинга как онлайн, так и офлайн, становится быстро очевидно, что 1. ребрендинг парсинга в более общее извлечение данных был успешным и 2. повсеместным. Извлечение данных стало базовым для рынка.

Предоставление высококачественных спарсеных данных — это новая норма. Ярким примером этого может служить запуск компанией Bright Data готовых наборов данных. Вопрос теперь в том, что еще вы можете предложить, кроме спарсеных данных? Это подводит нас к тенденции № 2.

Охват полного жизненного цикла

Большинство ключевых игроков на рынке сейчас стремятся охватить полный жизненный цикл веб-данных. Это объясняет многочисленные слияния и поглощения, происходившие в течение года, направленные на создание и поддержание всесторонней экосистемы парсинга. Некоторые компании, такие как Oxylabs, еще больше расширили свои прокси-сервисы, выпустив в 2023 году Web Unblocker. Другие, такие как Bright Data, запустили инструменты рыночной аналитики, приобретя Market Beyond. Компания Zyte в начале нового года вместо этого перешла к использованию API-решения по принципу «все в одном». Все эти шаги объединяет стремление компаний, занимающихся веб-скреппингом, стать чем-то большим, чем просто поставщиками веб-данных.

Новые игроки на рынке

Помимо обычных известных имен, на рынке появилось несколько новых игроков. Было много новых запусков (ZenRows, The Codery API, ScrapeIN’, Windmill, Browse AI), ребрендингов (CrawlBase) и даже неожиданных игроков, вступивших в игру (веб-автоматизация от Cloudflare, заклятого врага всех ботов-парсеров).

Веб-скрейпинг — меньше ниши, больше мейнстрима

Хотя это правда, что парсинг обычно попадает в новостные ленты из-за юридических баталий, в 2022 году было довольно много различных причин, по которым этот термин попал в основные СМИ.

Instagram + арт-проект с живой камерой

Объединив данные Instagram с видео с открытых камер наблюдения, художник Дрис Депуртер превратил парсинг Instagram в арт-проект и сделал парсинг темой для разговоров на субботнем бранче. В проекте «The Follower» художник сопоставил фотографии, выложенные влиятельными людьми в Insta, с видеозаписями, снятыми в Интернете в том же месте и в тот же момент. Сравнение показало, что за кулисами идеальных сеток Instagram часто скрываются неинтересные и банальные вещи. После публикации об этом в социальных сетях он был быстро забанен на основании претензий по поводу авторских прав. Некоторые инфлюенсеры посчитали, что сопоставление этих медиа является вторжением в их частную жизнь.

Парсинг Twitter для получения доказательств клеветы (Депп против Херд)

Парсинг также сыграл свою роль в суде по делу о клевете Джонни Деппа против Эмбер Херд в качестве метода расследования. Директор Berkeley Research Group Рон Шнелл рассказал о том, как он использовал API для поиска хэштегов в Twitter, чтобы показать всплеск негативных настроений в отношении Херд сразу после того, как тогдашний адвокат Джонни Деппа Адам Уолдман назвал обвинения в насилии мистификацией. Цель сканирования Twitter заключалась в том, чтобы предоставить доказательства утверждений Херд о том, что комментарии Уолдмана повредили ее актерской карьере.

Робот Google, обученный с помощью парсинга

И последнее, но не менее важное, впечатляющее достижение в области машинного обучения в понимании языка было замечено в Google изданием Wired. Робот Google научился принимать простые заказы на естественном языке, а не в формализованном стиле хей-сири. Как? Изучая язык с помощью миллионов веб-страниц. Ученые, занимающиеся машинным обучением, решили поменять огромные массивы данных на спарсеный веб-текст и получить робота, чья речь понимается на удивление легко.

Более распространенное некоммерческое использование парсинга

Если вы думали, что парсинг полезен только для бизнеса, подумайте еще раз. В 2022 году ЕС использовал извлечение данных из европейской электронной коммерции для поддержки новой директивы, исследователи продолжали использовать парсинг для получения данных COVID-19.

Государство : Парсинг распространяется на правительственном уровне

Государственные организации также начали публично признавать ценность автоматизированного сбора веб-данных. В 2022 году ЕС провел первую проверку сайтов электронной коммерции, чтобы определить, какие из них завышают цены перед тем, как предложить «скидки». В соответствии с Директивой ЕС о защите прав потребителей, в течение нескольких месяцев Комиссия ЕС отслеживала цены на 16 000 товаров на 176 сайтах. Такой объем работы был бы невозможен без технологии парсинга. Сотрудничество Apify с Комиссией ЕС — еще один пример того, как парсинг можно использовать в благих целях.

Веб-скрейпинг и COVID в 2022 году

Хотя пандемия не закончилась, в 2022 году мы в меньшей степени ощутили ее влияние на нашу повседневную жизнь и жизнь окружающих нас людей. И хотя основная заслуга в этом принадлежит неустанной работе медиков и других работников, занятых насущными делами, главное, что было в этой пандемии, — это своевременные данные. Это означает, что многие компании, занимающиеся парсингом, предоставляли свои услуги по сбору данных о пандемии бесплатно — как и положено во время кризиса.

Тенденции и прогнозы для парсинга в 2023 году

Будущее парсинга: тенденции и прогнозы

Трудно с уверенностью предсказать, какими будут основные тенденции в парсинге в 2023 году, поскольку эта область постоянно развивается. Тем не менее, вот несколько потенциальных тенденций, которые могут определить будущее парсинга:

Скраппинг социальных сетей и электронной коммерции остается на вершине

Ожидается, что в 2023 году парсинг социальных сетей и сайтов электронной коммерции останется популярным. Согласно нашему собственному исследованию с использованием данных Apify Store, несмотря на частичное введение дополнительных логинов и антибот-защиты на этих сайтах, парсинг Instagram, Facebook и других социальных сетей по-прежнему пользуется большим спросом для исследования рынка, мониторинга брендов и анализа настроений. Аналогичным образом, ожидается, что парсинг электронной коммерции также останется популярным, поскольку предприятия по-прежнему заинтересованы в сборе данных о конкурентах, ценах и информации о продуктах.

Однако парсить данные с этих сайтов становится все сложнее, поскольку многие сайты социальных сетей теперь требуют входа в систему для доступа к своим данным, что затрудняет сбор нужной информации. Сайты электронной коммерции вместо этого принимают более сложные меры по борьбе с брашингом.

Несмотря на эти проблемы, парсинг социальных сетей и электронной коммерции останется популярной тенденцией в 2023 году. Преимущества парсинга этих веб-сайтов перевешивают трудности, и компании продолжают находить новые и инновационные способы сбора необходимых им данных.

Increased внимание к конфиденциальности и безопасности данных

Поскольку штрафы и опасения по поводу конфиденциальности данных продолжают расти, а юридические баталии 2022-2021 годов продолжают стимулировать развитие прецедентного права в области сбора данных, этичный парсинг остается важной тенденцией и в 2023 году. Это горячая тема конференций по парсингу, это вопрос, интересующий каждую благонамеренную компанию, занимающуюся парсингом, и это беспокойство потенциальных клиентов («законен ли парсинг?» — один из самых частых запросов о парсинге в Google).

Индустрия парсинга — один из тех редких видов бизнеса, законность которого постоянно ставится под сомнение. Учитывая растущее внимание к ответственности веб-сайтов за «поддержание ворот» и дискуссию о том, кому принадлежат данные социальных сетей — пользователям или компаниям, в 2023 году мы увидим гораздо больше компаний, занимающихся парсингом, которые заявят или подтвердят свою приверженность этичному парсингу.

Поскольку вопрос конфиденциальности данных становится все более актуальным, веб-сайты, с другой стороны, будут продолжать применять более строгие меры для защиты от парсинга. Это может включать использование отпечатков пальцев браузера, блокировку IP-адресов, размещение данных за логинами и более надежные меры безопасности для предотвращения несанкционированного доступа к их данным.

Усиление защиты от скраппинга

Теоретические концепции сегодня превращаются в реальные решения (например, усовершенствованные «отпечатки пальцев» браузера). Все чаще для парсинга необходимо использовать браузер. Все больше мобильных приложений используют защиту от парсинга, и все больше публичных данных переходят за логин. В рамках общей тенденции прокси-серверы в центрах обработки данных становятся все более заметными как прокси-серверы. Единственной новой и революционной технологией прошлого года стали, пожалуй, токены приватного доступа Apple. Captchas, как правило, по-прежнему легко решаются сторонними сервисами.

ChatGPT, ИИ и парсинг в наших мыслях

За 2022 год наше отношение к ИИ кардинально изменилось. Мы прошли путь от переживаний по поводу увольнения инженера Google после заявлений о разумности ИИ до удивления от изображений DALLE, ChatGPT и спекуляций на тему безопасности рабочих мест. Так что же насчет парсинга и ИИ? Будет ли парсинг автоматизирован? Мы бы хотели. Но не слушайте нас, вот что говорит об этом ИИ:

Как видите, речь идет об эффективности. Некоторые предполагают, что ChatGPT вскоре заменит Google (чем Google, кстати, тоже официально обеспокоен). Однако многие слишком быстро переоценивают нынешние возможности ИИ, что приводит к тому, что они распространяют недостоверную информацию или код, который он иногда генерирует. Примером тому может служить запрет на ChatGPT на StackOverflow после потока неправильных ответов.

С точки зрения парсинга и ИИ, создание общих экстракторов данных ИИ — чрезвычайно сложная задача, поэтому до сих пор существует очень мало публичных экстракторов данных ИИ. Было несколько попыток автоматизации веб-сайтов с помощью ИИ, предпринятых поставщиками услуг по спарсеванию данных, включая, в нашем конкретном случае, генераторы отпечатков пальцев и заголовков, типовые модели для электронной коммерции и автоматическое извлечение деталей продукта. Но это медленная и сложная борьба, потому что надежный парсинг в масштабе все еще остается сложной задачей со слишком большим количеством переменных, с которыми не может справиться ИИ.

Тем не менее, одно из отличий недавнего прогресса в области ИИ заключается в том, что для новых стартапов в области парсинга создаются другие исходные условия. Новым компаниям, занимающимся парсингом, больше не нужно начинать с нуля, и они могут запустить свои решения с учетом ИИ (например, Dev Tools AI). Конечно, после этого года можно ожидать много злоупотреблений этим термином, поэтому будьте бдительны в Интернете.

Парсинг в 2023 году: обзор ключевых моментов

Рынок

В последние годы отрасль парсинга демонстрирует значительный рост. Однако рынок все еще остается конкурентным и созревшим для инноваций. Одной из тенденций в отрасли является ребрендинг парсинга как извлечения данных и нормализация высококачественных данных. Другая тенденция — стремление компаний обеспечить полный жизненный цикл веб-данных, включая слияния и поглощения для создания всесторонней экосистемы.

Языки и библиотеки

В 2023 году Python широко считается лучшим выбором для парсинга. Одной из самых популярных библиотек для парсинга на Node.js является Crawlee с ее расширенными возможностями антиблокировки. Для автоматизации работы браузера наиболее популярными инструментами являются Selenium и Playwright, поскольку они обеспечивают рендеринг JavaScript на динамических веб-сайтах, управление браузером без головы и автоматизацию рабочих процессов.

Антипарсинг

В 2023 году ожидается, что ИИ и отпечатки пальцев браузеров станут отраслевым стандартом, прокси-серверы в центрах обработки данных будут менее эффективны, защита от ботов повлияет на пользовательский опыт, мобильные приложения будут иметь меры по борьбе с браузером, а за страницами входа в систему будет скрываться больше данных.

Юридические

Правовые последствия парсинга претерпели значительные изменения в связи с постановлениями Van Buren и hiQ в 2021 и 2022 годах соответственно. В результате этих решений Закон о компьютерном мошенничестве и злоупотреблении (CFAA) больше не рассматривается в качестве основного юридического требования для веб-сайтов, желающих подать в суд на компании, занимающиеся парсингом. Вместо этого акцент сместился на доказательство нарушений соглашения об условиях использования сайта (ToU). Meta получает рекордное количество штрафов за нарушение конфиденциальности данных и продолжает удваивать количество C&D писем/судов с компаниями, занимающимися парсингом.

Тенденции парсинга на 2023 год

Сохраняющаяся популярность парсинга социальных сетей и сайтов электронной коммерции
Увеличение количества упоминаний в основных СМИ, рост использования парсинга правительственными и неправительственными организациями
Повышенное внимание к конфиденциальности и безопасности данных
Внедрение более строгих мер по борьбе со парсингом на сайтах, в том числе на основе ИИ
Дискуссии вокруг ИИ и ChatGPT, повышающих точность и эффективность парсинга

it парсер

Валюта	рублей
доллар сша евро китайский юань гривня	75.7327 90.4680 10.8689 17.6746

Топливо	рублей
СУГ КПГ ДГ АИ 92 АИ 95 АИ 98 АИ 100	26.97 27.07 79.08 60.19 64.23 83.99 87.82

Показатель	%
Цель по инфл Инфляция Ключевая ставка Ставка RUONIA	4,0% 5,6% 16,00% 15,83%

Лучший опыт