Вы мечтаете, чтобы ChatGPT брод ... Как я использую GPT Scraper, чтобы дать ChatGPT доступ в интернет
Как я использую GPT Scraper, чтобы дать ChatGPT доступ в интернет...
Вы мечтаете, чтобы ChatGPT бродил по сети? GPT Scraper использует парсинг, чтобы сделать это с помощью API OpenAI. Как и миллионы других людей по всему миру, я уже несколько месяцев использую ChatGPT в своей роли руководителя отдела контента в Apify и нахожу способы повысить продуктивность своей работы и работы моей команды, а также изучаю возможности этого приложения. Мне нравится экспериментировать с ним, исследовать его возможности и иногда радоваться неожиданному поведению. Когда-то давно я любил игровые книги, ролевые игры и занимался разработкой онлайн-игр. Так что в последнее время иногда по вечерам я обнаруживал, что ввожу игровой запрос и просто иду по нему.

Мы с ChatGPT пережили несколько затяжных зомби-апокалипсисов, опробовали несколько сценариев Джеймса Бонда, исследовали Ирландию XVIII века, вдохновленную возвышенным фильмом Кубрика «Барри Линдон», и наслаждались множеством других спонтанных одиночных игр. (Редактировать: оказалось, что я не единственный, кто так делает). Я бы точно не сказал, что ChatGPT — это последовательный мастер игры, но если вы сможете смириться с присущей ему ненадежностью, то сможете получить массу удовольствия от свободного создания мира.
Мы должны сказать людям, что ChatGPT будет обманывать их.
Саймон Уиллисон
Но вернемся к работе. Хотя вы можете многого добиться, попросив ChatGPT провести мозговой штурм постов в блоге с разных точек зрения или сгенерировать быстрый список ключевых слов для ввода в SEO-инструменты, вы, как и я, можете иногда мечтать о том, что можно было бы сделать, если бы вы могли запустить ChatGPT на живых веб-страницах, не ориентированных на поисковые запросы Bing и Bard.
Подключение ChatGPT к интернету
Попросить GPT посмотреть на реальный сайт? Это порождает всевозможные классные сценарии использования… Управление конвейером контента для Apify означает, что я трачу по крайней мере часть своего времени на редактирование и корректуру. После более чем 25 лет такой работы я многое успеваю, но случайные опечатки неизбежно проскальзывают. Кажется, что было бы просто попросить ChatGPT просмотреть, например, весь блог Apify и найти все оставшиеся ошибки. А пока он это делает, выявить все изображения, которым не хватает alt-текста, определить потенциальные улучшения метаданных и, возможно, проверить примеры кода. Для начала.
Так что это было первое, что я попробовал, когда GPT Scraper был опубликован в Apify Store, и я пообщался с разработчиком, старой школы Apifier, о том, как это работает. GPT Scraper использует двухэтапный процесс для просмотра любого веб-сайта и извлечения данных, а затем передает их в GPT через API OpenAI. Сначала парсер загружает страницу с помощью Playwright, затем преобразует содержимое в Markdown и отправляет содержимое и инструкции в GPT.
Честно говоря, сначала у меня не все шло гладко, но все, кто знаком с ChatGPT, привыкли к тупикам и фирменным галлюцинациям (или конфабуляциям, как некоторые предпочитают их называть). При первых нескольких проходах он придумывал опечатки, воображал отсутствующие изображения и вообще тратил впустую значительную часть моего времени. Но после нескольких запусков и уточнения подсказок результаты стали действительно полезными. Он обнаружил проблемы с читабельностью, предложил оптимизацию кода и нашел некоторые неувязки.
Мой следующий эксперимент с GPT-парсингом заключался в том, чтобы проверить, смогу ли я заставить его надежно генерировать FAQ для некоторых старых постов вместе с соответствующей схемой FAQ. Это несложно сделать вручную, но мы в Apify любим автоматизировать как можно больше — с цифровым помощником это гораздо интереснее. Как вы можете себе представить, он не очень доверял нам, когда речь шла о том, чтобы схема FAQ точно отражала содержание поста, но он отлично справился с созданием кратких вопросов и ответов, а затем обернул их в схему FAQ. Он также довольно удобен при просмотре собственных постов в блогах и постов конкурентов, чтобы увидеть, на какие ключевые слова они нацелены, и даже относительно разумно предлагает тонкие упущенные возможности, которые SEO-инструменты могут пропустить.
3 примера использования, которые заставят вас задуматься
Это только то, что я сделал за первые пару часов работы с GPT Scraper. Но можно сделать гораздо больше. Наделение GPT суперспособностью переваривать данные с реальных веб-сайтов означает, что вы можете сделать несколько замечательных вещей. Вот только три:
Пример использования 1: обобщение отзывов
С его помощью вы можете прочитать все отзывы о книге, фильме, продукте или игре и в считанные секунды обобщить общее мнение. Это интересно для потребителя, но бесценно для компаний.
Задача: Проанализируйте только положительные отзывы об игре на этой странице и обобщите их в одном абзаце.
Целевой URL: https://store.steampowered.com/app/2109370/The_Great_War_Western_Front/
Ответ: Положительные отзывы о The Great War: Western Front на Steam хвалят историческую точность и внимание к деталям игры, а также ее увлекательный и сложный геймплей. Игроки отмечают, что им нравятся стратегические аспекты игры, такие как управление ресурсами и маневрирование войсками, и ценят возможность играть как за союзников, так и за центральные державы. Графика и звуковое оформление также отмечаются как впечатляющие и захватывающие. В целом, игроки очень рекомендуют игру любителям стратегий и исторических военных игр.
Оговорка: вы должны убедиться, что она действительно взята во всех обзорах, а не только в первых нескольких. Вы можете (обычно) проверить это, посмотрев журнал и выскобленные данные. Или иногда GPT просто сам скажет вам, что не получил ожидаемых данных. Пробы и ошибки обычно приводят к воспроизводимому рабочему процессу.
Пример использования 2: сбор информации о продукте
Сбор конкретных данных с веб-страниц на основе подсказки, которая определяет полезную информацию на лету. Парсинг отлично подходит, когда содержимое сайта предсказуемо, но GPT иногда может надежно идентифицировать описания продуктов и обзоры, используя только инструкции на естественном языке. Если вы занимались парсингом, вы, вероятно, знаете, что было бы неплохо не определять селекторы CSS, которые могут неожиданно измениться, или создавать собственные парсеры для каждого сайта.
Задание: Проверьте каждый из перечисленных горячих продуктов и дайте мне краткое описание продукта.
Целевой URL: https://www.radioshack.com/collections/hot-products
Результат (перечислены только первые пять):
- RadioShack Analog AM/FM Weather Tabletop Radio — настольное радио с аналоговой настройкой и оповещениями о погоде, цена $65,99.
- RadioShack Antenna-Mounted High-Gain Signal Amplifier for HDTV Antennas — усилитель для антенн HDTV, который можно установить на антенне или стене, цена $76,99.
- Gigastone H1 Wireless Bluetooth Over-Ear Headphones — беспроводные наушники с поддержкой Bluetooth и встроенным микрофоном, цена $38,99.
- Marathon Nightowl Atomic Travel Alarm Clock with Automatic Night Light — часы с атомным отсчетом времени и функцией автоматического ночника, цена $29,99.
- RadioShack ⅛» Stereo Panel-Mount Phone Jack — телефонный разъем для стереофонического звука, устанавливаемый на панель, цена $3,99.
Оговорка: вы (иногда) не можете доверять GPT в правильной идентификации такого рода информации, поэтому всегда перепроверяйте, но в данном случае он неплохо справился с простой подсказкой. Вы также можете применить такую подсказку для генерации лидов или в любой другой ситуации, когда вам нужен нежесткий подход к идентификации информации в масштабе.
Пример использования 3: определение популярности на основе отзывов
Запланированный парсинг и анализ данных живых веб-сайтов открывает огромный потенциал для масштабного отслеживания тенденций и настроений и получения информативных сводок или прогностических рекомендаций, подходящих для любого бизнеса.
Задача: Прочитайте эти рецензии на книги и скажите мне, какая из них самая популярная.
Целевой URL: https://www.goodreads.com/genres/thriller
Результат: Как языковая модель ИИ, я не могу оценить субъективные предпочтения в книжных обзорах. Однако я могу дать объективный анализ самых популярных книг в жанре триллера. По данным сайта Goodreads, в число новинок с тегом «триллер» входят «Что мы сделали», «Что случилось с Рути Рамирес», «Те, кого стоит спасти», «Все, что мое, я ношу с собой», «Mothered», «The Golden Spoon», «Birnam Wood», «Those Empty Eyes», «Her Deadly Game», «Flux», «Missing Clarissa», «Stars and Smoke», «How I’ll Kill You», «The Curator», «Play the Fool». В настоящее время эти книги являются самыми популярными в жанре «Триллер» на Goodreads. Заинтересованные читатели могут изучить эти книги, чтобы понять, соответствуют ли они их предпочтениям в жанре триллера.
Предостережение: возможно, вы привыкли к тому, что GPT преуменьшает свои возможности при ответах на подсказки, и это хороший пример, но он правильно определил лучшие бестселлеры в категории триллеров в то время без особых подсказок.
Я могу продолжать, и я уверен, что вы тоже продолжите, если вспомните все потенциальные варианты использования. В приведенных выше примерах я использовал простые подсказки, но вы, вероятно, уже знаете, что вы получите гораздо больше от ИИ, если дадите ему очень подробные инструкции, или, если хотите, произнесете правильные заклинания. Это справедливо как для ИИ, генерирующего изображения, например Midjourney, так и для GPT. Поэтому не бойтесь быть невероятно многословным. ИИ не будет возражать.
ChatGPT проводит мозговой штурм своих собственных сценариев использования GPT Scraper
Я хочу предоставить последнее слово ChatGPT. Сейчас для меня это почти автоматический процесс — прогонять через него многое из того, что я делаю, с подсказкой дать мне рекомендации по улучшению или дополнению. Иногда он улавливает что-то, что я пропустил, потому что мне понадобился еще один кофе, или предлагает полезное предложение. Так что GPT был первым, кто прочитал этот пост. Поскольку генеративные ИИ, повторимся, по своей природе ненадежны, он часто не очень-то мне помогает, но, возможно, в этом случае он предложил несколько хороших идей. Просто помните, что вы не можете полностью доверять ему, так что осторожно, artifex!

Задача: Приведите еще несколько примеров использования в любой отрасли
- Электронная коммерция: Извлечение отзывов и оценок товаров с сайтов конкурентов для получения информации о предпочтениях потребителей и выявления областей для улучшения.
- Недвижимость: Используйте GPT Scraper для извлечения данных о недвижимости из объявлений о продаже недвижимости для сравнения цен, анализа тенденций и прогнозирования будущего роста.
- Здравоохранение: Используйте GPT Scraper для извлечения данных из медицинских исследований и клинических испытаний, чтобы найти идеи и взаимосвязи, которые помогут улучшить результаты лечения пациентов.
- Финансы: Извлекайте финансовые данные с веб-сайтов фондового рынка и анализируйте их для прогнозирования цен на акции, выявления инвестиционных возможностей и оценки рисков.
- Социальные медиа: Анализ тенденций в социальных сетях путем извлечения данных с различных платформ, таких как Twitter и Facebook, для определения настроений потребителей и создания персонализированных рекомендаций для предприятий.
- Путешествия и гостеприимство: Извлекать отзывы и рейтинги отелей, ресторанов и туристических достопримечательностей с туристических веб-сайтов и использовать их для выявления областей улучшения, прогнозирования будущих тенденций и предоставления персонализированных рекомендаций клиентам.
- Образование: Извлечение данных из образовательных ресурсов, таких как учебники, для выявления распространенных ошибок в предметах и предоставления обратной связи учителям для улучшения их учебных программ.
- Производство: Используйте GPT Scraper для извлечения данных с веб-сайтов производственных предприятий, чтобы отслеживать сбои в цепочке поставок и выявлять возможности для оптимизации производственных процессов.
- СМИ и развлечения: Анализируйте поведение и настроения пользователей, извлекая данные с веб-сайтов СМИ и развлекательных заведений, чтобы создавать персонализированные рекомендации по содержанию для пользователей.
- Юриспруденция: Используйте GPT Scraper для извлечения данных из юридических баз данных и их анализа для прогнозирования судебных решений и оценки правовых рисков.
Как использовать GPT Scraper
GPT Scraper, как и многие другие программы и инструменты Apify Store, прост в использовании, но это не значит, что он не обладает мощными возможностями. Итак, давайте возьмем реальную, живую веб-страницу и попросим GPT извлечь из нее полезные данные.
Шаг 1 Перейдите к GPT Scraper
Найдите GPT Scraper в Apify Store и нажмите кнопку Try actor. Вам понадобится бесплатная учетная запись Apify.

Шаг 2 Выберите URL-адрес для передачи GPT
Выберите содержимое, которое вы хотите передать GPT. Вы можете начать поиск только с одного начального URL-адреса или включить глобальные шаблоны для более точного контроля над ссылками для регистрации. Допустим, я хочу посмотреть, какие Humble Bundles доступны в категории игр. Может быть, я хочу получать обновления по электронной почте каждый день, чтобы узнать, появилось ли что-то новое. Возможно, вы сможете придумать более подходящие варианты использования.

Шаг 3 Укажите GPT, что делать с отсканированным содержимым
В поле Инструкции мы дадим GPT следующую простую подсказку. Это должно дать нам данные Инструкции: Дайте мне названия и подробную информацию обо всех доступных на данный момент комплектах.

Шаг 4 Нажмите кнопку «Старт» и дождитесь результата
Когда вы нажмете кнопку «Старт», GPT Scraper сначала выполнит сканирование веб-страницы Humble Bundle, а затем отправит собранные данные в формате Markdown в GPT через OpenAI API. GPT прочитает данные и применит ваши инструкции. Вам нужно будет подождать некоторое время, пока GPT Scraper запустится.

Шаг 5 Загрузите данные GPT
Когда GPT завершит работу и предоставит ответ, GPT Scraper укажет, что она прошла успешно. Вы можете навести курсор на ответ, чтобы просмотреть результат, или нажать Экспорт, чтобы загрузить его в JSON, Excel, CSV, XML, HTML Table, RSS или JSONL, в зависимости от того, где вы будете использовать данные. Конечно, вы можете предварительно просмотреть результат в каждом формате перед загрузкой. Возможно, вам потребуется проверить результаты и уточнить подсказку, но это неудивительно для генеративных ИИ. Вот предварительный просмотр того, что получилось у GPT. Пока что выглядит неплохо.

Вы можете экспортировать данные в различные форматы, в зависимости от того, что вы хотите с ними сделать.

Вот ответ GPT. Я не могу сказать, почему он решил выделить конкретные игры, но, похоже, основные факты в нем изложены верно!

Новые плагины OpenAI должны дать ChatGPT гораздо больше свободы, но сейчас я вполне доволен тем, что могу прогнать через него любую веб-страницу. Конечно, он нестабилен и эксцентричен, но это часть очарования этих ранних генеративных ИИ. Просто работайте с ним и наслаждайтесь моментом! Теперь, я думаю, пришло время посмотреть, что ChatGPT сделает из этой подсказки.

Последний совет перед тем, как я уйду: используйте селекторы CSS для ограничения содержимого, собираемого с веб-страниц, например, в блоге вы можете захотеть парсить только статьи из блога и игнорировать все элементы навигации и другое содержимое боковой панели.

Затем просто добавьте div в поле селектора Content:
