Если вы можете исследовать ... Как разговаривать с вашим сайтом с помощью больших языковых моделей
Как разговаривать с вашим сайтом с помощью больших языковых моделей...
Если вы можете исследовать сайт и получить его содержимое с помощью LLM, вы можете эффективно «разговаривать» с этим сайтом. Это означает конец поисковым окнам и попыткам угадать термины, которые приведут вас на нужную страницу. Bing и Bard могут осуществлять поиск, а ChatGPT можно использовать для обработки любой живой веб-страницы с небольшой помощью парсинга. Все это очень весело, но есть еще более интересный вариант использования комбинации больших языковых моделей и парсинга. Если вы можете исследовать веб-сайт и получить его содержимое с помощью LLM, вы или ваши пользователи сможете эффективно «разговаривать» с этим сайтом.
Это относится к документации, базам знаний, справочным статьям, блогам, исследованиям и любому другому контенту. Это означает конец поисковым окнам и попыткам угадать термины, которые приведут вас на нужную страницу. Это означает, что LLM может дать вам легко понятный ответ на любой вопрос о содержимом на естественном языке. Эта функциональность может быть использована для создания пользовательского чат-бота, подачи и тонкой настройки любого LLM или генерации персонализированного контента на лету, который точно отражает тон бренда. Полученные данные также могут быть обработаны LLM для обновления или улучшения.
Как Website Content Crawler позволяет любому LLM общаться с любым веб-сайтом
Недавно компания Apify выпустила новую программу Apify Actor, которая упрощает получение контента с любого веб-сайта. Website Content Crawler выполняет глубокое сканирование веб-сайта и автоматически удаляет заголовки, колонтитулы, меню, рекламу и другие помехи с веб-страниц, чтобы вернуть только текстовый контент, который можно напрямую передать на LLM.
Он имеет простую конфигурацию ввода, поэтому его можно легко интегрировать в продукты, ориентированные на клиентов. Он прекрасно масштабируется и может использоваться как для небольших сайтов, так и для сайтов с миллионами страниц. Результаты могут быть получены с помощью API в таких форматах, как JSON или CSV, которые могут быть переданы непосредственно в ваш LLM, векторную базу данных или непосредственно в ChatGPT.
Website Content Crawler имеет интеграцию для LangChain и Apify Dataset Loader для LlamaIndex. Так что попробуйте его для своего сайта или создайте на его основе свой собственный. Внедряйте его в свои чат-боты, создавайте на его основе приложения — все, что вы можете себе представить. Вот пошаговое руководство по его использованию.
Как спарсить данные для вашего LLM
Шаг 1. Получите приложение Website Content Crawler
Зайдите в Apify Store и найдите «Website Content Crawler» или посмотрите категорию AI.
Шаг 2. Введите URL-адрес веб-сайта, который вы хотите отсканировать.
Website Content Crawler будет отлично работать с настройками по умолчанию, поэтому вы можете нажать кнопку Start, если хотите провести быстрый тест-драйв. В примере по умолчанию будет сканироваться одна страница из документации Apify.

Шаг 3. Настройте входные параметры для управления ползанием
Website Content Crawler может выполнять очень глубокий поиск, поэтому вам определенно захочется установить некоторые ограничения, чтобы минимизировать использование платформы (каждая бесплатная учетная запись Apify поставляется с 5 долларами предоплаченного использования, которых должно быть достаточно для тестирования или поиска небольших веб-сайтов).

Каждая из этих настроек регулирует поведение краулера. Вот краткий обзор основных из них:
- Тип краулера: безголовый браузер отлично подходит для современных веб-сайтов, использующих много JavaScript, но краулер будет работать медленнее. Raw HTTP будет быстрым, но может не подойти для каждого сайта, а raw HTTP клиент с выполнением JS — это гибридный подход, с которым можно экспериментировать.
- Максимальная глубина краулинга: указывает краулеру максимальное количество ссылок, начиная с начального URL, по которым он будет рекурсивно спускаться.
Установив разумные пределы, вы можете приступать к обследованию любого веб-сайта. Попробуйте это на собственной документации или базе знаний.
Шаг 4. Уточните параметры обработки и вывода HTML
Website Content Crawler можно настроить на вывод отсканированного содержимого, чтобы не давать LLM нежелательное содержимое, такое как заголовки, навигационные и нижние колонтитулы, и это настройка по умолчанию. Вы можете настроить элементы HTML, которые вы хотите игнорировать.

Кроме того, есть множество настроек вывода, с которыми можно экспериментировать, например, сохранение HTML или Markdown, скриншоты и так далее.

Шаг 5. Отправьте содержимое в выбранный вами LLM
После завершения сканирования вы можете экспортировать спарсенный контент в JSON, HTML и ряд других форматов, поэтому выбирайте тот, который подходит для вашего LLM.
Вот выдержка из некоторых материалов из книги «Парсинг для начинающих» в формате JSON:
{ "url": "https://docs.apify.com/academy/web-scraping-for-beginners", "crawl": { "loadedUrl": "https://docs.apify.com/academy/web-scraping-for-beginners", "loadedTime": "2023-05-31T12:43:02.936Z", "referrerUrl": "https://docs.apify.com/academy/web-scraping-for-beginners", "depth": 0 }, "metadata": { "canonicalUrl": "https://docs.apify.com/academy/web-scraping-for-beginners", "title": "Web scraping for beginners | Apify Documentation", "description": "Learn how to develop web scrapers with this comprehensive and practical course. Go from beginner to expert, all in one place.", "author": null, "keywords": null, "languageCode": "en" }, "screenshotUrl": null, "text": "Web scraping for beginners\nLearn how to develop web scrapers with this comprehensive and practical course. Go from beginner to expert, all in one place.\nWelcome to Web scraping for beginners, a comprehensive, practical and long form web scraping course that will take you from an absolute beginner to a successful web scraper developer. If you're looking for a quick start, we recommend trying this tutorial instead.\nThis course is made by Apify, the web scraping and automation platform, but we will use only open-source technologies throughout all academy lessons. This means that the skills you learn will be applicable to any scraping project, and you'll be able to run your scrapers on any computer. No Apify account needed.\nIf you would like to learn about the Apify platform and how it can help you build, run and scale your web scraping and automation projects, see the Apify platform course, where we'll teach you all about Apify serverless infrastructure, proxies, API, scheduling, webhooks and much more.\nWhy learn scraper development?\nWith so many point-and-click tools and no-code software that can help you extract data from websites, what is the point of learning web scraper development? Contrary to what their marketing departments say, a point-and-click or no-code tool will never be as flexible, as powerful, or as optimized as a custom-built scraper.\nAny software can do only what it was programmed to do. If you build your own scraper, it can do anything you want. And you can always quickly change it to do more, less, or the same, but faster or cheaper. The possibilities are endless once you know how scraping really works.\nScraper development is a fun and challenging way to learn web development, web technologies, and understand the internet. You will reverse-engineer websites and understand how they work internally, what technologies they use and how they communicate with their servers. You will also master your chosen programming language and core programming concepts. When you truly understand web scraping, learning other technology like React or Next.js will be a piece of cake.\nCourse Summary\nWhen we set out to create the Academy, we wanted to build a complete guide to modern web scraping - a course that a beginner could use to create their first scraper, as well as a resource that professionals will continuously use to learn about advanced and niche web scraping techniques and technologies. All lessons include code examples and code-along exercises that you can use to immediately put your scraping skills into action.\nThis is what you'll learn in the Web scraping for beginners course:\nWeb scraping for beginners\nBasics of data extraction\nBasics of crawling\nBest practices\nRequirements\nYou don't need to be a developer or a software engineer to complete this course, but basic programming knowledge is recommended. Don't be afraid, though. We explain everything in great detail in the course and provide external references that can help you level up your web scraping and web development skills. If you're new to programming, pay very close attention to the instructions and examples. A seemingly insignificant thing like using [] instead of () can make a lot of difference.\nIf you don't already have basic programming knowledge and would like to be well-prepared for this course, we recommend taking a JavaScript course and learning about CSS Selectors.\nAs you progress to the more advanced courses, the coding will get more challenging, but will still be manageable to a person with an intermediate level of programming skills.\nIdeally, you should have at least a moderate understanding of the following concepts:\nJavaScript + Node.js\nIt is recommended to understand at least the fundamentals of JavaScript and be proficient with Node.js prior to starting this course. If you are not yet comfortable with asynchronous programming (with promises and async...await), loops (and the different types of loops in JavaScript), modularity, or working with external packages, we would recommend studying the following resources before coming back and continuing this section:\nasync...await (YouTube)\nJavaScript loops (MDN)\nModularity in Node.js\nGeneral web development\nThroughout the next lessons, we will sometimes use certain technologies and terms related to the web without explaining them. This is because the knowledge of them will be assumed (unless we're showing something out of the ordinary).\nHTML\nHTTP protocol\nDevTools\njQuery or Cheerio\nWe'll be using the Cheerio package a lot to parse data from HTML. This package provides a simple API using jQuery syntax to help traverse downloaded HTML within Node.js.\nNext up\nThe course begins with a small bit of theory and moves into some realistic and practical examples of extracting data from the most popular websites on the internet using your browser console. So let's get to it!\nIf you already have experience with HTML, CSS, and browser DevTools, feel free to skip to the Basics of crawling section." },
Вам действительно будет легко общаться с любым сайтом с помощью GPT, Llama, Alpaca или любой другой большой языковой модели. Вы можете использовать Website Content Crawler для своих собственных проектов или создать на его основе продукт для своих клиентов. Повышайте производительность своих LLM, создавайте персонализированный контент, разрабатывайте пользовательские чат-боты и улучшайте существующий контент с помощью обобщения, корректуры, перевода или изменения стиля.
Бонусный шаг: придайте вашему LLM память с помощью LangChain
Фреймворк LangChain разработан для упрощения создания приложений, использующих большие языковые модели. LangChain выступает в качестве слоя абстракции, который обеспечивает интеграцию с API, облачными платформами хранения данных, другими большими языковыми моделями и широким спектром других сервисов, позволяя анализировать документы, создавать чат-ботов, анализировать код и манипулировать данными.