Советы по правильному извлечению веб-данных даже из самых сложных сайтов с использованием лучших практик веб-скрапинга.

Опубликовано: 2018-05-16
Оглавление показать
Проект 1: Сбор данных телекоммуникационного сектора для компании бизнес-аналитики
Проблемы проекта
1. Слишком много шагов для получения данных
2. Частые изменения сайта
3. Проблемы с кодировкой символов
4. Лишние данные на сайте
Проект 2: Извлечение данных из платформ поиска отелей и сравнения цен
Проблемы проекта
1. Блокировка
2. Открытие
3. Проблемы с кодировкой символов
4. Избыточные данные на целевых сайтах
Проект 3. Консалтинговой фирме «большой четверки» нужны данные о продуктах для создания системы ценовой аналитики.
Вызов проекта
1. Соответствие продукта
Служба веб-скрейпинга — это решение проблем

Веб-сканирование сопряжено со своими проблемами, и неудивительно, если вы когда-либо пробовали свои силы в поиске данных в Интернете. Данные, доступные в Интернете, не подчиняются никаким правилам, структуре или стандартам, и уже одно это затрудняет прогнозирование проблем, с которыми можно столкнуться при поиске данных в Интернете. Сложность возрастает во много раз, когда необходимо выполнять сложный веб-скрейпинг в больших масштабах.

Веб-данные, несмотря на то, что они содержат бесценную информацию для бизнеса, по-прежнему остаются для многих крепким орешком. Именно здесь на помощь приходит специализированный сервис веб-парсинга, такой как наш. В PromptCloud мы получаем самые разные требования, и каждая задача очистки данных сама по себе является сложной задачей. Однако сложность извлечения веб-данных сильно различается в зависимости от нескольких факторов. Вот некоторые из самых сложных задач парсинга, с которыми мы сталкивались до сих пор.

Проект 1: Сбор данных телекоммуникационного сектора для компании бизнес-аналитики

Целевые сайты: сайты операторов сотовой связи .

Требуемые точки данных: все предложения доступны для различных сегментов клиентов .

Компания хотела собрать данные о предложениях, доступных на веб-сайтах различных операторов сотовой связи, чтобы предоставить своим клиентам конкурентное преимущество в этой области. Требование было выполнимо, несмотря на то, что оно было чрезвычайно сложным. Ниже приведены проблемы, которые сделали этот проект чрезвычайно сложным.

Проблемы проекта

1. Слишком много шагов для получения данных

Информация о предложениях на исходных сайтах отображалась только после ввода определенных переменных, таких как почтовый индекс клиента и типы предложений. Это составило длинный путь, прежде чем фактические данные были отображены. В результате сканер должен был быть запрограммирован на выбор всех возможных комбинаций входных данных, чтобы эффективно заставить сайт отображать все доступные данные.

2. Частые изменения сайта

Поскольку мобильная индустрия быстро развивается, данные, доступные на этих веб-сайтах, часто меняются. Провайдеры мобильных сетей часто вносят изменения в свои существующие предложения, прекращают действие некоторых предложений и предлагают новые. Это потребовало тщательного мониторинга и внедрения автоматического парсера для решения проблем с изменением сайта.

3. Проблемы с кодировкой символов

Кодировка символов веб-сайта обычно объявляется веб-сайтом в его HTML-коде. Однако некоторые веб-сайты могут иметь неправильное объявление кодировки символов или использовать более одной кодировки символов на сайте. Это может усложнить настройку поискового робота и по-прежнему вызывать проблемы, если сайт не соответствует кодировке символов.

4. Лишние данные на сайте

Избыточные данные могут стать настоящей проблемой, особенно когда масштаб извлечения веб-данных велик. Хотя у нас есть система очистки, предназначенная для поиска и удаления избыточных записей из набора данных, сам сайт с избыточными данными еще больше затрудняет извлечение.

Проект 2: Извлечение данных из платформ поиска отелей и сравнения цен

Целевые сайты: туристические онлайн-порталы и веб-сайты отелей .

Требуемые данные: списки отелей и отзывы .

Клиент хотел извлечь данные об отелях из сотен туристических веб-сайтов со всего мира, чтобы создать универсальную систему поиска отелей. Каждому целевому сайту требовалась собственная настройка поискового робота, и отдельные проблемы, которые нужно было избежать при настройке поисковых роботов данных для более чем 100 сайтов, усложняли этот проект.

Проблемы проекта

1. Блокировка

Некоторые сайты в целевом списке имели различные механизмы блокировки, нацеленные на автоматические поисковые роботы. С этим нужно было справиться, используя оптимальную частоту запросов GET и запрашивая только номинальное количество страниц за раз. Мы избежали механизмов блокировки, следуя передовым методам парсинга веб-страниц.

2. Открытие

Обнаружение URL-адресов, которые необходимо получить, является критическим этапом в процессе веб-сканирования и извлечения данных, а плохая навигационная структура некоторых целевых сайтов затрудняет беспрепятственный просмотр страниц веб-сканерами. Мы справились с этим, настроив несколько резервных правил для операции обнаружения URL.

3. Проблемы с кодировкой символов

Проблемы с кодировкой символов были проблемой при выполнении этой задачи. Нам пришлось вручную убедиться, что используемые нами кодировки совпадают с кодировками каждого целевого сайта. В случае сайтов, которые показали несоответствие кодировки символов, мы также настроили некоторую автоматизацию для решения проблемы.

4. Избыточные данные на целевых сайтах

Излишние данные, представленные на нескольких сайтах, добавили сложности этому проекту. Мы позволили нашей системе очистки позаботиться об избыточности извлеченных данных, и этот подход, похоже, сработал и для клиента.

Проект 3: Консалтинговой фирме «большой четверки» нужны данные о продуктах для создания системы ценовой аналитики.

Целевые сайты: популярные порталы электронной коммерции .

Требуемые данные: Информация о продукте

Клиент хотел помочь одному из своих клиентов с информацией о ценах, и ему нужна была услуга, которая могла бы не только предоставить данные о продукте, но и выполнить сопоставление. Хотя обычно мы не занимаемся процессами, не связанными с извлечением и доставкой данных, мы решили заняться этим, учитывая масштаб и интересный характер требований.

Вызов проекта

1. Соответствие продукта

Сопоставление продуктов — очень сложный аспект, который выходит за рамки опыта веб-скрейпинга. Здесь необходима надежная система сопоставления, поскольку любой другой портал электронной коммерции будет иметь некоторые незначительные различия, когда речь идет об описаниях продуктов, включая название продукта и название бренда.

Тем не менее, мы разработали алгоритм, который мог бы выполнять сопоставление после того, как данные были извлечены и проиндексированы на нашей стороне, чтобы удовлетворить требования этого уникального проекта.

Служба веб- скрейпинга — это решение проблем

Учитывая отсутствие стандартизации, когда речь идет о данных, отображаемых веб-сайтами, веб-скрапинг всегда был и будет сложной задачей, для решения которой необходимо использовать навыки, опыт и знания. Именно поэтому мы подчеркиваем важность использования полностью управляемого решения, когда речь идет о требованиях к веб-данным для предприятий независимо от их размера и домена.