Ваш путеводитель по веб-скраппингу Вопросы и ответы Quora
Опубликовано: 2022-02-17Сайты вопросов и ответов, такие как Quora, являются центрами онлайн-общения для цифровых граждан во всем мире, где они могут задавать вопросы, отвечать и обсуждать наиболее важные вопросы, сомнения и темы. Извлечение крупномасштабных данных из этих онлайн-платформ вопросов и ответов может быть полезно как маркетологам, так и специалистам по данным, поскольку это не только многоязычный веб-сайт вопросов и ответов, но и сама по себе социальная сеть со многими нишевыми авторитетами. Давайте подробно узнаем, как парсить Quora.
Примеры использования парсинга Quora
Чтобы подчеркнуть, почему парсинг Quora представляет интерес для маркетологов и бизнеса, давайте быстро взглянем на 4 важные статистические данные Quora :
- Quora насчитывает 300 миллионов активных пользователей в месяц.
- В среднем пользователи проводят на Quora более 4 минут в день.
- По объему трафика это 80-й по популярности веб-сайт в мире.
- Поиск Google показывает целых 65 миллионов результатов для Quora[dot]com.
#1: Анализ настроений
Вы можете просмотреть вопросы, связанные с политикой, брендами, фондовым рынком и т. д., чтобы выполнить анализ настроений.
# 2: НЛП и машинное обучение
Большинство пользователей Quora — настоящие пользователи, которые задают вопросы и отвечают на платформе на своем повседневном жаргоне. Это может быть очень полезно для обучения моделей машинного обучения и обработки естественного языка (NLP).
# 3: Интеллектуальный маркетинг влияния
Quora позволяет вам размещать рекламу, но вы также можете ориентироваться на лидеров мнений в определенной нише для продвижения своего бренда. Извлечение вопросов, профилей пользователей и т. д. из определенной ниши позволит вам сотрудничать с нужными влиятельными лицами, которые имеют реальные полномочия для продвижения ваших брендов.
# 4: Лидогенерация и контент-маркетинг
Вопросы, задаваемые пользователями, могут помочь вам определить, являются ли они вашими целевыми лидами. Например, если вы представляете компанию, предоставляющую ИТ-услуги, то люди, которые задают такие вопросы, как «Сколько стоит разработка веб-сайта электронной коммерции?» ваши потенциальные лиды. Информация, полученная в результате парсинга вопросов и ответов Quora, также может стать вашим ключом к выдающейся стратегии контент-маркетинга.
Как парсить вопросы и ответы Quora
Мы будем использовать Python3.7 и библиотеку BeautifulSoup для сканирования данных Quora и сохранения их в файле JSON. Используя этот код, вы сможете легко очищать и извлекать ответы и вопросы Quora. Единственное, что вам понадобится, это приличный текстовый редактор. Мы использовали PyCharm, полноценную IDE, но вы также можете использовать Atom, поскольку он поставляется с несколькими плагинами и является более легким. Надеюсь, это поможет вам понять, как детально парсить Quora.
Итак, чтобы начать с кода, мы начинаем с импорта библиотек, которые нам понадобятся, как внутренних, так и внешних. После этого нам нужно убедиться, что мы установили режим проверки сертификата SSL на «CERT_NONE» и проверили имя хоста на False, чтобы избежать ошибок сертификата SSL, когда мы начинаем очищать данные. Как только это будет сделано, наша настройка завершена, и мы можем принять вопрос от пользователя. Для этой демонстрации мы предоставили следующее значение, когда был задан этот вопрос.


Мы создаем URL-адрес Quora, используя этот вопрос. Эта манипуляция со строками необходима, поскольку Quora форматирует свои URL-адреса таким образом.
После того, как мы создали URL-адрес, мы используем встроенную функцию запроса из urllib, чтобы перейти на веб-страницу и убедиться, что мы добавили Firefox в заголовок, чтобы веб-сайт не мог отслеживать, что мы обращаемся к нему из фрагмента кода. Эта часть важна, так как большинство веб-сайтов блокируют парсеры, и если вы пропустите заголовок. Ваш IP, скорее всего, будет заблокирован, и против вас могут быть предприняты дальнейшие действия.


После того, как мы получили веб-страницу в формате HTML и сохранили ее в переменной. Нам нужно преобразовать его в объект BeautifulSoup, чтобы его было легче анализировать и извлекать данные. Затем извлеките вопрос на веб-странице из первого тега title на странице. Нам нужно удалить из него «- Quora», так как все заголовки идут со следующей строкой. Соскоблить ответ немного сложнее. Вам нужно извлечь JSON, хранящийся в элементе типа «script», имеющем значение для «type» как «application/ld+json». Получив этот JSON, вы найдете список ответов с несколькими полями. Пока для каждого ответа дается несколько полей. Мы выделили самые важные из них:
- Дата написания ответа
- Сам ответ
- Количество голосов, которые он получил
После завершения извлечения данных мы можем добавить их в список ответов и сохранить окончательный список в файле JSON.
Понимание вывода
Приведенный ниже файл JSON содержит некоторые ответы, которые были извлечены со страницы HTML, когда мы запускали код с вопросом, упомянутым в последнем разделе. Как видите, в JSON есть два поля: вопрос и ответы. Каждый ответ состоит из трех параметров, о которых мы упоминали ранее. Хотя ответов на этот конкретный вопрос было много. Ниже мы показали лишь некоторые из них. Не стесняйтесь запускать код самостоятельно и проверять все ответы на этот или любой другой вопрос.

Ограничения извлечения контента из Quora
Хотя это может показаться идеальным решением для поиска ответов на любой вопрос на Quora. Как и любая другая часть кода DIY, он имеет множество ограничений. Одним из важных аспектов является то, что не каждый вопрос, который вы вводите, будет существовать в Quora. У вас будет ломаться код каждый раз, когда вы вводите несуществующий вопрос. В то же время вам может потребоваться ввести свой вопрос несколько раз, чтобы узнать, какая версия существует. Лучшей реализацией было бы найти вопрос, который соответствует тому, который вы ввели ближе всего.
Еще один аспект, который следует учитывать, связан с проблемами очистки данных Quora и тем, как вы решите их использовать. Вам нужно убедиться, что вы просматриваете файл robot.txt и очищаете данные, а также используете их соответствующим образом. Любое коммерческое использование этого кода может привести к юридическим проблемам. И использование собранных данных для чего-либо, кроме исследовательских целей, также может вызвать проблемы.
В итоге
Социальные сети — это золотая жила для пользовательских данных. Скрапинг вопросов и ответов Quora похож на получение доступа к болевым точкам ваших клиентов, симпатиям / антипатиям / интересам вашей аудитории. Использование интеллектуального инструмента парсинга избавит вас от всех проблем, связанных с парсингом данных Quora . После извлечения данных вы можете запускать алгоритмы машинного обучения на основе нейронных сетей и получать важную для бизнеса информацию.
