Почему принцип «коси сено, пока светит солнце» актуален для веб-данных
Опубликовано: 2018-07-07"Сделать сено, пока солнце светит."
«Ранняя пташка ловит червяка».
Многие из вас, возможно, привыкли довольно часто слышать подобные слова от многих мотивационных ораторов и других людей, которые предпочитают давать бесплатные советы окружающим. Но эти слова на самом деле справедливы для извлечения данных из Интернета. В наши дни люди воспринимают данные как должное. Всякий раз, когда обсуждается какой-либо предмет или продукт, мы сразу же проверяем цены и подробности в Интернете. Таким образом, мы принимаем данные как должное. Мы забываем, что любой может изменить информацию, представленную на веб-сайте, который он контролирует. Цены, продукты, контент и многие другие поля данных могут быть изменены. Вы никогда не знаете, что вы можете упустить, пока данные не выйдут из эфира. Возможно, вы уже собираете или парсите данные, напрямую связанные с вашим бизнесом. Видите ли, хранение данных действительно дешево. Он сократился почти до копеек. Поэтому чем больше данных вы сохраните и сохраните, тем лучше. Люди запускают алгоритмы для построения прогностических моделей на основе данных, собранных за последние одно-два десятилетия. Возможно, однажды вам понадобится сделать то же самое, и ого! Возможно, у вас нет данных для этого.
Почему данные так важны?
Вещи, которые компания может сделать, постоянно собирая данные, варьируются от отслеживания тенденций в ценообразовании и продуктах до создания механизмов рекомендаций, которые помогут увеличить продажи, группируя продукты, чтобы лучше продавать аксессуары и запасные части. Извлечение данных прямо сейчас поможет вам получить исторические данные, результаты рыночных и финансовых исследований, а также данные, собранные организациями и некоммерческими организациями, которые могут закрыться в будущем.
Как данные могут исчезнуть?
Правительства во всем мире осознали, что слова сильнее меча в современном обществе, управляемом данными, и незаметно удаляют изображения, видео, документы и многое другое, что может быть использовано в качестве компрометирующих улик, чтобы доказать их неправомерные действия или начать восстание. . Совсем недавно администрация президента Трампа удалила данные о климате с веб-сайта EPA. Они пытались что-то доказать? Может быть.
Так что настало время собрать как можно больше данных. Возможно, однажды ваш репозиторий данных будет стоить миллионы, и агентства по маркетингу или управлению данными будут платить вам за получение наборов данных, собранных вами, которые больше не будут доступны для общественности в бесплатном Интернете. Это будет только у вас, хранится на ваших частных серверах. Различные наблюдательные группы по всему миру начали собирать данные с веб-сайта EPA, но, к сожалению, для данных о климате было слишком поздно, и данные были недоступны, и единственный способ получить эти данные — это сохранить их в автономном режиме.

Когда вам понадобятся данные?
Не будем заходить так далеко. Допустим, у вас есть бизнес B2C, и вы внезапно обнаруживаете падение продаж, которое не может быть связано с обычными сценариями. Если у вас есть данные только за один год, возможно, вы не сможете хорошо понять реальную причину. Однако если бы вы активно собирали и сохраняли данные — даже данные, которые могли показаться излишними и в то время (вы, возможно, исходили из того, что вам не понадобится так много данных), — и все же сохраняли их на будущее, то вы могли бы вам будет проще сделать прогноз или создать модель, которая поможет вам предсказать причины падения продаж.
Как данные помогают компаниям расти
- Google: он работает с Центрами по контролю за заболеваниями США и помогает отслеживать, когда пользователи вводят поисковые запросы, связанные с темами гриппа, чтобы помочь предсказать, какой регион может столкнуться со вспышками.
- General Electric (GE): Машины, от электростанций до локомотивов и даже больничного оборудования, теперь выдают данные о том, как они работают, с помощью тысяч встроенных в них датчиков. Группа аналитиков GE обрабатывает ее, затем разбирает машины и собирает их вместе, чтобы сделать их более эффективными. Минимальные улучшения дают великодушные результаты из-за масштаба. По оценкам GE, данные могут повысить производительность в США на полтора процента, что за двадцать лет может сэкономить достаточно денег, чтобы поднять средний национальный доход на целых тридцать процентов.
- Netflix: это то, о чем мы все знаем и которым наслаждаемся изо дня в день. Они не только привлекают огромную аудиторию своим многочисленным оригинальным контентом, но и их удивительный механизм рекомендаций почти как лучший друг, который дает вам отличные предложения фильмов, основанные на ваших личных симпатиях и антипатиях.
- Uber: Uber использует большие данные, чтобы предсказать, где и когда люди будут в большом количестве пытаться заказать такси, и здесь Uber продвигает пул Uber, который не только помогает этим людям экономить деньги, но и снижает углеродный след до трети.
- UPS: Мы все знаем, насколько важной стала логистика в наши дни. Нам нужно, чтобы все было доставлено прямо к нашему порогу. UPS помогает доставлять 4 миллиарда товаров в год с помощью почти ста тысяч транспортных средств. При таком огромном объеме трафика возможности использования данных безграничны, и UPS использует Big Data и для оптимизации автопарка, чтобы сэкономить деньги и сделать логистический бизнес более эффективным. Компания сэкономила более тридцати девяти миллионов галлонов топлива и не проехала триста шестьдесят четыре миллиона миль.
Как собирать данные?
Создание группы сканирования веб-сайтов для большинства компаний может оказаться неосуществимым, поскольку это означает, что вам может потребоваться добавить в вашу компанию совершенно новый отдел нового поколения, для финансирования или понимания которого у вас может не быть средств. Вместо этого вы можете обратиться к поставщику услуг, который поможет вам понять, какие данные лучше всего сканировать, собирать, сохранять и хранить, чтобы вы могли убедиться, что в вашем бизнесе никогда не будет недостатка в данных. Они также могут помочь вам с моделированием прогнозов и механизмами рекомендаций, чтобы вы не только собирали данные, но и продолжали использовать их в качестве топлива для своего бизнеса в режиме реального времени.
"Мы верим в Бога. Все остальные должны приносить данные», — Эдвардс Деминг, статистик.
