Основные навыки работы с данными для энтузиастов
Опубликовано: 2018-06-26Данные буквально растут с экспоненциальной скоростью, так что они достигли петабайт! Можете ли вы поверить, что девяносто процентов мировых данных было создано только за последние два года? При таком объеме управление данными оказалось сложной задачей. Неудивительно, что основные навыки работы с данными заняли первое место.
Пять против больших данных
Большие данные часто описываются пятью Vs. А именно — объем, скорость, разнообразие, достоверность и ценность.
- 1. Объем данных относится к огромным объемам данных, генерируемых каждую секунду всеми миллионами мобильных устройств, используемых в наши дни. Все эти электронные письма, сообщения в Твиттере, фотографии, видеоклипы, данные датчиков и многое другое, которые мы производим, представляют собой данные, наиболее ценные для многих компаний.
- 2. Скорость передачи данных означает скорость, с которой генерируются новые данные, и скорость, с которой их можно перемещать из одного места в другое, чтобы повысить прибыльность.
- 3. Разнообразие данных — это то, к чему мы все можем относиться. Данные для большинства организаций в прошлом означали базы данных и таблицы Excel. Однако сегодня данные означают гораздо больше. Восемьдесят процентов мировых данных неструктурированы, подумайте о фотографиях, видео и обновлениях в Твиттере, которые вы делаете.
- 4. Достоверность данных относится к уровню достоверности данных. Поскольку данные разрастаются до огромных размеров, важно, чтобы мы старались поддерживать их как можно более чистыми, поскольку грязные данные — это вирус, который может причинить вам боль, как никто другой.
- 5. Ценность данных — это истинная ценность ваших данных. Вы собираете много данных и решаете поработать над ними. Все хорошо и хорошо. Но какую ценность данные приносят вашей компании? Какую выгоду вы получаете от инвестиций в данные, что важно?
Итак, на случай, если вас увлечет шумиха вокруг больших данных и науки о данных, я предлагаю вам ознакомиться с пятью ресурсами, перечисленными ниже.
1. Даталагерь
Datacamp лучше всего подходит для людей, практически не имеющих опыта работы с Python и R. Он начинается с самых основ и имеет пошаговый подход, когда вам дают одну проблему за другой. Это находка для начинающих и по цене в бюджетном диапазоне.
Обратите внимание на большие скидки, которые предлагает Datacamp, если вы хотите подписаться на год и получить доступ к премиум-проекту и функциям. В нем есть несколько треков, которые вы можете освоить, каждый из которых состоит из 20-30 курсов. Среди популярных треков:
- а. Специалист по данным с Python
- б. Количественный анализ с R
- в. Манипуляции с данными с помощью Python
- д. Импорт и очистка данных с помощью R
- е. Визуализация данных с помощью R
Если у вас меньше времени, вы также можете пройти небольшие курсы, такие как:

- а. Введение в Python для науки о данных
- б. Введение в R
- в. Объединение данных в PostgreSQL
- д. Промежуточный R
2. Курсера
Coursera — одна из лучших платформ для изучения всего, от науки о данных до военной истории, и я испытал это на собственном опыте. Вы можете пройти аудит курсов и получить доступ к материалам курса бесплатно. Вот некоторые из лучших курсов Data Science на Coursera:
а. Навыки анализа данных и презентации: подход PwC. Эта специализация поможет вам получить практический опыт анализа данных и ноу-хау по превращению бизнес-аналитики в реальные результаты. Это даст вам лучшее понимание, фильтрацию и применение данных, что, в свою очередь, поможет вам быстрее решать проблемы. Вы освоите Microsoft Excel, PowerPoint и другие распространенные инструменты анализа данных и коммуникации. Самое главное, вы научитесь читать данные и представлять их.
б. Большие данные, UCSD. Если вам нужно понять большие данные и то, как они повлияют на ваш бизнес, эта специализация для вас. Вы сможете получить практический опыт работы с инструментами и системами, используемыми учеными и инженерами по работе с большими данными, такими как Hadoop с MapReduce, Spark, Pig и Hive. Вы научитесь выполнять прогнозное моделирование и использовать аналитику графов для моделирования проблем. Если вы будете трудиться до самого конца, вы сможете завершить проект Capstone, разработанный в сотрудничестве с компанией Splunk, занимающейся программным обеспечением данных, в котором вам будет разрешено применять базовые концепции, которые вы изучили.
в. Специализация по науке о данных Университета Джона Хопкинса. Эта специализация охватывает концепции и инструменты, которые вам потребуются на протяжении всего пути данных, начиная от постановки правильного набора вопросов и заканчивая выводами, а также публикацией результатов в простом, но мощном формате. .
д. SQL для науки о данных, Калифорнийский университет в Дэвисе. Этот курс предназначен для того, чтобы дать вам основы SQL, а также работу с данными, которые помогут вам перейти к потребностям базы данных в мире науки о данных. Курс начинается с самых основ и предполагает нулевое знание SQL. Сложность неуклонно растет, и постепенно вам придется писать как простые, так и сложные запросы, помогающие выбирать данные из таблиц.
3. База данных
Если вам нужны полные, чистые и готовые к использованию веб-наборы данных из разных отраслей по всему миру, воспользуйтесь Datastock. Это решение идеально подходит для тех, кто ищет готовые к использованию наборы данных для проведения анализа, получения информации и приобретения навыков работы с данными.
Что здорово, так это то, что перед покупкой вы получаете бесплатный образец набора данных. Вы можете сами проверить качество данных, а затем принять решение.
4. Каггл
Kaggle — это место для проектов по науке о данных и один из самых популярных веб-сайтов среди начинающих специалистов по данным. Это дает различные варианты, такие как:
- а. Запуск собственного нового проекта
- б. Изучение проектов, созданных другими
- в. Участие в одном из спонсируемых ими соревнований
5. Датаквест
Их практический метод научит вас всем навыкам, которые вам нужны, чтобы стать специалистом по данным, аналитиком данных или инженером данных. Вы можете учиться разными способами:
- а. Написание кода
- б. Работа с данными
- в. Строительные проекты
