Визуализация данных в R: что это такое + примеры
Опубликовано: 2021-06-21Данные окружают нас повсюду, и важно, чтобы мы их понимали. Визуализация данных — это мощный инструмент, который позволяет нам преобразовывать необработанные данные в визуальное представление, чтобы человеческому мозгу было легче и быстрее понимать данные.
Сегодня существует множество онлайн-программ, приложений и программного обеспечения, которые позволяют нам легко создавать красивые визуализации данных несколькими щелчками мыши. Все они имеют разные возможности и функции и требуют разного набора навыков для их использования. В этой статье мы сосредоточимся на визуализации данных R. R — это язык программирования и среда для статистических вычислений, графического анализа данных и научных исследований.
Использование R в качестве платформы для анализа данных позволяет разработчикам и специалистам по данным создавать различные типы визуализаций для представления сложных необработанных данных с минимальным кодированием.
В этой статье мы познакомим вас с основами использования R для визуализации данных, перечислим различия между визуализацией данных в R и Python и покажем примеры, чтобы вы могли лучше понять, что такое визуализация данных в R и как она работает.
Что такое визуализация данных в R?
Создание визуализаций данных в R — это метод получения информации о данных с помощью визуальной среды. Используя разнообразные функции R, вы можете создавать привлекательные визуализации данных, написав всего несколько строк кода. Для создания визуализации данных R предоставляет несколько библиотек визуализации, включая ggplot2, который является одним из наиболее широко используемых пакетов. Ggplot2 позволяет создавать диаграммы практически любого типа и улучшает качество и эстетику вашей графики.
Попробуйте Рогатку
Как создать визуализацию данных в R?
Самое лучшее в процессе создания визуализаций данных с помощью R — это то, что вам не нужно быть R-программистом или экспертом по анализу данных. В R доступно множество наборов данных, с которыми вы можете работать, поэтому вам даже не нужно готовить собственный набор данных.
В этом примере визуализации R используется встроенный набор данных Orange для построения графика возраста дерева и окружности дерева.
ggplot(Orange) + geom_line(aes(x = age, y = circumference, color = Tree))В результате получается эта визуализация:

Предоставленные библиотеки визуализации и встроенные наборы данных полны и содержат все необходимое для экспериментов с R, создания визуализаций данных и мгновенного просмотра результатов.
Визуализация временной шкалы R
Визуализация временной шкалы R — это визуальные инструменты, отображающие последовательность событий в хронологическом порядке. Визуализация временной шкалы отлично подходит для отчетов о клинических случаях и презентаций, а также может быть очень полезна в отрасли здравоохранения, отображая клиническое течение пациента, и в управлении проектами, где можно создать временную шкалу проекта с этапами.
В этом примере в R показано, как создать фрейм данных с проектами и задачами и отобразить объекты задач в визуализации временной шкалы R.
df <- structure(list(Project = structure(c(1L, 1L, 1L, 2L, 2L, 2L), .Label = c("Project 1", "Project 2"), class = "factor"), + Task = structure(c(1L, 2L, 1L, 2L, 1L, 2L), .Label = c("Task 1", + "Task 2"), class = "factor"), StartDay = c(1L, 2L, 2L, 2L, 3L, 5L), StopDay = c(3L, 5L, 8L, 4L, + 5L, 6L)), .Names = c("Project", "Task", "StartDay", + "StopDay"), class = "data.frame", row.names = c(NA, -6L)) df$Task <- factor(df$Task, levels(df$Task)[c(2,1)]) ggplot(data=df, aes(color=Task))+ geom_segment(aes(x=StartDay, xend=StopDay, y=Task, yend=Task),lwd=12)+ facet_grid(Project~.)+xlab("Days Allocated")+ylab("Tasks Lists")В результате получается эта визуализация временной шкалы:

Визуализации временной шкалы R часто создаются с помощью библиотеки ggplot2 в R studio, где к этим визуализациям можно добавлять уровни детализации, используя цвета, формы и другие визуальные элементы, чтобы сделать их более привлекательными и понятными.

Визуализация дерева R
Пакет R ggtree обеспечивает программируемую визуализацию древовидных структур и связанных данных. Первоначально ggtree был разработан для работы с филогенетическими деревьями, но позже был расширен для поддержки других древовидных структур, что расширяет применение ggtree для представления данных деревьев и в других дисциплинах. Сторона библиотеки R — еще одна популярная библиотека, включающая функцию ctree() для визуализации дерева решений. В этом примере дерево решений визуализируется с использованием встроенного набора данных readSkills.
library(party) input.dat <- readingSkills[c(1:105),] png(file = "decision_tree.png") output.tree <- ctree(nativeSpeaker ~ age + shoeSize + score, data = input.dat) plot(output.tree)Этот пример кода будет отображать эту визуализацию дерева решений R:

Деревья решений, например, широко используются для прогнозирования результатов на основе набора функций и могут обеспечивать прогнозы с желаемой точностью, но при этом их легко понять и интерпретировать.
Модели дерева решений включают в себя набор алгоритмов машинного обучения, и привыкание к простоте этих моделей является важным строительным блоком при создании более сложных древовидных структур, таких как деревья с градиентным усилением.
Визуализация данных в R против Python
Инструменты для визуализации доступны как в R, так и в Python. Оба они дают нам возможность создавать сложные и привлекательные статистические графики, чтобы мы могли получить представление и узнать больше о данных, которыми мы располагаем. Однако между ними есть некоторые ключевые различия, поэтому, если вам интересно, какой язык лучше всего подходит для визуализации ваших данных, ознакомьтесь со всеми плюсами и минусами, которые мы собрали, чтобы помочь вам принять наилучшее решение для ваших данных.
Как и R, Python также предлагает несколько библиотек визуализации с множеством различных функций. Наиболее популярными среди них являются Matplotlib, Seaborn и ggplot, основанный на ggplot2 R.
Различия:
R — это язык, который в основном используется для анализа данных, а Python — это язык программирования общего назначения, который также можно использовать для анализа данных, но это не является его основной целью. Оба хорошо оснащены для визуализации данных, но настройка графики в R, как правило, проще и интуитивно понятна. R был создан для демонстрации результатов статистического анализа с помощью базового графического модуля, позволяющего с легкостью создавать диаграммы и графики, и вы также можете использовать ggplot2 для более сложных графиков.
Последние мысли
Поскольку предприятия продолжают полагаться на данные для принятия более эффективных и основанных на фактах решений, важность визуализации данных будет расти еще больше. А поскольку методы визуализации, такие как диаграммы и графики, более эффективны с точки зрения понимания данных по сравнению с традиционными электронными таблицами и устаревшими отчетами о данных, такие инструменты, как визуализация данных R, необходимы каждой кросс-функциональной команде.
Однако, даже учитывая важность данных и идей, просто иметь их уже недостаточно. Чтобы раскрыть весь потенциал данных, вам необходимо превратить эти данные в действия, которые вписываются в ваш повседневный рабочий процесс. С помощью Slingshot вы можете плавно перейти от идей к действиям.
С помощью Slingshot вы можете анализировать данные, создавать красивые визуализации данных, сотрудничать со всеми в вашей организации и с легкостью управлять всеми своими проектами с одной платформы.
Хотите узнать больше? Попробуйте Slingshot бесплатно и узнайте, как он может помочь вам использовать полезную информацию, облегчая вашей команде использование данных, развитие культуры, основанной на данных, и повышение производительности.
