R의 데이터 시각화: 정의 + 예제
게시 됨: 2021-06-21데이터는 우리 주변 어디에나 있으며 우리가 그것을 이해하는 것이 기본이 됩니다. 데이터 시각화는 원시 데이터를 시각적 표현으로 변환하여 인간의 두뇌가 데이터를 더 쉽고 빠르게 이해할 수 있도록 하는 강력한 도구입니다.
오늘날에는 몇 번의 클릭으로 아름다운 데이터 시각화를 쉽게 만들 수 있는 많은 온라인 프로그램, 응용 프로그램 및 소프트웨어가 있습니다. 그것들은 모두 다른 기능과 기능을 가지고 있으며 이를 사용하려면 다른 기술이 필요합니다. 이 기사에서는 R 데이터 시각화에 중점을 둘 것입니다. R은 통계 컴퓨팅, 그래픽 데이터 분석 및 과학 연구를 위한 프로그래밍 언어 및 환경입니다.
R을 데이터 분석 플랫폼으로 사용하면 개발자와 데이터 과학자가 다양한 유형의 시각화를 생성하여 최소한의 코딩으로 복잡한 원시 데이터를 나타낼 수 있습니다.
이 기사에서는 데이터 시각화에 R을 사용하는 기본 사항을 안내하고 R과 Python의 데이터 시각화 차이점을 나열하고 예제를 보여줌으로써 R의 데이터 시각화가 무엇이며 어떻게 작동하는지 더 잘 이해할 수 있습니다.
R에서 데이터 시각화란 무엇입니까?
R에서 데이터 시각화를 만드는 것은 시각적 매체를 사용하여 데이터 통찰력을 얻는 기술입니다. R의 다양한 기능을 사용하여 몇 줄의 코드만으로 매력적인 데이터 시각화를 만들 수 있습니다. 데이터 시각화를 생성하기 위해 R은 가장 널리 사용되는 패키지 중 하나인 ggplot2를 비롯한 여러 시각화 라이브러리를 제공합니다. Ggplot2를 사용하면 거의 모든 유형의 차트를 작성할 수 있으며 그래픽의 품질과 미학을 향상시킬 수 있습니다.
새총 시도
R에서 데이터 시각화를 만드는 방법?
R로 데이터 시각화를 만드는 과정에서 가장 좋은 점은 R 프로그래머나 데이터 분석 전문가가 될 필요가 없다는 것입니다. R에는 작업할 수 있는 데이터 세트가 많이 있으므로 자체 데이터 세트를 준비할 필요도 없습니다.
이 R 시각화 예제는 내장된 Orange 데이터 세트를 사용하여 나무 나이와 나무 둘레를 플로팅합니다.
ggplot(Orange) + geom_line(aes(x = age, y = circumference, color = Tree))이 시각화 결과:

제공된 시각화 라이브러리와 기본 제공 데이터 세트는 데이터 시각화를 생성하고 즉각적인 결과를 보기 위해 R을 실험하는 데 필요한 모든 기능을 갖추고 있습니다.
R 타임라인 시각화
R 타임라인 시각화는 일련의 이벤트를 시간순으로 표시하는 시각적 도구입니다. 타임라인 시각화는 사례 보고서 및 프레젠테이션에 적합하며 환자의 임상 경과를 표시하는 의료 산업 및 이정표로 프로젝트 타임라인을 생성할 수 있는 프로젝트 관리에서도 매우 유용할 수 있습니다.
R의 이 예제는 프로젝트 및 작업으로 데이터 프레임을 만들고 R 타임라인 시각화에서 작업 개체를 그리는 방법을 보여줍니다.
df <- structure(list(Project = structure(c(1L, 1L, 1L, 2L, 2L, 2L), .Label = c("Project 1", "Project 2"), class = "factor"), + Task = structure(c(1L, 2L, 1L, 2L, 1L, 2L), .Label = c("Task 1", + "Task 2"), class = "factor"), StartDay = c(1L, 2L, 2L, 2L, 3L, 5L), StopDay = c(3L, 5L, 8L, 4L, + 5L, 6L)), .Names = c("Project", "Task", "StartDay", + "StopDay"), class = "data.frame", row.names = c(NA, -6L)) df$Task <- factor(df$Task, levels(df$Task)[c(2,1)]) ggplot(data=df, aes(color=Task))+ geom_segment(aes(x=StartDay, xend=StopDay, y=Task, yend=Task),lwd=12)+ facet_grid(Project~.)+xlab("Days Allocated")+ylab("Tasks Lists")이 타임라인 시각화 결과:

R 타임라인 시각화는 종종 색상, 모양 및 기타 시각적 요소를 사용하여 이러한 시각화에 세부 레이어를 추가하여 더 매력적이고 쉽게 이해할 수 있도록 하는 R 스튜디오의 ggplot2 라이브러리로 생성됩니다.

R 트리 시각화
R 패키지 ggtree는 트리와 유사한 구조 및 관련 데이터의 프로그래밍 가능한 시각화를 제공합니다. ggtree는 원래 계통 발생 나무와 함께 작동하도록 설계되었지만 나중에 다른 분야의 나무 데이터를 표시하기 위해 ggtree의 적용을 확장하는 다른 나무와 유사한 구조를 지원하도록 확장되었습니다. R 라이브러리 파티는 의사결정 트리 시각화를 렌더링하는 ctree() 함수를 포함하는 또 다른 인기 있는 라이브러리입니다. 이 예에서 의사 결정 트리는 기본 제공 readingSkills 데이터 세트를 사용하여 렌더링됩니다.
library(party) input.dat <- readingSkills[c(1:105),] png(file = "decision_tree.png") output.tree <- ctree(nativeSpeaker ~ age + shoeSize + score, data = input.dat) plot(output.tree)이 예제 코드는 이 의사결정 트리 R 시각화를 렌더링합니다.

예를 들어, 의사 결정 트리는 기능 집합의 결과를 예측하는 데 널리 사용되며 여전히 이해하고 해석하기 쉬운 동시에 원하는 정확도로 예측을 제공할 수 있습니다.
의사 결정 트리 모델은 일련의 기계 학습 알고리즘으로 구성되며 이러한 모델의 단순성에 익숙해지는 것은 그래디언트 부스트 트리와 같은 더 복잡한 트리 기반 구조를 만드는 데 중요한 빌딩 블록입니다.
R과 Python의 데이터 시각화
시각화 도구는 R과 Python 모두에서 사용할 수 있습니다. 둘 다 복잡하고 매력적인 통계 그래픽을 생성할 수 있는 기능을 제공하여 우리가 소유한 데이터에 대해 더 많은 정보를 얻고 통찰력을 얻을 수 있도록 합니다. 그러나 둘 사이에는 몇 가지 주요 차이점이 있으므로 데이터 시각화에 어떤 언어가 가장 적합한지 궁금하다면 데이터에 대한 최선의 결정을 내리는 데 도움이 되도록 수집한 장단점을 확인하십시오.
R과 마찬가지로 Python은 다양한 기능이 포함된 여러 시각화 라이브러리도 제공합니다. 그 중 가장 인기 있는 것은 Matplotlib, Seaborn 및 R의 ggplot2를 기반으로 하는 ggplot입니다.
차이점들:
R은 주로 데이터 분석에 사용되는 언어이고 Python은 데이터 분석에도 사용할 수 있는 범용 프로그래밍 언어이지만 이것이 주요 목적은 아닙니다. 둘 다 데이터 시각화를 위해 잘 갖춰져 있지만 R에서 그래픽을 사용자 정의하는 것이 일반적으로 더 쉽고 직관적입니다. R은 기본 그래픽 모듈을 사용하여 통계 분석 결과를 보여주기 위해 제작되어 차트와 플롯을 쉽게 생성할 수 있으며 고급 플롯에 ggplot2를 사용할 수도 있습니다.
마지막 생각들
기업이 더 나은 사실에 기반한 결정을 내리기 위해 계속 데이터에 의존함에 따라 데이터 시각화의 중요성은 더욱 커질 것입니다. 차트 및 그래프와 같은 시각화 기술은 기존 스프레드시트 및 오래된 데이터 보고서와 비교하여 데이터 이해 측면에서 더 효율적이기 때문에 R 데이터 시각화와 같은 도구는 모든 교차 기능 팀에 필요합니다.
그러나 데이터와 통찰력의 중요성에도 불구하고 더 이상 그것을 갖는 것만으로는 충분하지 않습니다. 데이터의 잠재력을 최대한 활용하려면 해당 데이터를 일상적인 작업 워크플로에 맞는 작업으로 전환해야 합니다. Slingshot을 사용하면 통찰력에서 행동으로 원활하게 전환할 수 있습니다.
Slingshot을 사용하면 동일한 플랫폼에서 데이터를 분석하고, 멋진 데이터 시각화를 생성하고, 조직 내 모든 사람과 협업하고, 모든 프로젝트를 쉽게 관리할 수 있습니다.
더 배우고 싶으신가요? Slingshot을 무료로 사용해 보고 실행 가능한 통찰력을 활용하는 동시에 팀이 데이터를 보다 쉽게 활용하고 데이터 중심 문화를 조성하며 생산성을 향상시키는 데 어떻게 도움이 되는지 확인하십시오.
