Въведение в графиките в R
Графиката е инструмент, който прави съществена разлика в анализа. Графиките в Редки са важни, тъй като помагат за представянето на резултатите по най-интерактивния начин. R, като пакет за статистическо програмиране, предлага широки възможности за генериране на разнообразни графики.
Някои от графиките в R са достъпни в основната инсталация, но други могат да бъдат използвани чрез инсталиране на необходимите пакети. Уникалната особеност на графиките в R е, че те обясняват сложни статистически находки чрез визуализации. Така че по същество това е като придвижване на крачка над традиционния начин за визуализация на данните. R, следователно, предлага изходящ подход за анализ на задвижването.
Видове графики в R
Разнообразие от графики е достъпно в R, а използването се регулира единствено от контекста. Изследователският анализ обаче изисква използването на определени графики в R, които трябва да се използват за анализ на данни. Сега ще разгледаме някои от тези важни графики в Р.
За демонстрация на различни диаграми ще използваме набора от данни "дървета", наличен в базовата инсталация. Повече подробности за набора от данни могат да бъдат открити с помощта? команда дървета в Р.
1. Хистограма
Хистограмата е графичен инструмент, който работи върху една променлива. Множество променливи стойности са групирани в кошчета и се изчисляват редица стойности, наречени като честота. След това това изчисление се използва за начертаване на честотни ленти в съответните бобчета. Височината на лентата е представена с честота.
В R можем да използваме функцията hist (), както е показано по-долу, за да генерираме хистограма. Проста хистограма на височината на дърветата е показана по-долу.
Код:
hist(trees$Height, breaks = 10, col = "orange", main = "Histogram of Tree heights", xlab = "Height Bin")
изход:
За да разберем тенденцията на честотата, можем да добавим графика на плътност върху горната хистограма. Това предлага повече представа за разпределението на данните, косостта, куртозата и др. Следващият код прави това, а изходът се показва след кода.
Код:
hist(trees$Height, breaks = 10, col = "orange",
+ main = "Histogram of Tree heights with Kernal Denisty plot",
+ xlab = "Height Bin", prob = TRUE)
изход:
2. Scatterplot
Този сюжет е прост тип диаграма, но много важен, имащ огромно значение. Графиката дава представа за корелация между променливите и е удобен инструмент в проучвателния анализ.
Следващият код генерира проста диаграма на Scatterplot. Към него добавихме линия на тенденцията, за да разберем тенденцията, данните представляват.
Код:
attach(trees)
plot(Girth, Height, main = "Scatterplot of Girth vs Height", xlab = "Tree Girth", ylab = "Tree Height")
abline(lm(Height ~ Girth), col = "blue", lwd = 2)
изход:
Диаграмата, създадена от следния код, показва, че съществува добра зависимост между обхвата на дърветата и обема на дърветата.
Код:
plot(Girth, Volume, main = "Scatterplot of Girth vs Volume", xlab = "Tree Girth", ylab = "Tree Volume")
abline(lm(Volume ~ Girth), col = "blue", lwd = 2)
изход:
Матрици за скатерплот
R ни позволява да сравняваме няколко променливи наведнъж, защото използва матрици на разсейване. Изпълнението на визуализацията е доста просто и може да бъде постигнато с помощта на двойки (), както е показано по-долу.
Код:
pairs(trees, main = "Scatterplot matrix for trees dataset")
изход:
Scatterplot3d
Те правят възможно визуализацията в три измерения, което може да помогне да се разбере връзката между множество променливи. Така че, за да се правят разпръсквачите достъпни в 3d, първо трябва да бъде инсталиран пакет rasterplot3d. Следователно, следният код генерира 3d графика, както е показано под кода.
Код:
library(scatterplot3d)
attach(trees)
scatterplot3d(Girth, Height, Volume, main = "3D Scatterplot of trees dataset")
изход:
Можем да добавим падащи линии и цветове, използвайки кода по-долу. Сега можем удобно да различаваме различни променливи.
Код:
scatterplot3d(Girth, Height, Volume, pch = 20, highlight.3d = TRUE,
+ type = "h", main = "3D Scatterplot of trees dataset")
изход:
3. Boxplot
Boxplot е начин за визуализиране на данни чрез кутии и мустаци. Първо променливите стойности се сортират във възходящ ред и след това данните се разделят на четвъртинки.
Кутията в сюжета е средните 50% от данните, известни като IQR. Черната линия в полето представлява медианата.
Код:
boxplot(trees, col = c("yellow", "red", "cyan"), main = "Boxplot for trees dataset")
изход:
Вариант на boxplot, с прорези, е както е показано по-долу.
Код:
boxplot(trees, col = "orange", notch = TRUE, main = "Boxplot for trees dataset")
изход:
4. Линейна диаграма
Линиите са полезни при сравняване на множество променливи. Помагат ни връзката между множество променливи в един сюжет. В следващата илюстрация ще се опитаме да разберем тенденцията на три характеристики на дървото. Така, както е показано в кода по-долу, първоначално и линейната диаграма за Girth е начертана с помощта на plot () функция. Тогава линейните диаграми за височина и обем се изчертават на един и същи график с помощта на линии ().
Параметърът „ylim“ в plot () е била, за да може правилно да побере всичките три линии. Тук легендата е важна, тъй като помага да се разбере кой ред представлява коя променлива. В легендата параметър „lty = 1: 1“ означава, че имаме един и същ тип ред за всички променливи, а „cex“ представлява размера на точките.
Код:
plot(Girth, type = "o", col = "red", ylab = "", ylim = c(0, 110),
+ main = "Comparison amongst Girth, Height, and Volume of trees")
lines(Height, type = "o", col = "blue")
lines(Volume, type = "o", col = "green")
legend(1, 110, legend = c("Girth", "Height", "Volume"),
+ col = c("red", "blue", "green"), lty = 1:1, cex = 0.9)
изход:
5. Точков сюжет
Този инструмент за визуализация е полезен, ако искаме да сравним няколко категории спрямо определена мярка. За илюстрацията по-долу е използван набор от данни на mtcars. Функцията dotchart () очертава изместване за различни модели автомобили, както е показано по-долу.
Код:
attach(mtcars)
dotchart(disp, labels = row.names(mtcars), cex = 0.75,
+ main = "Displacement for various Car Models", xlab = "Displacement in Cubic Inches")
изход:
И така, сега ще сортираме набора от данни по стойности на изместване и след това ще ги начертаем по различни предавки, използвайки функция dotchart ().
Код:
m <- mtcars(order(mtcars$disp), ) m$gear <- factor(m$gear)
m$color(m$gear == 3) <- "darkgreen"
m$color(m$gear == 4) <- "red"
m$color(m$gear == 5) <- "blue"
dotchart(m$disp, labels = row.names(m), groups = m$gear, color = m$color, cex = 0.75, pch = 20,
+ main = "Displacement for Car Models", xlab = "Displacement in cubic inches")
изход:
заключение
Анализът в истински смисъл се използва само чрез визуализации. R като статистически инструмент предлага силни възможности за визуализация. Така че многобройните опции, свързани с класациите, е това, което ги прави специални. Всяка от диаграмите има собствено приложение и диаграмата трябва да бъде проучена преди да се приложи към проблем.
Препоръчителни статии
Това е ръководство за графики в R. Тук обсъждаме въвеждането и типовете графики в R, като хистограма, разсейване, кутия и много други заедно с примери и изпълнение. Можете също да разгледате следните статии, за да научите повече -
- R Типове данни
- R пакети
- Въведение в Matlab
- Графики срещу графики