Еднопосочен анализ на вариацията

Анализът на дисперсията, написан накратко като ANOVA, е процедурата, чрез която можем да сравняваме средства в три или повече популации. Статистически ние поставяме две хипотези, нулевата хипотеза: „Всички средства за популация са равни“ и алтернативната хипотеза: „Не всички средства за население са равни“. Това ни позволява да тестваме равенството на множество средства в един тест, а не да сравняваме две средства наведнъж, което е невъзможно, когато има няколко групи. В тази тема ще научим за АНОВА по един път в Р.

Еднопосочният анализ на вариацията ни помага да анализираме само един фактор или променлива. Например има пет региона и искаме да проверим дали средните дневни валежи за всичките пет региона са равни или дали са различни. В този случай има само един фактор, който е регион, тъй като ние трябва да проверим дали регионалните фактори влияят върху приема на валежите и модела.

Предположения за анализ на вариацията

По-долу са предположенията, които трябва да бъдат изпълнени за прилагане на еднопосочна ANOVA:

  • Популациите, от които се вземат пробите, обикновено се разпределят.
  • Популациите, от които са взети пробите, имат същата дисперсия или стандартно отклонение.
  • Пробите, взети от различни популации, са случайни и независими.

Как работи еднопосочната ANOVA в R?

За нашата демонстрация използваме данните, които съдържат две променливи, а именно. Марка и продажби. Има четири марки - ATB, JKV, MKL и PRQ. Дават се месечни продажби за тези марки. Трябва да проверим дали средните продажби в четирите марки са равни или дали са различни една от друга. За да потвърдим това, ще използваме Еднопосочната ANOVA. Процедурата стъпка по стъпка за прилагане на ANOVA е следната:

  1. Първо, импортирайте данните в R. Данните присъстват във формат CSV. Така че, за да го импортираме, ще използваме функцията read.csv ().

  1. Вижте първите няколко записа на данните. Това е важно, за да проверите дали данните са правилно импортирани в R. По същия начин, ние ще приложим резюме () функция върху данните, за да получим основна информация за данните.

  1. Всеки път, когато използваме променливите, присъстващи в набора от данни, трябва изрично да споменем името на набора от данни, като brand_sales_data $ Brand или brand_sales_data $ Sales. За да преодолеем това, ще използваме функцията за прикачване. Функцията трябва да се приложи както по-долу.

  1. Нека обобщим продажбите по марка, използвайки средно или стандартно отклонение. Агрегацията ни помага да добием основна представа за данните.

Горният резултат показва, че средствата за четирите различни групи не са равни. JKV има най-високите средни продажби.

Както се вижда по-горе, стандартните отклонения в четирите групи не показват значителна разлика и тя е най-висока за марката MKL.

  1. Сега ще приложим ANOVA за валидиране, ако средните средства за трите популации са равни или има някаква разлика.

От резултатите по-горе можем да видим, че тестът ANOVA за марка е значителен поради p <0, 0001. Можем да тълкуваме, че всички марки нямат еднакви нива на предпочитания на пазара, което влияе върху продажбата на тези марки на пазара. Това може да се дължи на много фактори и харесване на хората за определена марка.

  1. Горният резултат може да бъде визуализиран и улеснява интерпретацията. За това ще използваме plotmeans () функция в библиотеката gplots (). Той работи както по-долу:

Както можем да видим по-горе, функцията plotmeans () в пакета gplots ни позволява визуално да сравняваме средствата на различни групи. Виждаме, че средствата не са еднакви при четирите марки. Средствата за марките MKL и PRQ обаче попадат в близки граници.

  1. Горепосоченият анализ ни помага да проверим дали марките имат равни средства или не, което обаче прави сравнението с двойки трудно. Можем да направим двойни сравнения за различни марки, използвайки функцията TukeyHSD (), която улеснява проверката дали марката е значително различна от която и да е от останалите.

Сравненията по двойки, както по-горе. Разликата между всяка две групи е значима, ако p <0, 001. Както можем да видим по-горе p-стойността за двойка PRQ-MKL е много по-висока, което показва, че двете марки не се различават значително една от друга.

За да визуализираме двойните сравнения, ще начертаем горните резултати по-долу:

Първата функция par завърта етикетите на осите, като ги прави хоризонтални, а втората параметрична единица настройва полетата, така че етикетите да се поберат правилно, в противен случай те ще излязат извън екрана.

Горната графика предлага добра представа, но можем да начертаем резултатите под формата на боксплот, за да получим по-добра представа за по-ясна интерпретация, както е показано по-долу.

Използваната по-горе функция glht () идва с изчерпателен набор от методи за сравняване на множество средства. Забележете, опцията за ниво в cld () функция се отнася до нивото на значимост, например 0, 05 или 95 процента доверие)

С помощта на горния сюжет става лесно да се сравняват средствата в групите и също така се улеснява систематичното тълкуване. Има писма в горната част на сюжета за всяка марка. Ако две марки имат една и съща буква, те нямат значително различни средства като марки MKL и PRQ в този случай, които имат една и съща буква b.

  1. До сега ние реализирахме ANOVA и използвахме графики за визуализиране на резултатите. Въпреки това е също толкова важно да се тестват предположенията. Първо, ще потвърдим предположението за нормалност.

Автомобилният пакет в R предоставя функцията qqPlot (). Горният график показва, че данните попадат в обхвата на 95% доверие. Това показва, че предположението за нормалност почти е изпълнено.

След това ще потвърдим дали отклоненията между марките са равни. За това ще използваме теста на Бартлет

P-стойността показва, че отклоненията в групата не се различават значително

Не на последно място, ние ще проверим дали има такива, които влияят на резултатите от ANOVA.

От горния резултат можем да видим, че няма данни за липса на данни в данните (NA се появява, когато p> 1)

Като се вземат предвид резултатите от QQ Plot, теста на Bartlett и теста Outlier, можем да кажем, че данните отговарят на всички предположения на ANOVA и получените резултати са валидни.

Заключение - Еднопосочен ANOVA в R

ANOVA е много удобна статистическа техника, която може да се използва за сравняване на средства в множество популации. R предлага широка гама от пакети за прилагане на ANOVA, извличане на резултати и валидиране на предположенията. В R статистическите резултати могат да бъдат интерпретирани във визуални форми, които предлагат по-задълбочени изводи.

Препоръчителни статии

Това е ръководство за еднопосочната ANOVA в Р. Тук обсъждаме как работи еднопосочната ANOVA и предположенията за анализ на вариацията. Може да разгледате и следните статии, за да научите повече -

  1. R Език за програмиране
  2. Регресия срещу ANOVA
  3. Как да интерпретираме резултатите, използвайки ANOVA тест
  4. GLM в R

Категория: