Какво е клъстер анализ
Клъстерният анализ групира данни въз основа на характеристиките, които притежават. Анализът на клъстерите групира обекти въз основа на факторите, които ги правят подобни. Иначе клъстерният анализ се нарича сегментационен анализ или анализ на таксономията. Анализът на клъстера не разграничава зависимите и независимите променливи. Клъстерният анализ се използва в голямо разнообразие от области като психология, биология, статистика, извличане на данни, разпознаване на модели и други социални науки.
Цел на клъстерния анализ
Основната цел на анализ на клъстерите е да се обърне внимание на хетерогенността във всеки набор от данни. Другите цели на клъстерния анализ са
- Описание на таксономията - Идентифициране на групи в данните
- Опростяване на данните - способността да се анализират групи от подобни наблюдения вместо всички индивидуални наблюдения
- Генериране или тестване на хипотези - Разработване на хипотеза въз основа на естеството на данните или за тестване на горепосочената хипотеза
- Идентификация на връзката - опростената структура от анализ на клъстери, която описва взаимоотношенията
Има две основни цели на клъстерния анализ - разбиране и полезност.
При обстоятелството за разбиране, клъстерният анализ групира обекти, които споделят някои общи характеристики
За целите на Utility, клъстерният анализ предоставя характеристиките на всеки обект на данни към клъстерите, към които принадлежат.
Клъстерният анализ върви ръка за ръка с факторния анализ и дискриминантния анализ.
Трябва да си зададете няколко въпроса за анализ на клъстера, преди да започнете с него
- Какви променливи са уместни?
- Достатъчен ли е размерът на извадката?
- Могат ли да бъдат открити отшелници и трябва ли да бъдат премахнати?
- Как трябва да се измери сходството на обекта?
- Дали данните трябва да бъдат стандартизирани?
Видове клъстери
Има три основни типа групиране
- Йерархична клъстеризация - която съдържа агломеративен и разделителен метод
- Частично клъстериране - съдържа K-средства, размити K-средства, Isodata под него
- Клъстериране на базата на плътност - Има Denclust, CLUPOT, Mean Shift, SVC, Parzen-Waterheshed под него
Предположения в клъстерния анализ
Винаги има две предположения в клъстерния анализ
- Приема се, че извадката е представител на популацията
- Приема се, че променливите не са свързани. Дори ако променливите са свързани, премахвайте корелираните променливи или използвайте мерки за разстояние, което компенсира корелацията.
Стъпки в клъстерния анализ
-
- Стъпка 1: Определете проблема
- Стъпка 2: Решете подходящата мярка за сходство
- Стъпка 3: Решете как да групирате обектите
- Стъпка 4: Определете броя на клъстерите
- Стъпка 5: Интерпретирайте, опишете и утвърдете клъстера
Анализ на клъстерите в SPSS
В SPSS можете да намерите опцията за анализ на клъстера в опцията Анализиране / класифициране. В SPSS има три метода за клъстерния анализ - K-Means Cluster, Hierarchical Cluster и Two Step Cluster.
Методът на клъстер K-Means класифицира даден набор от данни чрез фиксиран брой клъстери. Този метод е лесен за разбиране и дава най-добри резултати, когато данните са добре разделени една от друга.
Анализът на клъстери в две стъпки е инструмент, предназначен за работа с големи масиви от данни. Той създава клъстери както на категорични, така и на непрекъснати променливи.
Йерархичният клъстер е най-често използваният метод за анализ на клъстери. Той комбинира случаите в хомогенни клъстери, като ги обединява чрез серия от последователни стъпки.
Йерархичният клъстер анализ съдържа три стъпки
- Изчислете разстоянието
- Свържете клъстерите
- Избор на решение чрез избор на точния брой клъстери
По-долу са стъпките за извършване на йерархичен анализ на клъстерите в SPSS.
- Първата стъпка е да изберете променливите, които ще бъдат групирани. По-долу диалоговият прозорец ви обяснява
- Като щракнете върху опцията за статистика в горния диалогов прозорец, ще получите диалоговия прозорец, където искате да определите изхода
- В диаграмите на диалоговия прозорец добавете Dendrogram. Дендрограма е графичното представяне на метода на йерархичния анализ на клъстерите. Той показва как клъстерите се комбинират на всяка стъпка, докато образуват един единствен клъстер.
- Методът на диалоговия прозорец е от решаващо значение. Тук можете да споменете метода на разстояние и групиране. В SPSS има три мерки за интервал, броя и двоични данни.
- Екваклидното разстояние в квадрат е сумата от разликите в квадрат, без да се взима квадратният корен.
- В броя можете да изберете между квадратура Chi и мярка Phi Square
- В секцията „Бинарни“ имате много възможности да изберете. Квадратна евклидова дистанция е най-добрият вариант за използване.
- Следващата стъпка е да изберете метода на клъстера. Винаги се препоръчва да се използва единична връзка или най-близък съсед, тъй като лесно помага да се идентифицират хората, които не са в състояние да го правят. След идентифициране на остатъците можете да използвате метода на Уорд.
- Последната стъпка е стандартизация
Критици на клъстерния анализ
Най-честите критики са изброени по-долу
- Той е описателен, теоретичен и неинфекциозен.
- Той ще произвежда клъстери независимо от реалното съществуване на която и да е структура
- Тя не може да се използва широко, тъй като напълно зависи от променливите, използвани като основа за мярката за сходство
Какво е факторният анализ?
Факторният анализ е проучвателен анализ, който помага при групирането на подобни променливи в измерения. Може да се използва за опростяване на данните чрез намаляване на размерите на наблюденията. Факторният анализ има няколко различни метода на въртене.
Факторният анализ се използва най-вече за намаляване на данните.
Има два вида факторни анализи - проучвателен и потвърдителен
- Изследователският метод се използва, когато нямате предварително дефинирана представа за структурите или размерите в набор от променливи.
- Методът за потвърждение се използва, когато искате да тествате конкретна хипотеза за структурите или размерите в набор от променливи.
Цели на факторния анализ
Има две основни цели на факторния анализ, които са споменати по-долу
- Идентифициране на основните фактори - Това включва групиране на променливи в хомогенни набори, създаване на нови променливи и подпомагане на придобиването на знания за категориите
- Скрининг на променливи - Полезно е при регресия и идентифицира групи, за да ви позволи да изберете една променлива, която представлява много.
Предположения за факторния анализ
Има четири основни предположения за факторния анализ, които са споменати по-долу
- Обикновено моделите се основават на линейни отношения
- Предполага се, че събраните данни са мащабирани по интервал
- Мултиколинеарността в данните е желателна, тъй като целта е да се намери взаимосвързаният набор от променливи
- Данните трябва да са открити и да отговарят на факторния анализ. Не трябва да бъде по такъв начин, че променливата да е свързана само със себе си и да няма корелация с която и да е друга променлива. Факторният анализ не може да бъде направен върху такива данни.
Видове факторинг
- Факторинг на основните компоненти - Най-често използваният метод, при който се изчисляват коефициенти на тежест, за да се извлече максималната възможна дисперсия и продължава, докато не остане значима разлика.
- Каноничен факторен анализ - намира фактори, които имат най-висока канонична корелация с наблюдаваните променливи
- Общ факторен анализ - търси най-малкоят брой фактори, които могат да отчитат общата дисперсия на набор от променливи
- Изображение факторинг - Въз основа на корелационната матрица, където всяка променлива се прогнозира от останалите, използвайки множество регресия
- Alpha Factoring - Максимизира надеждността на факторите
- Факторна регресионна модель - Комбинация от факторен модел и регресионен модел, чиито фактори са частично известни
Критерии на факторния анализ
-
Критерии за собствена стойност
- Представлява количеството отклонение в оригиналните променливи, което е свързано с фактор
- Сумата от квадрата на факторните натоварвания на всяка променлива на коефициент представлява собствената стойност
- Запазват се фактори с собствени стойности, по-големи от 1, 0
-
Критерии за сито
- График на собствените стойности спрямо броя на факторите в ред на извличане.
- Формата на сюжета определя броя на факторите
-
Процент критерии за вариация
- Броят на извлечените фактори се установява, така че нарастващият процент на дисперсия, извлечен от факторите, достига нивото на удовлетвореност.
-
Критерии за тест на значимостта
- Установено е статистическото значение на отделните собствени стойности и се запазват само онези фактори, които са статистически значими
Факторният анализ се използва в различни области като психология, социология, политически науки, образование и психично здраве.
Факторни анализи в SPSS
В SPSS опцията за анализ на фактора може да бъде намерена в Анализ à Намаление на измерението à Фактор
- Започнете с добавяне на променливите в списъка на променливите
- Щракнете върху раздела Описателно и добавете няколко статистически данни, под които се проверяват предположенията за анализ на фактора.
- Щракнете върху опцията за извличане, която ще ви позволи да изберете метода на извличане и да отрежете стойността за извличане
- Основни компоненти (PCA) е методът на извличане по подразбиране, който извлича дори некорелирани линейни комбинации на променливите. PCA може да се използва, когато корелационната матрица е сингулярна. Той е много подобен на Canonical Correlation Analysis, където първият фактор има максимална дисперсия и следващите фактори обясняват по-малка част от дисперсията.
- Вторият най-общ анализ е основен ос факторинг. Той идентифицира латентните конструкции зад наблюденията.
- Следващата стъпка е да изберете метод на въртене. Най-често използваният метод е Varimax. Този метод опростява интерпретацията на факторите.
- Вторият метод е Quartimax. Този метод върти факторите, за да се сведе до минимум броят на факторите. Опростява интерпретацията на наблюдаваната променлива.
- Следващият метод е Equamax, който е комбинация от горните два метода.
- В диалоговия прозорец, като щракнете върху „опциите“, можете да управлявате липсващите стойности
- Преди да запазите резултатите в набора от данни, първо стартирайте факторния анализ и проверете за предположения и потвърдете, че резултатите са смислени и полезни.
Анализ на клъстерите спрямо факторния анализ
Както клъстерният анализ, така и факторният анализ са неподдържан метод на обучение, който се използва за сегментиране на данните. Много нови изследователи в тази област смятат, че клъстерният анализ и факторният анализ са сходни. Може да изглежда подобно, но те се различават по много начини. Разликите между клъстерния анализ и факторния анализ са изброени по-долу
-
Обективен
Целта на клъстерния и факторния анализ са различни. Целта на клъстерния анализ е да се разделят наблюденията на еднородни и обособени групи. Факторният анализ от друга страна обяснява хомогенността на променливите в резултат на сходството на стойностите.
-
Сложност
Сложността е друг фактор, по който клъстерният и факторният анализ се различават. Размерът на данните влияе по различен начин на анализа. Ако размерът на данните е твърде голям, той става изчислително нерешим при клъстерния анализ.
-
Решение
Решението на даден проблем е повече или по-малко подобно както във факторния, така и в клъстерния анализ. Но факторният анализ предоставя по-добро решение на изследователя в по-добър аспект. Анализът на клъстерите не дава най-добър резултат, тъй като всички алгоритми в клъстерния анализ са изчислително неефективни.
-
Приложения
Факторният анализ и клъстерният анализ се прилагат по различен начин към реалните данни. Факторният анализ е подходящ за опростяване на сложни модели. Той намалява големия набор от променливи до много по-малък набор от фактори. Изследователят може да разработи набор от хипотези и да извърши факторни анализи, за да потвърди или отрече тези хипотези.
Анализът на клъстерите е подходящ за класифициране на обекти въз основа на определени критерии. Изследователят може да измери определени аспекти на групата и да ги раздели на конкретни категории, използвайки клъстер анализ.
Има и много други разлики, които са споменати по-долу
- Клъстерният анализ се опитва да групира случаи, докато факторният анализ се опитва да групира функции.
- Клъстерният анализ се използва за намиране на по-малки групи от случаи, които са представителни за данни като цяло. Факторният анализ се използва за намиране на по-малка група характеристики, които са представителни за оригиналните характеристики на наборите от данни.
- Най-важната част от анализа на клъстерите е намирането на броя на клъстерите. Основно методите за клъстериране се разделят на два - метод на агломерация и метод на разделяне. Агломеративният метод започва с всеки случай в неговия клъстер и спира, когато се достигне критерий. Методът на разделяне започва с всички случаи в един клъстер.
- Факторният анализ се използва за установяване на основата на структурата в набор от данни.
заключение
Надявам се тази статия да ви помогне да разберете основите на клъстерния анализ и факторния анализ и разликите между двете.
Свързани курсове: -
- Курс за анализ на клъстери