Въведение в методите на клъстериране
Тази статия представя преглед на различните методи за клъстериране, използвани в техники за извличане на данни с различни принципи. Клъстерирането е набор от обекти на данни, организирани в различно логическо групиране. Групиране на подобни елементи от данни и разпределяне на подобни елементи от данни в отделни клъстери. Клъстеризирането се извършва в големи масиви от данни за неуправляемо обучение. По време на това ние извършваме дял на набора от данни в групи. Структурата на клъстерирането е представена както следва с подмножествата. C = c1, c2… c n . Тъй като групите за групиране имат подобни обекти, трябва да се предприемат мерки в методите за групиране, за да се определят разстоянията и мерките за сходство. Методите на клъстериране се основават на вероятностни модели. Извличането на данни изисква обединяване за мащабируемост за справяне с високи бази данни, обработка на многоизмерно пространство, за справяне с погрешни данни и шум.
Обяснете методите за клъстеринг?
Този метод на групиране помага за групиране на ценни данни в клъстери и от това се избират подходящи резултати въз основа на различни техники. Например, при извличане на информация резултатите от заявката са групирани в малки клъстери и всеки клъстер има неподходящи резултати. Чрез техники на клъстериране те се групират в подобни категории и всяка категория се подразделя на подкатегории, за да подпомогне изследването на изхода на заявките. Има различни видове методи за групиране, те са
- Йерархични методи
- Методи за разделяне
- Плътност на базата на
- Клъстериране въз основа на модел
- Grid-базиран модел
Следва преглед на техниките, използвани при извличане на данни и изкуствен интелект.
1. Йерархичен метод
Този метод създава клъстер чрез разделяне по начин отгоре надолу и отдолу нагоре. И двата подхода произвеждат дендрограма, която осъществява връзка между тях. Дендрограмата е дървовиден формат, който поддържа последователността на обединените клъстери. Йерархичните методи се получават множество дялове по отношение на нивата на сходство. Те са разделени на агломеративно йерархично групиране и разделящо йерархично клъстериране. Тук клъстерно дърво се създава с помощта на техники за сливане. За процеса на разделяне се използва разделяне, сливане използва агломеративен. Агломеративното групиране включва:
- Първоначално вземането на всички точки от данни и разглеждането им като отделни клъстери започва от начина на върха надолу. Тези клъстери се обединяват, докато не постигнем желаните резултати.
- Следващите два подобни клъстера са групирани заедно, образувайки огромен единичен клъстер.
- Отново изчисляване на близостта в огромния клъстер и сливане на подобни клъстери.
- Последната стъпка включва обединяване на всички получени клъстери на всяка стъпка, за да се образува краен единичен клъстер.
2. Метод на разделяне:
Основната цел на дяла е преместване. Те преместват дялове чрез преминаване от един клъстер в друг, което прави първоначален дял. Той разделя 'n' обекти за данни на 'k' брой клъстери. Този разделителен метод се предпочита повече от йерархичен модел за разпознаване на образи. Следните критерии са определени за задоволяване на техниките:
- Всеки клъстер трябва да има един обект.
- Всеки обект на данни принадлежи на един клъстер.
Най-често използваните техники за разделяне са алгоритмът на средния К. Те се делят на „К“ групи, представени от центроиди. Всеки център на клъстера се изчислява като средна стойност за този клъстер и R функцията визуализира резултата. Този алгоритъм има следните стъпки:
- Избиране на K обекти на случаен принцип от набора от данни и формира началните центрове (центроиди)
- Следващо определяне на евклидово разстояние между предметите и средния център.
- Присвояване на средна стойност за всеки отделен клъстер.
- Стъпки за актуализиране на Centroid за всеки „k“ клъстер.
3. Модел на плътност:
В този модел клъстерите се дефинират чрез локализиране на региони с по-голяма плътност в клъстер. Основният принцип, който стои зад тях, е концентрирането на два параметъра: максимален радиус на квартала и мин. Брой точки. Моделът на базата на плътност идентифицира струпвания с различни форми и шум. Той работи чрез откриване на модели чрез оценка на пространственото местоположение и разстоянието до метода на съседа, използван тук е DBSCAN (Пространствено клъстериране на базата на плътност), което дава ръце за големи пространствени бази данни. Използване на три точки от данни за клъстеризиране, а именно основни точки, гранични точки и външни. Основната цел е да се идентифицират клъстерите и техните параметри за разпространение. Процесът на клъстериране се спира с необходимостта от параметри на плътността. За да намерите клъстерите е важно да имате параметър Минимални характеристики на клъстер при изчисляване на разстояние на ядрото. Трите различни инструмента, предоставени от този модел са DBSCAN, HDBSCAN, Multi-scale.
4. Клъстериране въз основа на модел
Този модел комбинира два или три клъстера заедно от разпределението на данни. Основната идея зад този модел е необходимо да се разделят данни в две групи въз основа на вероятностния модел (Многовариантни нормални разпределения). Тук всяка група е назначена като понятия или клас. Всеки компонент се определя от функция за плътност. За намиране на параметъра в този модел се използва оценка на максималната вероятност за монтиране на разпределението на сместа. Всеки клъстер 'K' се моделира от гауссово разпределение с двупараметричен µ k среден вектор и £ k ковариационен вектор.
5. Модел, основан на решетка
При този подход обектите се считат за задвижвани от пространство чрез разделяне на пространството в ограничен брой клетки, за да образуват мрежа. С помощта на мрежата техниката на клъстериране се прилага за по-бърза обработка, която обикновено зависи от клетки, а не от обекти. Включените стъпки са:
- Създаване на мрежова структура
- Клетъчната плътност се изчислява за всяка клетка
- Прилагане на механизъм за сортиране към техните плътности.
- Търсене на центрове на клъстери и преминаване по съседните клетки, за да се повтори процесът.
Значение на методите за клъстериране
- Наличието на методи за групиране помага за рестартиране на локалната процедура за търсене и премахване на неефективността. Клъстерирането помага да се определи вътрешната структура на данните.
- Този клъстер анализ е използван за анализ на модела, векторна област на привличане.
- Клъстерирането помага за разбирането на естественото групиране в набор от данни. Целта им е да имат смисъл да разделят данните в някаква група логически групировки.
- Качеството на клъстеризацията зависи от методите и да се идентифицират скритите модели.
- Те играят широка роля в приложения като маркетингови икономически изследвания, уеблогове за идентифициране на модели в мерките за сходство, обработка на изображения, пространствени изследвания.
- Те се използват в по-стари открития за откриване на измама с кредитни карти.
заключение
Клъстеризацията се счита за обща задача за решаване на проблема, който формулира проблема за оптимизация. Той играе ключово значение в областта на извличането на данни и анализа на данни. Видяхме различни методи за клъстеринг, които разделят набора от данни, зависи от изискванията. Повечето от изследванията са базирани на традиционни техники като K-средства и йерархични модели. Областите на клъстери се прилагат във високоразмерни състояния, което формира бъдещ обхват на изследователите.
Препоръчителен член
Това е ръководство за методите на клъстериране. Тук обсъдихме концепцията, значението и техниките на методите на клъстеринг. Можете да разгледате и другите ни предложени статии, за да научите повече -
- Какво е ETL?
- Какво е Science Science
- Какво е Терадата?
- Топ 6 AWS алтернативи
- Клъстеризиране в машинно обучение
- Многовариантна регресия
- Йерархично клъстериране | Агломеративно и разделно клъстеризиране