Въведение в алгоритма за клъстериране на K-средства?

K- Средството за клъстеринг принадлежи към алгоритъма за непрекъснато обучение. Използва се, когато данните не са дефинирани в групи или категории, т.е. необектни данни. Целта на този алгоритъм за клъстериране е да търси и намира групите в данните, където променлива К представлява броя на групите.

Разбиране на алгоритъм за клъстериране на K- означава

Този алгоритъм е итеративен алгоритъм, който разпределя набора от данни според техните характеристики в K брой на предварително дефинирани не припокриващи се различни клъстери или подгрупи. Той прави точките от данни на между клъстерите възможно най-сходни и също така се опитва да поддържа клъстерите доколкото е възможно. Той разпределя точките от данни към клъстер, ако сборът на квадратна дистанция между центъра на клъстера и точките от данни е минимален, където центърът на клъстера е средноаритметичната стойност на точките от данни, които са в клъстера. По-малкото изменение в клъстера води до подобни или еднородни точки от данни в клъстера.

Как работи алгоритмът за клъстериране на K-средства?

K- означава, че алгоритъмът за клъстериране се нуждае от следните входни данни:

  • K = брой подгрупи или клъстери
  • Проба или набор за обучение = (x 1, x 2, x 3, ……… x n )

Сега нека приемем, че имаме набор от данни, който е без етикет и трябва да го разделим на клъстери.

Сега трябва да намерим броя на клъстерите. Това може да стане по два метода:

  • Метод на лактите.
  • Метод на предназначението.

Нека ги обсъдим накратко:

Метод на лактите

При този метод се прави крива между „в рамките на сумата от квадрати“ (WSS) и броя на клъстерите. Извитата крива прилича на човешка ръка. Нарича се методът на лакътя, защото точката на лакътя в кривата ни дава оптималния брой струпвания. На графиката или кривата, след лакътната точка, стойността на WSS се променя много бавно, така че точката на лакътя трябва да се счита, за да даде крайната стойност на броя на клъстерите.

Цел-базирани

При този метод данните се разделят въз основа на различни показатели и след това се преценява доколко добре се е представил за този случай. Например подреждането на ризи в отдела за мъжки дрехи в мола се извършва по критериите на размерите. Може да се направи въз основа на цената и марките също. Избира се най-подходящото, за да се даде оптимален брой струпвания, т.е. стойността на К.

Сега ни позволява да се върнем към дадения ни набор от данни по-горе. Можем да изчислим броя на клъстерите, т.е. стойността на K, като използваме някой от горните методи.

Как да използвате горните методи?

Сега нека видим процеса на изпълнение:

Стъпка 1: Инициализация

Първо, инициализирайте произволни точки, наречени центроиди на клъстера. Докато инициализирате, трябва да внимавате, че центроидите на клъстера трябва да са по-малко от броя точки на данни за тренировки. Този алгоритъм е итеративен алгоритъм, поради което следващите две стъпки се изпълняват итеративно.

Стъпка 2: Присвояване на клъстер

След инициализацията се преминават всички точки от данни и се изчислява разстоянието между всички центроиди и точките от данни. Сега клъстерите ще се формират в зависимост от минималното разстояние от центроидите. В този пример данните са разделени на два клъстера.

Стъпка 3: Преместване на Centroid

Тъй като клъстерите, образувани в горния етап, не са оптимизирани, така че трябва да формираме оптимизирани клъстери. За целта трябва да преместим итеративно центроидите на ново място. Вземете точки от данни от един клъстер, изчислете средната им стойност и след това преместете центъра на този клъстер на това ново място. Повторете същата стъпка за всички останали клъстери.

Стъпка 4: Оптимизация

Горните две стъпки се правят итеративно, докато центроидите престанат да се движат, т.е. те вече не променят позициите си и не стават статични. След като това е направено, алгоритъмът k- означава, че се нарича конвергиране.

Стъпка 5: Конвергенция

Сега този алгоритъм се е сближил и са оформени и ясно видими клъстери. Този алгоритъм може да даде различни резултати в зависимост от това как клъстерите са инициализирани в първата стъпка.

Приложения на алгоритъм за клъстериране на K-средства

  • Сегментиране на пазара
  • Групиране на документи
  • Сегментиране на изображенията
  • Компресия на изображение
  • Квантоване на вектора
  • Клъстер анализ
  • Функционално обучение или обучение в речник
  • Определяне на райони, предразположени към престъпления
  • Откриване на застрахователни измами
  • Анализ на данните за обществения транспорт
  • Клъстеризиране на ИТ активи
  • Сегментиране на клиенти
  • Идентифициране на данни за рак
  • Използва се в търсачките
  • Прогнозиране на активността на наркотиците

Предимства на алгоритма на клъстериране на K-средства

  • Бързо става
  • здрав
  • Лесно за разбиране
  • Сравнително ефективно
  • Ако наборите от данни са различни, тогава дава най-добри резултати
  • Произвеждайте по-стегнати клъстери
  • Когато центроидите са преизчислени, клъстерът се променя.
  • гъвкав
  • Лесен за тълкуване
  • По-добри изчислителни разходи
  • Повишава точността
  • Работи по-добре със сферични клъстери

Недостатъци на алгоритма на клъстериране на K-средства

  • Необходима е предварителна спецификация за броя центрове на клъстери
  • Ако има два силно припокриващи се данни, тогава не може да се разграничи и не може да се каже, че има два клъстера
  • С различното представяне на данните, постигнатите резултати също са различни
  • Евклидовото разстояние може да претегли неравномерно факторите
  • Той дава локалната оптима на функцията за грешка в квадрат
  • Понякога изборът на центроиди на случаен принцип не може да даде ползотворни резултати
  • Може да се използва само ако значението е дефинирано
  • Не могат да се справят с остатъците и шумните данни
  • Не работете за нелинейния набор от данни
  • Липсва последователност
  • Чувствителен към мащаб
  • Ако се срещнат много големи набори от данни, тогава компютърът може да се срине.
  • Проблеми с прогнозирането

Препоръчителни статии

Това е ръководство за алгоритъм за клъстериране на K-Means. Тук обсъдихме работата, приложенията, предимствата и недостатъците на алгоритъма за клъстериране на K-Means. Можете да разгледате и другите ни предложени статии, за да научите повече -

  1. Какво е невронни мрежи?
  2. Какво представлява извличането на данни? | Роля на извличането на данни
  3. Въпрос за интервю за обработка на данни
  4. Машинно обучение срещу невронна мрежа
  5. Клъстеризиране в машинно обучение

Категория: