Въведение в дървото на решенията в машинното обучение

Дървото на решенията в машинното обучение има широко поле в съвременния свят. Има много алгоритми в ML, които се използват в ежедневието ни. Един от важните алгоритми е дървото на решенията, което се използва за класификация, а също и решение за проблеми с регресията. Тъй като това е предсказуем модел, анализът на дървото на решенията се извършва чрез алгоритмичен подход, където набор от данни се разделя на подмножества според условията. Самото име казва, че е модел подобен на дърво под формата на изрази „if-then-else“. Колкото по-дълбоко е дървото и колкото повече са възлите, толкова по-добър е моделът.

Видове дърво за решения в машинното обучение

Дървото за решение е графика, подобна на дърво, където сортирането започва от коренния възел до възела на листата, докато се постигне целта. Той е най-популярният за решение и класификация въз основа на контролирани алгоритми. Той е конструиран чрез рекурсивен дял, при който всеки възел действа като тестов случай за някои атрибути и всеки ръб, изхождащ от възела, е възможен отговор в тестовия случай. Коренните и листните възли са две съставки на алгоритъма.

Нека разберем с помощта на малък пример, както следва:

Тук основният възел е дали сте по-малко от 40 или не. Ако е така, тогава ядете ли бърза храна? Ако отговорът е да, значи вие сте негодни, или иначе казано, сте годни. И ако сте на повече от 40, тогава правите ли упражнения? Ако е така, значи сте годни или иначе казано не сте негодни. Това беше по същество бинарна класификация.

Има два вида дървета на решения:

  1. Класификационни дървета: Горният пример е категоризирано дърво за класификация.
  2. Регресионни дървета : При този тип алгоритъм решението или резултатът са непрекъснати. Той има единичен цифров изход с повече входове или прогнози.

В дървото на решението типичното предизвикателство е да се идентифицира атрибута на всеки възел. Процесът се нарича избор на атрибут и има някои мерки, които да се използват за идентифициране на атрибута.

а. Информационна печалба (IG)

Information Gain измерва колко информация дава отделна характеристика за класа. Той действа като основен ключ за изграждането на дърво за решения. Първо се разделя атрибут с най-висока печалба на информация. И така, дървото на решения винаги увеличава печалбата на информация. Когато използваме възел за разделяне на инстанциите на по-малки подмножества, тогава ентропията се променя.

Ентропия: Това е мярката за несигурност или нечистота в произволна променлива. Ентропията решава как дърво на решение разделя данните на подмножества.

Уравнението за получаване на информация и ентропия са следните:

Информационна печалба = ентропия (родител) - (средно претеглена стойност * ентропия (деца))

Ентропия: ∑p (X) лог p (X)

P (X) тук е частта от примерите в даден клас.

б. Джини индекс

Индексът на Джини е показател, който решава колко често случайно избран елемент би бил неправилно идентифициран. В него ясно се посочва, че първо се предпочита атрибут с нисък индекс на Джини.

Индекс на Джини: 1-∑ p (X) 2

Сплит творение

  1. За да създадем сплит, първо трябва да изчислим резултата от Джини.
  2. Данните се разделят, като се използва списък от редове с индекс на атрибут и стойност на разделяне на този атрибут. След като бъде намерен десният и левият набор от данни, можем да получим стойността на разделянето чрез резултата от Gini от първата част. Сега разделената стойност ще бъде решението, където атрибутът ще пребивава.
  3. Следващата част е оценка на всички раздели. Най-добрата възможна стойност се изчислява чрез оценка на цената на разделянето. Най-добрият сплит се използва като възел на Дървото на решенията.

Изграждане на дърво - дърво за решения в машинното обучение

Има две стъпки за изграждане на дърво за решения.

1. Създаване на терминални възли

Докато създаваме терминалния възел, най-важното е да отбележим дали трябва да спрем да отглеждаме дървета или да продължим по-нататък. За това могат да се използват следните начини:

  • Максимална дълбочина на дървото: Когато дървото достигне максималния брой възли, изпълнението там спира.
  • Минимални записи на възел: Може да се дефинира като минимум от модели, които един възел изисква. Тогава можем да спрем да добавяме терминални възли веднага, получаваме тези минимални записи на възли.

2. Рекурсивно разделяне

След като възелът е създаден, можем да създадем рецидивиращ възел, като разделим набора от данни и извикаме една и съща функция няколко пъти.

предвиждане

След изграждането на дърво, прогнозирането се извършва с помощта на рекурсивна функция. Същият процес на прогнозиране се следва отново с леви или десни детски възли и така нататък.

Предимства и недостатъци на дървото на решенията

По-долу са дадени някои предимства и недостатъци:

Предимства

Дървото на решенията има някои предимства в машинното обучение, както следва:

  • Изчерпателен: Той взема предвид всеки възможен резултат от решение и съответно проследява всеки възел до заключението.
  • Специфично: Дърветата на решение присвояват конкретна стойност на всеки проблем, решение и резултат (и). Намалява несигурността и неяснотата и също така увеличава яснотата.
  • Простота: Дървото на решенията е един от по-лесните и надеждни алгоритми, тъй като няма сложни формули или структури от данни. За изчисляване са необходими само проста статистика и математика.
  • Универсален: Дърветата на решенията могат да бъдат конструирани ръчно с помощта на математика и да се използват с други компютърни програми.

Недостатъци

Дървото на решения има някои недостатъци в машинното обучение, както следва:

  • Дърветата с решения са по-малко подходящи за оценка и финансови задачи, когато имаме нужда от подходяща стойност (и).
  • Това е класификационен алгоритъм, предразположен към грешки в сравнение с други изчислителни алгоритми.
  • Изчислено е скъпо. На всеки възел трябва да се сортира кандидатът за разделяне, преди да се установи най-доброто. Има други алтернативи, които много стопански субекти следват за финансови задачи, тъй като дървото на решения е твърде скъпо за оценка.
  • Докато работите с непрекъснати променливи, дървото на решенията не е най-доброто решение, тъй като има тенденция да губи информация, докато категоризира променливи.
  • Понякога е нестабилна, тъй като малките вариации в набора от данни могат да доведат до формирането на ново дърво.

Заключение - Дърво на решения в машинното обучение

Като един от най-важните и контролирани алгоритми, дървото на решенията играе жизненоважна роля в анализа на решенията в реалния живот. Като предсказуем модел, той се използва в много области за своя сплит подход, който помага при идентифицирането на решения, основани на различни условия, чрез класификация или метод на регресия.

Препоръчителни статии

Това е ръководство за дървото на решенията в машинното обучение. Тук обсъждаме въвеждането, типовете дърво за решения в машинното обучение, създаването на сплит и изграждането на дърво. Можете също да прегледате и другите ни предложени статии, за да научите повече -

  1. Типове данни на Python
  2. Набори от данни на Tableau
  3. Касандра моделиране на данни
  4. Тестване на таблица с решения
  5. Топ 8 етапа на жизнения цикъл на машинното обучение

Категория: