Въведение за създаване на дърво за решения
С неотдавнашния бърз растеж на количеството данни, генерирани от информационните системи, за да се справят с големи масиви от данни, има доминираща нужда дървото на решения да намали сложността на изчисленията. Дървото на решения може да се счита за най-важния подход за представяне на класификатори. С други думи, можем да кажем, че данните са структурирани, като се използва стратегия за разделяне и завладяване. до това да разберем, че сме изследвали само. Дървото на решенията е структурирано като рамка за прецизиране на стойностите и вероятността на решенията за резултатите от тук
m всяко ниво на възела, помагайки на лицата, вземащи решения, да изберат правилни прогнози сред различните неподходящи данни. В тази статия ще разгледате как по един прост начин да създадете дърво на решения въз основа на примерни данни.
Какво е дърво на решения?
Дървото на решения е двоична йерархична структура, която идентифицира начина, по който всеки възел разделя набор от данни въз основа на различни условия. Да се изгради оптимално дърво с моделен подход за класифициране на променлива на отговора, която предсказва стойността на целева променлива с прости правила за решение (if-then-else оператори). Подходът е контролирано обучение, използвано най-вече при проблеми с класификацията и се счита за много ефективен предсказуем модел. Те се използват в различни области на приложение като теория на игрите, изкуствен интелект, машинно обучение, извличане на данни и области като сигурност и медицина.
Как да създадете дърво за решения?
Дърво на решения се създава по прости начини от начина отгоре надолу; те се състоят от възли, които образуват насочен възел, който има коренни възли без входящи ръбове, всички останали възли се наричат възлови решения (вътрешни възли и листови възли, които съответстват на етикети на атрибут и клас) с поне един входящ ръб. Основната цел от наборите от данни е да се сведе до минимум грешките при обобщаване чрез намиране на оптималното решение в дървото на решенията.
Пример за дърво за решения е обяснен по-долу с набор от примерни данни. Целта е да се предвиди дали печалбата е надолу или нагоре, използвайки атрибутите на живота и конкуренцията. Тук променливите на дървото на решенията са категорични (Да, Не).
Наборът от данни
живот | конкуренция | Тип | печалба |
Стар | да | Софтуер | надолу |
Стар | Не | Софтуер | надолу |
Стар | Не | железария | надолу |
среден | да | Софтуер | надолу |
среден | да | железария | надолу |
среден | Не | железария | нагоре |
среден | Не | Софтуер | нагоре |
нов | да | Софтуер | нагоре |
нов | Не | железария | нагоре |
нов | Не | Софтуер | нагоре |
От горния набор от данни: живот, конкуренция, Тип са предсказателите и печалбата на атрибута е целта. Има различни алгоритми за реализиране на дърво за решения, но най-добрият алгоритъм, използван за изграждането на дърво за решения, е ID3, който акцентира върху алчния подход за търсене. Дървото на решенията следва правилото за извод на решение или дизюнктивната нормална форма (^).
Дърво на решения
Първоначално целият атрибут за обучение се счита за корен. Приоритетът на поръчката за поставяне на атрибутите като root се извършва по следния подход. Известно е, че този процес избира избор на атрибут, за да идентифицира кой атрибут е направен като корен на всеки ниво. Дървото следва две стъпки: изграждане на дърво, резитба на дърво. И данните са разделени във всички възли за решения.
Информационна печалба
Това е мярката на промяната в ентропията, базирана на независимата променлива. Дървото на решенията трябва да намери най-голямата печалба от информация.
Ентропията
Ентропията се дефинира като за крайния набор, мярката за случайност в данни или предсказуемост на събитията, ако извадката е сходни стойности, тогава ентропията е нула и ако тя е разделена еднакво с извадката, тогава тя е една.
Ентропия за класа
Където p е вероятността да получите печалба, да кажете „да“, а N е загуба, кажете „Не“.
следователно ентропия = 1
След като стойността на ентропията се изчисли, е необходимо да се реши корен възел от атрибута.
Ентропия на епохата
Според набора от данни за атрибут Life имаме стар = 3 надолу, среден = 2 надолу и един нагоре по отношение на печалбата.
живот | пи | Ни | I (пи, Ni) | |
Стар | 0 | 3 | 0 | |
среден | 2 | 2 | 1 | |
нов | 3 | 0 | 0 |
Печелене = Клас Ентропия - Ентропия на живота = 1 - 0, 4 = 0, 6
Ентропия (конкуренция) = 0, 87
конкуренция | пи | Ни | I (пи, Ni) | |
да | 1 | 3 | 0.8 | |
Не | 4 | 2 | 0.9 |
Печелене = Клас Ентропия - Ентропия на живота = 1 - 0, 87 = 0, 12
Сега проблемът възниква в атрибута Life, където средата има еднаква вероятност както нагоре, така и надолу. следователно, ентропията е 1. подобно, тя се изчислява за атрибут type отново ентропията е 1 и печалбата е 0. Сега е създадено цялостно решение, за да се получи точен резултат за средна стойност.
Предимства на дървото на решенията
- Те са лесни за разбиране и генерираните правила са гъвкави. Има малко усилия за подготовка на данни.
- Визуален подход за представяне на решения и резултати е много полезен.
- Дървото на решения обработва набора от данни за обучение с грешки и липсващи стойности.
- Те могат да се справят с дискретна стойност и числов атрибут. Работи категорични и непрекъснати променливи за вход и изход.
- Те са полезен инструмент за бизнес домейна, който трябва да взема решения след анализ при определени условия.
Недостатъци на дървото на решенията
- Учениците могат да създадат сложно дърво за решения в зависимост от обучените данни. този процес се обозначава като надлежен, труден процес в моделите на дървото за решения.
- Предпочитаните стойности са категорични, ако е непрекъснато, дървото на решенията губи информация, което води до склонност към грешки. Експоненциалният растеж на изчисленията е по-висок, докато се анализира.
- Много етикети на клас водят до неправилни сложни изчисления и дават ниска точност на прогнозиране на набора от данни.
- Информацията, получена в DT алгоритъма, дава пристрастен отговор на категорични по-високи стойности.
заключение
Следователно, в заключение, дърветата с решения предоставят практичен и лесен метод за учене и добре известен като ефективни инструменти за машинно обучение, тъй като за кратко време се представят добре с големи набори от данни. Това е учебна задача, която използва статистически подход, за да направи обобщен извод. Сега е по-добре разбрано защо дървото на решенията се използва при прогнозно моделиране и за учените на данните те са мощният инструмент.
Препоръчителни статии
Това е ръководство за създаване на дърво за решения. Тук обсъждаме как да създадем дърво за решения заедно с различни предимства и недостатъци. Можете да разгледате и другите ни предложени статии, за да научите повече -
- Преглед на дървото на решения в R
- Какъв е алгоритъмът на дървото за решение?
- Въведение в инструментите за изкуствен интелект
- Топ 10 въпроса за интервю за изкуствен интелект