Регресия срещу класификация - Най-важни разлики и сравнение

Разлика между регресия срещу класификация

В тази статия Регресия срещу класификация, нека да обсъдим основните разлики между Регресия и Класификация. Машинното обучение е широко разделено на два вида, те са Супервизионно машинно обучение и Безконтролно машинно обучение. При контролираното машинно обучение имаме известна стойност на изхода в набора от данни и тренираме модела въз основа на тях и го използваме за прогнозиране, докато при безконтролно машинно обучение нямаме известен набор от изходни стойности. Предварително, за да разграничим класификацията и регресията, нека разберем какво означава тази терминология в машинното обучение. Регресията е алгоритъм в контролираното машинно обучение, който може да бъде обучен да прогнозира реални резултати от броя. Класификацията е алгоритъм в контролираното машинно обучение, който е обучен да идентифицира категории и да предвижда в коя категория попадат нови стойности.

Сравнение между главата между регресията и класификацията (Инфографика)

По-долу е най-добрите 5 сравнение между регресия срещу класификация :

Ключови разлики между Регресия срещу Класификация

Нека обсъдим някои ключови разлики между Регресия срещу Класификация в следните точки:

Класификацията се отнася до предвиждането на етикет или категория. Класификационният алгоритъм класифицира необходимия набор от данни в един от два или повече етикета, алгоритъм, който се занимава с два класа или категории, е известен като двоичен класификатор и ако има повече от два класа, тогава той може да бъде наречен като алгоритъм за класификация на много класове.
Регресията е за намиране на оптимална функция за идентифициране на данните на непрекъснатите реални стойности и прогнозиране на това количество. Регресията с множество променливи като вход или функции за обучение на алгоритъма е известна като проблем с многовариантна регресия. Ако в проблема с регресията входните стойности са зависими или подредени по време, тогава той е известен като проблем с прогнозирането на времеви редове.
Въпреки това, моделът за класификация ще предвиди и непрекъсната стойност, която е вероятността да се случи събитието, принадлежащо към съответния изходен клас. Тук вероятността от събитие представлява вероятността от даден пример, принадлежащ към определен клас. Предвидената стойност на вероятността може да бъде преобразувана в стойност на класа, като се избере класният етикет, който има най-голяма вероятност.
Нека да разберем това по-добре, като видим пример, да приемем, че тренираме модела да прогнозираме дали човек има рак или не въз основа на някои характеристики. Ако получим вероятността човек да има рак като 0.8 и да няма рак като 0.2, можем да преобразуваме 0.8 вероятността в клас етикет с рак, тъй като той има най-голяма вероятност.
Както бе споменато по-горе в класификацията, за да видим колко добре се представя класификационният модел, изчисляваме точността. Нека видим как се извършва изчислението, точността на класификацията може да се извърши, като вземем съотношението на правилните прогнози и общите прогнози, умножени по 100. Ако има направени 50 прогнози и 10 от тях са правилни и 40 са неправилни, точността ще бъде 20 %.

Точност = (Брой правилни прогнози / Общ брой прогнози) * (100)

Точност = (10/50) * (100)
Точност = 20%

Както бе споменато по-горе в регресията, за да се види колко добър е регресионният модел, най-популярният начин е да се изчисли коренната средно квадратна грешка (RMSE). Нека видим как ще се извърши изчислението.

Прогнозираната стойност на регресионния модел е 4, 9, докато действителната стойност е 5, 3.

Прогнозираната стойност на регресионния модел е 2, 3, докато действителната стойност е 2, 1.

Прогнозираната стойност на регресионния модел е 3, 4, докато действителната стойност е 2, 9.

Сега Root означава квадратна грешка, която може да бъде изчислена чрез формулата.

Грешка в квадрат е (5.3-4.9) 2 = 0.16, (2.1-2.3) 2 = 0.04, (2.9-3.4) 2 = 0.25

Средно на квадратурата на грешката = 0, 45 / 3 = 0, 15

Средна квадратна грешка = квадратен корен от 0, 15 = 0, 38

Това е RMSE = 0, 38. Има много други методи за изчисляване на ефективността на модела, но RMSE е най-използваният, тъй като RMSE предлага резултата за грешка в същите единици като прогнозираната стойност.

Примери:

Повечето инженери по данни от учени трудно намират избор между регресия и класификация в началния етап на кариерата си. За по-лесно да видим как изглеждат проблемите с класификацията и как изглеждат проблемите с регресията,

класификация

Прогноза дали ще вали или не утре.
Предсказването на човек трябва да купи тази стока или да не носи печалба.
Предсказване дали човек има заболяване или не.

Ако забележите за всяка ситуация тук, може да има или Да или Не като стойност, предвидена за изход.

регресия

Прогнозиране на цената на земята.
Предсказване на цената на акциите.

Ако забележите за всяка ситуация тук, повечето от тях имат числова стойност като прогнозен изход.

Сравнителна таблица на регресия спрямо класификация

Таблицата по-долу обобщава сравненията между Регресия и Класификация :

параметър	регресия	класификация
Тип функция на картографиране	В тези алгоритми функцията за картографиране ще бъде избрана от тип, който може да приведе стойностите към непрекъснатия изход.	В тези алгоритми функцията за картографиране ще бъде избрана от тип, който може да приведе стойностите към предварително дефинираните класове.
Включва прогноза	За този тип алгоритми прогнозираните данни принадлежат към категорията на непрекъснатите стойности. (Като 23, 34, 45, 67, 28)	За този тип прогнозирани данни на алгоритъма принадлежи към категорията на дискретни стойности. (Като „Да“ или „Не“, принадлежи към „A“ или „B“ или „C“).
Метод за изчисляване	Root Mean Square Error ще се изчисли, за да се идентифицира най-доброто прилягане на набора от данни.	Точността ще се изчислява, за да се определи най-доброто съвпадение на данните.
Същност на прогнозираните данни	Естеството на прогнозираните данни е подредено. (Това е, предвидените стойности ще бъдат в някаква последователност).	Характерът на прогнозираните данни е неподреден. (Това е, предвидените стойности няма да бъдат в нито една последователност).
алгоритми	Поддържа векторната регресия и регресионните дървета са известни също като Random Forest, които са някои от популярните примери на алгоритмите за регресия.	Naive Bayes, дървета на решения и K Най-близките съседи са някои от популярните примери на алгоритмите за класификация.

заключение

Това са някои от основните разлики между класификацията и регресията. В някои случаи прогнозираните при регресия непрекъснати стойности на изхода могат да бъдат групирани в етикети и да се променят в класификационни модели. И така, трябва да разберем ясно кой да изберем въз основа на ситуацията и какъв искаме да бъде прогнозираният резултат.

Препоръчителни статии

Това е ръководство за най-високата разлика между Regression vs Classification. Тук също обсъждаме ключовите разлики между регресията и класификацията с инфографиката и таблицата за сравнение. Може да разгледате и следните статии, за да научите повече -