Какво е регресионен анализ? - Видове и предимства на регресионния анализ

Съдържание:

Anonim

Въведение в регресионен анализ

Регресионният анализ е алгоритъм за прогнозиращо моделиране, който предсказва резултата от променлива и идентифицира променливите (независими променливи), които допринасят или зависят от променливата на резултата (целева или зависима променлива). Най-просто казано, това е техника за намиране на връзката между независимите и зависимите променливи, за да се получи резултатът. Използването и интерпретирането на резултата е просто. Има много видове техники за регресия, които се използват широко в различни сектори. Някои от примерите за регресия са да се предвиди заплатата на служител или приходите на компания за една година.

Как работи Регресионният анализ?

Има много видове техники за регресия, които се използват предвид различни фактори и резултати.

  • Линейна регресия
  • Логистична регресия
  • Регресия на Ласо / Ридж
  • Полиномна регресия

Някои от важните статистически регресионни тестове, които се използват в различни сектори, са дадени по-долу:

1. Линейна регресия

Използва се, когато променливата на резултата е линейно зависима от независимите променливи. Обикновено се използва, когато нямаме огромен набор от данни. Той е чувствителен и към остатъците, така че ако наборът от данни съдържа остатъци, отколкото е по-добре да се лекува, преди да приложите линейна регресия. Съществуват техники за единична и много променлива регресия. Проста линейна регресия е анализът, когато променливата на резултата е линейно зависима от една независима променлива. Простата линейна регресия следва уравнението на права линия, което е дадено по-долу:

Y=mx+c

Където,

Y = Целева, зависима или критерийна променлива

x = Независима или прогнозна променлива

m = Коефициент на наклон или регресия

c = константа

Мулти-променлива линейна регресия определя връзката между променливата на резултата и повече от една независима променлива. Следва уравнението по-долу на права линия, където зависимите променливи са линейната комбинация от всички независими променливи:

Y= m1x1+m2x2+m3x3+…mnan+c

Където,

Y = Целева, зависима или критерийна променлива

x1, x2, x3… xn = Независими или прогнозни променливи

m1, m2, m3… mn = Коефициенти на наклон или регресия на съответните променливи

c = константа

Линейната регресия следва принципа на метода на най-малкото квадратче. Този метод гласи, че се избира линия с най-добро съответствие, като се сведе до минимум сумата на квадратната грешка. Линията с най-добро прилягане се избира там, където сумата от квадратна грешка между наблюдаваните данни и линията е минимална.

Има някои предположения, за които трябва да се внимава, преди да приложите линейна регресия върху набора от данни.

  • Трябва да съществува линейна връзка между независими и зависими променливи.
  • Между независимите променливи не трябва да има или малко мултиколинеарност. Мултиколинеарността се определя като явление, при което има висока зависимост между независимите променливи. Можем да третираме мултиколинеарност, като пуснем една променлива, която е свързана или третираме две променливи като една променлива.
  • Хомоседастичност: Определя се като състояние, при което термините за грешка трябва да бъдат разпределени на случаен принцип през линията в регресионния анализ. Не трябва да има никакъв шаблон през линията, ако има някакъв идентифициран модел, отколкото се казва, че данните са хетеросептични.
  • Всички променливи трябва да бъдат нормално разпределени, което виждаме чрез начертаване на QQ диаграма. Ако данните не се разпространяват нормално, можем да използваме всякакви нелинейни методи за преобразуване.

Така че, винаги е препоръчително да тествате предположенията, докато прилагате линейна регресия, за да получите добра точност и правилен резултат.

2. Логистична регресия

Тази регресионна техника се използва, когато променливата на целта или резултата е категорична или бинарна по своя характер. Основната разлика между линейна и логистична регресия се състои в целевата променлива, в линейната регресия, тя трябва да бъде непрекъсната, докато в логистичната тя трябва да бъде категорична. Променливата на резултатите трябва да има само два класа, не повече от това. Някои от примерите са филтри за спам в имейли (Спам или не), откриване на измами (измама / не измама) и т.н. Работи на принципа на вероятността. Тя може да бъде класифицирана в две категории чрез задаване на праговата стойност.

Например: Ако има две категории A, B и зададем праговата стойност като 0, 5, вероятността над 0, 5 ще се счита за една категория, а под 0, 5 ще бъде друга категория. Логистичната регресия следва S-образна крива. Преди да изградим модела на логистична регресия, трябва да разделим набора от данни на обучение и тестване. Тъй като целевата променлива е категорична или двоична, ние трябва да се уверим, че има подходящ баланс на класа в обучителния набор. Ако има дисбаланс на класа, това може да се лекува с помощта на различни методи, както е споменато по-долу:

  • Горна извадка: При тази техника класът, който има по-малко редове, се взема проба, за да съответства на броя на редовете от мажоритарния клас.
  • Изваждане на проба надолу: При тази техника класът, който има повече редове, се взема проба надолу, за да съответства на броя на редовете от малцинствения клас.

Има някои важни моменти, които е важно да разберете, преди да приложите логистичния регресионен модел към наборите от данни:

  • Целевата променлива трябва да бъде двоична по своя характер. Ако има повече от 2 класа в целевата променлива, това е известно като мултиномна логистична регресия .
  • Между независимите променливи не трябва да има или малко мултиколинеарност.
  • За работа е необходим огромен размер на извадката.
  • Трябва да съществува линейна връзка между независимите променливи и дневника на коефициентите.

Предимства на регресията

Има много ползи от регресионния анализ. Вместо да обмисляме чувството си на червата и да прогнозираме резултата, можем да използваме регресионен анализ и да покажем валидни точки за възможни резултати.

Някои от тях са изброени по-долу:

  • За прогнозиране на продажбите и приходите във всеки сектор за по-кратки или по-дълги периоди.
  • За да прогнозирате степента на отслабване на клиентите от всяка индустрия и да откриете подходящите мерки за тяхното намаляване.
  • За да се разберат и прогнозират нивата на запасите на склада.
  • За да намерите дали въвеждането на нов продукт на пазара ще бъде успешно или не.
  • За да се предвиди дали някой клиент ще получи заем по подразбиране или не.
  • Да прогнозираме дали някой клиент ще купи продукт или не.
  • Откриване на измами или спам

заключение

Има различни показатели за оценка, които се вземат предвид след прилагане на модела. Въпреки че има предположения, които трябва да бъдат тествани преди прилагането на модела, винаги можем да модифицираме променливите с помощта на различни математически методи и да увеличим производителността на модела.

Препоръчителни статии

Това е ръководство за регресионен анализ. Тук обсъждаме Въведение в регресионния анализ, как работи регресионният анализ и ползите от регресията. Можете също да прегледате и другите ни предложени статии, за да научите повече -

  1. Линеен регресионен анализ
  2. Инструменти за анализ на данни
  3. Инструменти за тестване на регресия
  4. Анализ на големи данни
  5. Регресия срещу класификация | Най-важни разлики