Въведение в техниките за научни данни

В днешния свят, където данните са новото злато, съществуват различни видове анализ за бизнес, който може да направи. Резултатът от проект за научни данни варира значително в зависимост от вида на наличните данни и следователно въздействието е променлива. Тъй като има много различен вид анализ, става наложително да се разбере какви няколко основни техники трябва да бъдат избрани. Основната цел на техниките за наука на данни е не само търсене на подходяща информация, но и откриване на слаби връзки, които водят до слабо функциониране на модела.

Какво е наука за данни?

Науката за данните е област, която се разпространява в няколко дисциплини. Той включва научни методи, процеси, алгоритми и системи за събиране на знания и работа по същото. Това поле включва различни жанрове и е обща платформа за обединяване на концепции за статистика, анализ на данни и машинно обучение. В това отношение теоретичните знания на статистиката заедно с данните в реално време и техниките в машинното обучение работят ръка за ръка, за да се получат ползотворни резултати за бизнеса. Използвайки различни техники, използвани в науката за данни, ние в днешния свят можем да предполагаме по-добро вземане на решения, които в противен случай може да липсват от човешкото око и ум. Не забравяйте, че машината никога не забравя! За да увеличите максимално печалбата в управляван от данни свят, магията на Data Science е необходим инструмент, който трябва да има.

Различни видове техники за научни данни

В следващите няколко абзаца ще разгледаме общи техники за научни данни, използвани във всеки друг проект. Въпреки че понякога техниката на науката за данни може да бъде специфична за бизнес проблема и може да не попада в категориите по-долу, е напълно добре да ги наречем като различни видове. На високо ниво разделяме техниките на надзорни (ние знаем въздействието на целта) и неподдържани (не знаем за целевата променлива, която се опитваме да постигнем). В следващото ниво техниките могат да бъдат разделени по отношение на

  • Резултатът, който бихме получили или какъв е намерението на бизнес проблема
  • Тип на използваните данни.

Нека първо разгледаме сегрегацията въз основа на намерението.

1. Неуправляемо обучение

  • Откриване на аномалия

При този тип техника ние идентифицираме всяко неочаквано събитие в целия набор от данни. Тъй като поведението се различава от действителното случване на данни, основните предположения са:

  1. Появата на тези случаи е много малка.
  2. Разликата в поведението е значителна.

Обяснени са алгоритмите на аномалията, като Isolation Forest, който предоставя оценка за всеки запис в набор от данни. Този алгоритъм е модел на базата на дърво. Използвайки този тип техника за откриване и неговата популярност, те се използват в различни бизнес случаи, например, прегледи на уеб страници, процент на изглаждане, приходи на кликване и т.н. В графиката по-долу можем да обясним как изглежда аномалията.

Тук тези в синьо представляват аномалия в набора от данни. Те се различават от обикновената линия на тренда и се срещат по-малко.

  • Анализ на клъстеринг

Чрез този анализ основната задача е да се раздели целият набор от данни в групи, така че тенденцията или чертите в една група данни точки да са доста сходни една с друга. В терминологията на науката за данни ние ги наричаме клъстер. Например в търговията на дребно има план за мащабиране на бизнеса и е наложително да се знае как биха се държали новите клиенти в нов регион въз основа на миналите данни, които имаме. Става невъзможно да се изработи стратегия за всеки индивид в дадена популация, но ще бъде полезно групирането на населението в клъстери, така че стратегията да бъде ефективна в група и да е мащабируема.

Тук синият и оранжевият цвят са различни групи, които имат уникални черти в себе си.

  • Анализ на асоциацията

Този анализ ни помага да изградим интересни взаимоотношения между елементи в набор от данни. Този анализ разкрива скритите връзки и помага при представянето на елементи от набора от данни под формата на правила за асоцииране или набори от чести елементи. Правилото за асоцииране е разбито на 2 стъпки:

  1. Често генериране на набор от артикули: В това се генерира набор, където често срещаните елементи се настройват заедно.
  2. Генериране на правила: Построеният по-горе набор се предава през различни слоеве за формиране на правила, за да се изгради скрита връзка помежду си. Например, наборът може да попадне или в концептуални проблеми или проблеми с прилагането, или в проблеми с приложението. След това те се разклоняват в съответните дървета за изграждане на правилата за асоцииране.

Например, APRIORI е алгоритъм за изграждане на правила за асоцииране.

2. Контролирано обучение

  • Регресионен анализ

При регресионен анализ ние определяме зависимата / целевата променлива и останалите променливи като независими променливи и в крайна сметка хипотезираме как една / повече независими променливи влияят на целевата променлива. Регресията с една независима променлива се нарича унивариантна и с повече от една е известна като мултивариантна. Нека да разберем, използвайки унивариантна и след това скала за многовариантна.

Например, y е целевата променлива и x 1 е независимата променлива. И така, от знанието за правата, можем да запишем уравнението като y = mx 1 + c. Тук “m” определя колко силно y е повлияно от x 1 . Ако „m“ е много близо до нула, това означава, че с промяна в x 1, y не се влияе силно. С число, по-голямо от 1, въздействието се засилва и малката промяна в х 1 води до големи изменения в у. Подобно на едновариантното, в многовариантното може да се запише като y = m 1 x 1 + m 2 x 2 + m 3 x 3 ………., Тук въздействието на всяка независима променлива се определя от съответстващото й „m“.

  • Класификационен анализ

Подобно на клъстерния анализ, алгоритмите за класификация са изградени с целевата променлива под формата на класове. Разликата между клъстерирането и класификацията се състои в това, че при клъстеринга не знаем в коя група попадат точките от данни, докато в класификацията знаем към коя група принадлежи. И се различава от регресията от гледна точка, че броят на групите трябва да бъде фиксирано число за разлика от регресията, той е непрекъснат. Има куп алгоритми в анализа на класификацията, например, Подкрепящи векторни машини, Логистична регресия, Дървета на решения и т.н.

заключение

В заключение, ние разбираме, че всеки тип анализ е огромен сам по себе си, но тук можем да предоставим малък вкус на различни техники. В следващите няколко бележки ще вземем всеки един от тях поотделно и ще влезем в подробности относно различните под-техники, използвани във всяка родителска техника.

Препоръчителен член

Това е ръководство за техниките за научни данни. Тук обсъждаме въвеждането и различните видове техники в науката за данни. Можете да разгледате и другите ни предложени статии, за да научите повече -

  1. Инструменти за научни данни | Топ 12 инструменти
  2. Алгоритми за научни данни с типове
  3. Въведение в кариерата на научните данни
  4. Data Science срещу визуализация на данни
  5. Примери за многовариантна регресия
  6. Създайте дърво на решения с предимства
  7. Кратък преглед на жизнения цикъл на науката за данни

Категория: