Въведение в машинното обучение на науката за данни

Данните са основно информация, по-специално факти или цифри, събирани, за да бъдат разгледани и разгледани и използвани за подпомагане на вземането на решения или информация в електронна форма, която може да се съхранява и използва от компютър. Сега ще научим определението на Data Science и машинно обучение.

Data Science (DS) : Това е много широко поле, където различни техники като статистически методи, научни подходи, архитектурни процеси, разнообразие от алгоритми се използват за извличане на проницателна информация от наличните данни, които могат да бъдат или структурирани данни, или неструктурирани данни.

Машинно обучение ( ML ): Това е подмножество на Data Science. При машинно обучение основно с помощта на статистически модели и различни алгоритми машините се обучават без да дават изрични инструкции, залагат на модели, създадени с данни. "

Значение на науката за данни

  • Живеем в епоха на технологии, при която всеки човек по някакъв или друг начин използва технологии за комфорт / ефективност / лекота, например мобилен телефон / Лаптопи / Таблети за комуникация, автомобили / влакове / автобуси / самолети за транспорт, услуги като банкиране / електричество и много други за улеснение на живота.
  • При всеки такъв случай ние създаваме данни съзнателно или несъзнателно като дневници на разговори / текстове / социални медии - изображения / видеоклипове / блогове всички са част от данните, като транспортирането на навигацията ни до различни места чрез GPS / производителност на превозното средство, записано чрез ECU също е част от данните. Нашите транзакции в банкови и мобилни портфейли създават огромно количество данни, потреблението на електроенергия от всяка област или сектор също е част от данните.
  • И да кажа, тези данни се увеличават експоненциално от ден на ден или минута в минута.
  • Сега възниква въпросът, можем ли да направим нещо с тези данни? Можем ли да използваме тези данни, за да предоставим някои полезни изводи? Можем ли да повишим ефективността? Можем ли да използваме тези данни, за да прогнозираме бъдещи резултати?
  • За да отговорим на всички подобни въпроси, имаме поле, наречено наука за данните.
  • Data Science може да се разглежда като широко поле, което включва извличане на данни, инженеринг на данни, визуализация на данни, статистически методи за интегриране на данни, R / python / SQL програмиране, машинно обучение, големи данни и др.

Сега нека разберем важните понятия на науката за данните.

1. Инженеринг на данни

Инженерингът на данни е един от аспектите на науката за данни, който се фокусира основно върху приложенията на данни, събирането на данни и анализа на данните. Цялата работа, която вършат учените от данни, иска да отговори на няколко въпроса, свързани с прогнози или анализи, използва голям набор от информация.

Сега това, от което се нуждаят, е правилна и полезна информация, което създава необходимост от събиране и валидиране на наличната информация. Всички те са част от инженерните задачи. Някои от тези задачи са проверка за нулеви стойности (липсващи данни), категоризиране на данните (категорични данни), създаване на структури от данни (правила за асоцииране) и т.н.

2. Визуализация на данни

Визуализацията на данните е графичен подход за представяне на данните. Тук използваме вградената библиотека на python за създаване на визуални елементи, например таблици, корелационни диаграми, графики, двойки-графики и др. Визуализацията на данните играе много важна роля за осигуряване на много лесен начин за анализ на данните, виждане и разбиране на тенденциите, фигурата външните хора и т.н.

3. Статистическо разбиране

Статистиката играе много важна роля в областта на науката за данни. Статистиката е много мощен инструмент за изпълнение на задачите на Data Science (DS). Статистиката използва математиката, за да направи технически анализ на наличната информация. С визуализации като лента или диаграма можем да получим информация за тенденцията, но статистиката ни помага да работим с данните по математически / насочен начин. Без познаване на данните, визуализацията на науката е просто игра на познаване.

Ще обсъдим някои важни статистически методи, които ежедневно използват учените по данни.

  • Средно: Средното е средно общо средно всички данни, изчислено чрез добавяне на всички елементи на данни и след това разделяне на брой елементи. Използва се за идентифициране на централната стойност на всички елементи.
  • Медиана: Медианата се използва също за намиране на централната стойност на наличните елементи, но тук всички данни са подредени в ред и точната средна стойност се счита за медиана.

Ако броят на елементите е нечетен, тогава медианата е ((n + 1) / 2) термин. Ако редица елементи са четни, средната стойност ще бъде ((n / 2) + 1) термин.

  • Режим: Режимът е статистически параметър, който посочва най-честата или стойността, която се появява най-много пъти, се третира като режим.
  • Стандартно отклонение: Стандартното отклонение показва колко разпространение има в данните или е измерване за определяне на спред от средните стойности или средната стойност или очакваната стойност.

В случай, че имаме ниско стандартно отклонение, това показва, че повечето от стойностите на данните са близо до средната стойност. Ако имаме високо стандартно отклонение означава, че нашите стойности на данни са по-разпространени от средната стойност.

  • Вариант: отклонението е същото като стандартното отклонение с малка разлика, то е квадрат на стандартното отклонение. Стандартното отклонение се получава от дисперсия, тъй като стандартното отклонение показва разпространението по отношение на данните, докато дисперсията показва спред с квадрат. Лесно е да се коригира разпространението с помощта на дисперсия.
  • Корелация: Корелацията е една от най-важните статистически мерки, тя показва как променливите в набора от данни са свързани. Когато променим единия параметър как влияе на другия параметър.

Ако имаме положителна корелационна стойност, което означава, че променливите ще се увеличават или намаляват паралелно

Ако имаме отрицателна корелационна стойност, което означава, че променливите ще се държат обратно с нарастване една на друга, ще намалеят и обратно.

В статистиката имаме вероятностно разпределение, байесова статистика и тестване на хипотези, които също са много важни инструменти за учен с данни.

Машинно обучение

Машинното обучение основно означава начин, по който машините могат да учат и да получават продукция въз основа на входните функции.

Определение: „Машинното обучение е поле за изучаване, където компютърът се учи от налични данни / исторически данни, без да е изрично програмиран“

При машинното обучение акцентът е върху автоматизирането и подобряването на процеса на обучение на компютрите въз основа на техния опит от входни данни и няма да програмираме кода изрично за всеки тип проблем, т.е. машината ще измисли как да подходи към проблема. Тук резултатите може да не са точни, но може да се направи добра прогноза.
Нека го разберем по този начин:

Традиционно компютрите се използват за облекчаване на процеса на изчисление. така че ако имаме някакво аритметично изчисление. Какво ще правим? Ще подготвим една компютърна програма, която ще реши тази операция по лесен и бърз начин. например, ако искаме да добавим две единици, ще създадем един софтуерен код, който ще вземе два входа и в изхода ще се покаже сумирането.

При машинното обучение подходът е различен, вместо да се захранва директен алгоритъм, специален алгоритъм се поставя в софтуерен код, който ще се опита да разпознае модел и въз основа на тези модели ще се опита да прогнозира най-добрия възможен резултат. Тук ние не кодираме изрично нито един алгоритъм за някаква конкретна операция, вместо това подаваме данни на машина, за да научим какъв е моделът и какъв може да бъде изходът.

Сега защо трябва да се стремим към този подход, когато можем директно да получим точните резултати само като кодираме точния алгоритъм? Точните алгоритми са сложни и са ограничени. Нека го видим от различна гледна точка, това е ера, в която имаме изобилие от данни и тя избухва всеки ден, както сме обсъждали в предишния раздел. Тук се занимаваме с контролирано и неуправляемо обучение.

В днешно време машинното обучение предизвиква остър интерес, тъй като разполагаме с изобилие от данни. За да имаме смисъл от тези данни, трябва да имаме някои смислени резултати или някои смислени модели, които могат да бъдат анализирани и приложени в реална употреба.

Но все пак защо се интересуваме от Машинното обучение и тези данни?

Ние знаем, че човечеството просто преиграва историята, така, както сме същите, каквито бяха и нашите предишни поколения, и нашите потомци също ще се сблъскат с няколко същите ситуации, с които сме изправени сега или сме се сблъскали. На този етап трябва да си представим как да реагираме за бъдещето, използвайки исторически данни.
Така че сега знаем, че данните са много ценен актив.

Предизвикателството е как най-добре можем да използваме наличните данни?

Това е най-интересната тема (Как?), Където ще осмислим наличните данни. Основно има 3 подхода за машинно обучение:

  • Контролирано обучение
  • Неуправляемо обучение
  • Укрепване на обучението

Тези три подхода се използват за създаване на модел на машинно обучение като (Линейна регресия, логистична регресия, произволна гора, дървета на решения и т.н.).

Има голямо разнообразие от приложения на тези модели за машинно обучение, например:

  • Финанси: разкриване на измами
  • Маркетинг / Продажби: персонализирайте препоръката
  • Здравеопазване: установете тенденцията на заболяването.

Заключение - Машинно обучение за наука на данни

  • Data Science е широко поле, от което машинното обучение е подмножество. При това ние анализираме наличните исторически данни при нас и се опитваме да прогнозираме най-вероятните бъдещи резултати.
  • За да прогнозираме, че трябва да почистим данните, да подредим данните (инженеринг на данни). С данните в ръка ние визуализираме модела / тенденциите и след това със статистическо разбиране извеждаме проницателна информация.
  • Тези данни ще бъдат подадени на машина, използвайки алгоритъм за машинно обучение.
  • Тези алгоритми обучават машината и създават един модел на машинно обучение.
  • Този модел след това може да се използва за прогнозиране.

Препоръчителни статии

Това е ръководство за машинно обучение за наука на данни. Тук обсъждаме значението на науката за данни заедно с машинното обучение. Можете също да разгледате следните статии, за да научите повече -

  1. Най-добри програми за научни данни
  2. Умения за научни данни
  3. Езици на науката за данни
  4. Техники за машинно обучение
  5. Какво е интеграция на данни?
  6. Как се използва лентовата графика в Matlab (Примери)
  7. Дърво на решения в машинното обучение
  8. Прости начини за създаване на дърво за решения

Категория: