Въведение в обработката на данни в машинното обучение

Предварителната обработка на данните при машинно обучение е начин за преобразуване на данни от сурова форма в много по-форматирана, неизползваема или желана форма. Това е неразделна задача на машинното обучение, която се изпълнява от ученията по данни. Тъй като събраните данни са в необработен формат, може да не е възможно обучението на модела да го използва. Важно е да обработвате внимателно тези сурови данни, за да направите правилно тълкуване от тях и най-накрая да избегнете отрицателен резултат в прогнозата. Накратко, качеството на нашия алгоритъм за учене силно зависи от вида на набора от данни, който сме използвали за захранване на модела, така че предварителната обработка на данните се използва за поддържане на това качество.

Данните, събрани за обучение на модела, са от различни източници. Тези събрани данни обикновено са в необработен формат, т.е. могат да имат шумове като липсващи стойности и подходяща информация, числа във формат на низовете и т.н., или могат да бъдат неструктурирани. Предварителната обработка на данни повишава ефективността и точността на моделите за машинно обучение. Тъй като помага за премахването на тези шумове и набор от данни и дава смисъл на набора от данни

Шест различни стъпки, включени в машинното обучение

Следват шест различни стъпки, свързани с машинното обучение за извършване на предварителна обработка на данни:

Стъпка 1: Импортиране на библиотеки

Стъпка 2: Импортиране на данни

Стъпка 3: Проверка на липсващи стойности

Стъпка 4: Проверка на категорични данни

Стъпка 5: Мащабиране на функции

Стъпка 6: Разделяне на данни в групи за обучение, валидиране и оценяване

Нека разберем подробно всяка от тези стъпки:

1. Импортиране на библиотеки

Първата стъпка е да импортирате няколко от важните библиотеки, необходими за предварителна обработка на данни. Библиотеката е съвкупност от модули, които могат да бъдат извиквани и използвани. В python имаме много библиотеки, които са полезни при предварителната обработка на данните.

Малко от следните важни библиотеки в python са:

  • Numpy: Използва се предимно библиотеката за изпълнение или използване на сложни математически изчисления на машинно обучение. Полезно е при извършване на операция върху многоизмерни масиви.
  • Pandas : Това е библиотека с отворен код, която осигурява висока производителност и лесни за използване структури на данни и инструменти за анализ на данни в python. Той е проектиран по начин, който да направи работата с връзка и етикетирани данни лесна и интуитивна.
  • Matplotlib: Това е библиотека за визуализация, предоставена от python за 2D графики за масив. Той е изграден върху numpy масив и е проектиран да работи с по-широк стек Scipy. Визуализацията на набори от данни е полезна в сценария, при който са налични големи данни. Парцелите, налични в matplot lib, са линия, лента, разсейване, хистограма и т.н.
  • Seaborn: Това е също библиотека за визуализация, дадена от python. Той осигурява интерфейс на високо ниво за изготвяне на атрактивни и информативни статистически графики.

2. Импортиране на набор от данни

След като библиотеките са импортирани, следващата ни стъпка е да заредим събраните данни. Библиотеката Pandas се използва за импортиране на тези набори от данни. Най-вече наборите от данни се предлагат в CSV формати, тъй като са с малък размер, което го прави бърз за обработка. И така, да заредите CSV файл с помощта на read_csv функцията на библиотеката на пандата. Различни други формати на набора от данни са, които могат да се видят

След като базата данни се зареди, трябва да я инспектираме и да търсим какъвто и да е шум. За целта трябва да създадем характеристична матрица X и вектор за наблюдение Y по отношение на X.

3. Проверка за липсващи стойности

След като създадете матрицата на функциите, може да намерите някои липсващи стойности. Ако не се справим, това може да причини проблем по време на тренировка.

Има два метода за работа с липсващите стойности:

  1. Премахване на целия ред, който съдържа липсващата стойност, но може да има вероятност да загубите жизненоважна информация. Това може да бъде добър подход, ако размерът на набора от данни е голям.
  2. Ако числовата колона има липсваща стойност, тогава можете да прецените стойността, като вземете средната, средната, режима и т.н.

4. Проверка на категорични данни

Данните в набора от данни трябва да бъдат в числова форма, за да се извършват изчисления върху него. Тъй като моделите за машинно обучение съдържат сложни математически изчисления, ние не можем да ги захранваме с нечислена стойност. Така че, важно е да преобразувате всички текстови стойности в числови стойности. Класът LabelEncoder () на научени се използва за преобразуване на тези категорични стойности в числови стойности.

5. Мащабиране на функции

Стойностите на суровите данни варират изключително много и това може да доведе до предубедено обучение на модела или може да доведе до увеличаване на изчислителните разходи. Затова е важно да ги нормализирате. Мащабирането на характеристиките е техника, която се използва за привеждане на стойността на данните в по-кратък диапазон.

Методите, използвани за мащабиране на функции, са:

  • Мащабиране (минимално-максимално нормализиране)
  • Средна нормализация
  • Стандартизация (нормализиране на Z-оценката)
  • Мащабиране до единица дължина

6. Разделяне на данни в групи за обучение, валидиране и оценяване

И накрая, ние трябва да разделим нашите данни в три различни набора, набор за обучение за трениране на модела, комплект за валидиране, за да потвърдим точността на нашия модел и накрая тестов набор за тестване на работата на нашия модел върху общи данни. Преди да разделите набора от данни, важно е да разбъркате набора от данни, за да избегнете отклонения. Идеалната пропорция за разделяне на набора от данни е 60:20:20, т.е. 60% като набор за обучение, 20% като набор за тест и валидиране. За да разделите набора от данни, използвайте train_test_split на sklearn.model_selection два пъти. Веднъж да разделите набора от данни на влак и комплект за валидиране и след това да разделите останалите данни от влакове на влак и тестов набор.

Заключение - Предварителна обработка на данните в машинното обучение

Предварителната обработка на данни е нещо, което изисква практика. Не е като обикновена структура на данни, в която се учиш и прилагаш директно за решаване на проблем. За да получите добри познания за това как да почистите набор от данни или как да визуализирате своя набор от данни, трябва да работите с различни набори от данни.

Колкото повече ще използвате тези техники, толкова по-добре ще ги разберете. Това беше обща идея как обработката на данни играе важна роля в машинното обучение. Заедно с това видяхме и стъпките, необходими за предварителна обработка на данните. Затова следващия път, преди да отидете да тренирате модела, използвайки събраните данни, не забравяйте да приложите предварителна обработка на данните.

Препоръчителни статии

Това е ръководство за предварителна обработка на данни в машинното обучение. Тук обсъждаме въвеждането, шест различни стъпки, включени в машинното обучение. Можете също да прегледате и другите ни предложени статии, за да научите повече -

  1. Значение на изкуствения интелект
  2. IoT технология
  3. Типове данни PL / SQL
  4. Видове данни на кошера
  5. R Типове данни

Категория: