Въведение във видовете обработка на данни
Терминът „Извличане на данни“ означава, че трябва да разгледаме голям набор от данни и мина от същите, за да изобразим същността на това, което искат да кажат данните. Много подобно на това как се извършва добив на въглища, когато въглищата дълбоко под земята се добиват с помощта на различни инструменти, извличането на данни също има свързани инструменти за извличане на най-доброто от данните. Едно много често срещано погрешно тълкуване с извличането на данни е, че се мисли за нещо, където се опитваме да извлечем нови данни, но не винаги е вярно. То се отнася и за нещо, където се опитваме да извлечем смисъл от данните, които вече имаме. По този начин, извличането на данни само по себе си е огромно поле, в което следващите няколко абзаца ще се задълбочим в конкретно инструментите в Data Mining. В тази статия ще обсъдим типовете извличане на данни.
Какво е извличане на данни?
Както казахме за извличането на данни по-рано, извличането на данни е процес, при който се опитваме да извлечем най-доброто от данните. Инструментите за извличане на данни действат като мост между данните и информацията от данните. В няколко блога извличането на данни се нарича също откритие на знанието. Тук бихме искали да дадем кратка представа за процеса на внедряване на извличане на данни, така че интуицията зад извличането на данни да е ясна и да стане лесно за читателите. Под диаграмата представлява потока:
В процеса, обсъден по-горе, има инструменти на всяко ниво и бихме се постарали да се потопим в най-важните.
Видове обработка на данни
Извличането на данни може да се извърши върху следните видове данни:
1. Изглаждане (подготвяне на данните)
Този конкретен метод на техника за извличане на данни попада под жанра на подготовката на данните. Основното намерение на тази техника е премахване на шума от данните. Тук алгоритми като прости експоненциални, подвижната средна стойност се използва за премахване на шума. По време на проучвателния анализ тази техника е много удобна за визуализиране на тенденциите / настроенията.
2. Обобщение (подготвяне на данните)
Тъй като терминът предполага, група от данни се агрегира, за да се постигне повече информация. Тази техника се използва за да се направи преглед на бизнес целите и може да се извърши ръчно или с помощта на специализиран софтуер. Тази техника обикновено се използва на големи данни, тъй като големите данни не предоставят необходимата информация като цяло.
3. Обобщение (подготвяне на данните)
Отново, както подсказва името, тази техника се използва за обобщаване на данните като цяло. Това се различава от обобщаването по начин, по който данните по време на обобщаването не се групират заедно, за да се постигне повече информация, но от своя страна целият набор от данни се обобщава. Това ще даде възможност на модела на науката за данни да се адаптира към по-новите точки от данни.
4. Нормализиране (подготвяне на данните)
При тази техника се прилагат специални грижи към точките с данни, така че да бъдат приведени в една и съща скала за анализ. Например възрастта и заплатата на човек падат в различни скали за измерване, поради което начертаването им на графика няма да ни помогне да получим полезна информация за тенденциите, представени като колективна характеристика. Използвайки нормализацията, можем да ги приведем в еднаква скала, така че да може да се извърши сравнение между ябълка и ябълка.
5. Избор на атрибут / функция (подгответе данните)
В тази техника ние използваме методи за извършване на селекция от функции, така че моделът, използван за обучение на наборите от данни, може да предполага стойност за прогнозиране на данните, които не е виждал. Това е много аналогично на избора на подходящо облекло от гардероб, пълен с дрехи, за да се побереш точно за събитието. Неподходящите функции могат да повлияят негативно на производителността на модела, камо ли да подобрят производителността.
6. Класификация (моделиране на данните)
В тази техника на извличане на данни ще разберем групите, познати като „класове“. В тази техника използваме подбраните функции (както е обсъдено в горната точка) колективно към групи / категории. Например, в магазин, ако трябва да преценим дали човек ще купи продукт или не, има „n“ брой функции, които можем колективно да използваме, за да получим резултат от True / False.
7. Проследяване на шаблони
Това е една от основните техники, използвани при извличането на данни за получаване на информация за тенденциите / моделите, които могат да бъдат изложени от точките на данните. Например, можем да определим тенденция на повече продажби през уикенда или празничното време, а не в делнични или работни дни.
8. По-външен анализ или откриване на аномалия
Тук, както и името подсказва, тази техника се използва за намиране или анализ на остатъци или аномалии. Отрицатели или аномалии не са отрицателни точки от данни, те са просто нещо, което се откроява от общата тенденция на целия набор от данни. При идентифициране на остатъците можем или да ги премахнем изцяло от набора от данни, което се случва, когато се извършва подготовката на данни. Или иначе казано, тази техника се използва широко в моделни набори от данни, за да се предскаже също така и други хора.
9. Клъстеризация
Тази техника е доста подобна на класификацията, но единствената разлика е, че не знаем групата, в която точките от данни ще попаднат след групиране след събиране на функции. Този метод обикновено се използва при групиране на хора за насочване към подобни препоръки на продукти.
10. Регресия
Тази техника се използва за прогнозиране на вероятността от функция с наличието на други характеристики. Например, можем да формулираме вероятността от цената на даден артикул по отношение на търсенето, конкуренцията и няколко други характеристики.
11. Невронна мрежа
Тази техника се основава на принципа как работят биологичните неврони. Подобно на това, което правят невроните в човешкото тяло, невроните в невронна мрежа при работа по извличане на данни също действат като единица за обработка и свързване на друг неврон за предаване на информацията по веригата.
12. Асоциация
При този метод за извличане на данни се определя връзката между различни характеристики и се използва от своя страна, за да се намерят скрити модели или свързан анализ, както се изисква от бизнеса. Например, използвайки асоциацията, можем да намерим функции, свързани помежду си и по този начин да наблегнем на премахването на всеки, така че да премахнем някои излишни функции и да подобрим мощността / времето за обработка.
заключение
В заключение, има различни изисквания, които трябва да имате предвид, докато се извършва извличане на данни. Човек трябва да бъде много внимателен какъв ще бъде резултатът, за да може да се използват съответните техники за постигане на целта. Въпреки че извличането на данни е променящо се пространство, ние се опитахме да създадем изчерпателен списък за всички видове инструменти в Data mining по-горе за читателите.
Препоръчителни статии
Това е ръководство за вида на извличането на данни. Тук обсъждаме Въвеждането и Топ 12 вида извличане на данни. Можете да разгледате и другите ни предложени статии -
- Предимства на Data Mining
- Архитектура за добив на данни
- Методи за извличане на данни
- Инструмент за извличане на данни
- Видове модели в обработката на данни