Въведение в извличането на данни

Тук, в тази статия, ще научим за въвеждането в извличането на данни, тъй като хората стопанисват от земята от векове, за да получат всякакви ценни материали. Понякога, докато копаят, нещата се откриват от земята, която никой не е очаквал да намери на първо място. Например през 1898 г. по време на разкопаването на гробница за намиране на мумии в Сакара, Египет, е открит дървен артефакт, който точно прилича на самолет. Датирано е от 200 г. пр. Н. Е., Преди около 2200 години! Но каква възможна информация бихме могли да получим от голям набор от данни? И дори да започнем да го извличаме, има ли шансове за получаване на неочаквани резултати от набора от данни? Преди това нека да разгледаме какво точно представлява Data Mining.

Какво е извличане на данни?

  • Това е основно извличане на жизненоважна информация / знания от голям набор от данни.
  • Мислете за данните като за голяма земна / скална повърхност. Не знаем какво е вътре в него, не знаем дали под скалите има нещо полезно.
  • В това въведение в Data mining търсим скрита информация, но без да имаме представа какъв тип информация искаме да намерим и какво планираме да я използваме за веднъж, я намираме.
  • Точно както в концептуалния традиционен майнинг, и в Data mining също има различни техники и инструменти, което варира в зависимост от вида на Data, който извличаме, Така че изчистихме какво е извличането на данни чрез тази тема за въвеждане в Data mining.

Пример за извличане на данни

Научихме за въвеждането на извличането на данни в горния раздел и сега продължаваме с примерите за извличане на данни, които са изброени по-долу:

  • Така че има оператор на мобилна мрежа. Те се консултират с миньор за данни, за да копаят в записите на повикванията на оператора. На Data Miner не са дадени конкретни цели.
  • Дадена е количествена цел за намиране на поне 2 нови модела за месец.
  • Когато миньорът на данни започва да копае в данните, той открива модел, че в сряда има по-малко международни обаждания в сравнение с други дни.
  • Тази информация се споделя с ръководството и те измислят плана за намаляване на международните тарифи за разговори в сряда и започване на кампания.
  • Цените на повикванията се покачват, клиентите са доволни от ниската цена на разговорите, повече клиенти се регистрират и компанията прави повече пари! Печеливша ситуация!

Имайки предвид горния пример, нека сега разгледаме различните стъпки, свързани с извличането на данни.

Стъпки, участващи в извличането на данни

В горния раздел научихме за въвеждането на извличането на данни и сега се движим напред със стъпките, свързани с извличането на данни, които са изброени по-долу:

  • Бизнес разбиране

В това Въведение в извличането на данни ще разберем всеки аспект на бизнес целите и нуждите. Настоящата ситуация се оценява чрез намиране на ресурси, предположения и други важни фактори. Съответно, създаване на добро въведение в плана за извличане на данни за постигане както на целите на бизнеса, така и на извличането на данни.

  • Разбиране на данни

Първоначално данните се събират от всички налични източници. Тогава ние избираме най-добрия набор от данни, откъдето можем да извлечем данните, които биха могли да бъдат по-полезни.

  • Подготовка на данни

След идентифициране на набора от данни той се избира, почиства, конструира и форматира в желаната форма.

  • Моделиране на данни

Това е процес на прекрояване на дадените данни според изискванията на потребителя. един или повече модели могат да бъдат създадени на подготвения набор от данни и накрая, моделите трябва да бъдат оценени внимателно с участието на заинтересованите страни, за да се гарантира, че създадените модели отговарят на бизнес инициативите.

  • оценка

Този един от най-необходимите процеси в извличането на данни. Това включва преминаване през всеки аспект на процеса, така че да се провери за всяка възможна повреда или изтичане на данни в процеса. Също така, новите бизнес изисквания могат да бъдат повдигнати поради откритите нови модели.

  • разгръщане

Това означава просто да представите знанието по такъв начин, че заинтересованите страни да могат да го използват, когато искат. В горния ни пример беше установено, че международните обаждания в сряда са по-малко, така че тази информация беше представена на заинтересованите страни, които от своя страна използваха тази информация в своя полза и увеличиха печалбите си.

Техники, използвани в извличането на данни

В горния раздел научихме за въвеждането на извличането на данни, сега продължаваме с техниките, използвани в извличането на данни, които са изброени по-долу:

  • Анализ на клъстерите

Анализът на клъстерите дава възможност за идентифициране на дадена потребителска група според общите характеристики в база данни. Тези характеристики могат да включват възраст, географско местоположение, ниво на образование и т.н.

  • Откриване на аномалия

Използва се за определяне кога нещо забележимо се различава от обикновения модел. Използва се за премахване на несъответствия или аномалии в базата данни в източника.

  • Регресионен анализ

Тази техника се използва за извършване на прогнози въз основа на взаимовръзките в набора от данни. Например, може да се предвиди борсовия курс на определен продукт, като се анализира миналата норма, а също и като се вземат предвид различните фактори, които определят борсовия курс. Или както е показано по-долу, ако разполагаме с данните за височината и теглото на различни лица, тогава като имаме предвид височина или тегло, бихме могли да определим другата стойност.

  • класификация

Това се занимава с нещата, върху които има етикети. Забележете при откриването на клъстери, нещата не са имали етикет в него и с помощта на извличане на данни трябваше да маркираме и оформяме в клъстери, но в класификацията съществува налична информация, която лесно може да бъде класифицирана с помощта на алгоритъм. Пример за това са филтрите за спам по имейл. Спам филтърът е снабден както с подходящи, така и със спам съобщения (Training Data). Разликите между тях са идентифицирани, като по този начин му позволяват правилно да класифицира бъдещите имейли.

  • Асоциативно обучение

Използва се за анализ на кои неща са склонни да се случват заедно по двойки или по-големи групи. Например хората, които са склонни да купуват лимони, купуват и портокали, хората, които са склонни да купуват хляб, също купуват мляко и т.н. Така покупките, направени от всички клиенти, се анализират и нещата, които се случват заедно, се поставят близо един до друг, за да се увеличат продажбите. Така млякото се поставя близо до хляба, лимоните се поставят редом с портокалите и т.н.

Етичен ли е извличането на данни?

Така че, аз планирам екскурзия през уикенда до Гоа с приятел, търся интернет в добри места за посещение в Гоа. Следващия път, когато отворя интернет, намирам реклами за различни хотели в Гоа за престой.

  • Добро нещо?

Да, интернет ми помогна да опростя пътуването си. В крайна сметка, ако реша да посетя Гоа, ще трябва да спя някъде и реклама, показваща ми хотел, е много по-полезна от реклама, показваща ми случайни дрехи, които да купя.

  • Лошо нещо?

Да! Защо една компания за добив на данни, за която никога не съм чувал досега, знае къде отивам на почивка. Ами ако не съм казал на никого за това пътуване, но тук интернет внезапно знае, че отивам там. Истината е, че бизнес моделът на компанията за извличане на данни зависи от това. Те събират тези данни чрез бисквитки и скриптове, след което ги продават на рекламодатели, които от своя страна се опитват да ми продадат нещо друго (В случая хотелска стая).

Така че може да е добро или лошо в зависимост от начина, по който го гледаме. Също така винаги можем да изключим бисквитките или да отидем в режим „инкогнито“ в горния случай. Въпреки че каквото и да е, едно нещо е сигурно. Извличането на данни е тук, за да остане.

Препоръчителни статии

Това е ръководство за Въведение в извличането на данни. Тук обсъждаме неговия смисъл, техники и стъпки, свързани с въвеждането на извличане на данни с пример за по-добро разбиране. Можете също да разгледате следните статии, за да научите повече -

  1. Въпроси за интервю за обработка на данни
  2. Прогнозна Анализ срещу Извличане на данни
  3. Въведение в науката за данните
  4. Какво е регресионен анализ?

Категория: