Какво е Анализ на данни - Различни видове Анализ на данни

Съдържание:

Anonim

Какво е Анализ на данни?

Data Analytics е процес на откриване на ключови изводи и ценни изводи от огромно количество данни, събрани или събрани от различни източници в подкрепа на вземането на решения. Повишена изчислителна мощност, висока скорост на обработка. Появата на интерактивни интерфейси за крайни потребители и доказана ефективност на разпределената изчислителна парадигма за обработка на големи парчета от данни, направени анализиране на данни, за да се развие във всички области, особено на дребно, банкиране, здравеопазване, логистика, отбрана, публична администрация и др.

Видове анализи на данни

Процесът на анализ на данни е субективно категоризиран в три типа въз основа на целта на анализ на данните като

  • Описателен анализ
  • Предсказуем анализ
  • Предписващ анализ

Характеристиките на горепосочените типове Google Анализ са описани по-долу:

1. Описателен анализ

Описателната Analytics се фокусира върху обобщаването на минали данни, за да се извлекат изводи. Най-често използваните мерки за характеризиране на разпределението на исторически данни количествено включва

  • Мерки за централна тенденция - средно, средно, квартили, режим.
  • Мерки за променливост или разпространение - обхват, междуквартилен диапазон, проценти.

В последно време трудностите и ограниченията, свързани с събирането, съхраняването и осмислянето на масивни масиви от данни, се преодоляват с процеса на статистически изводи. Обобщените изводи за статистическите данни за популацията се извеждат чрез използване на методи за вземане на извадки заедно с прилагането на централна теория за ограничаване.

Водещ телевизионен оператор събира подробности за гласовете на избрани на случаен принцип избиратели на изхода на анкета в изборния ден, за да извлече статистически изводи за предпочитанията на цялото население.

Многократното вземане на проби от набор от данни за популация води до парчета от проби с достатъчно голям размер на извадката. Обикновено се предпочита клъстерната извадка, за да се генерират добре стратифицирани, безпристрастни представители на данните от популацията. Статистическата мярка за интерес се изчислява на парчетата от извадките, за да се получи разпределение на статистическите стойности на извадката, наречено разпределение на извадката. Характеристиките на разпределението на извадката са свързани с тези на набора от данни на популацията, използвайки централна ограничителна теория.

2. Предсказуем анализ

Predictive Analytics използва модели в исторически или минали данни, за да оцени бъдещите резултати, да идентифицира тенденциите, да разкрие потенциални рискове и възможности или да прогнозира поведението на процеса. Тъй като случаите на използване на прогнозата са правдоподобни, тези подходи използват вероятностни модели за измерване на вероятността от всички възможни резултати.

ChatBot в Портала за обслужване на клиенти на финансовата фирма проактивно научава намерението или необходимостта на клиентите да се основава на предишните му дейности в уеб домейна му. С прогнозирания контекст, chatBot интерактивно се конвертира с клиента, за да достави бързо услуги и да постигне по-добро удовлетворение на клиентите.

В допълнение към сценариите за екстраполация, за да се предскаже какво ще се случи в бъдеще въз основа на налични минали данни, има малко приложения, които предполагат пропуснати записи с помощта на налични проби от данни. Това приближение на пропуснатите стойности в обхвата на дадени проби от данни технически се нарича Интерполация.

Мощно приложение за редактор на изображения поддържа реконструкция на пропуснати части от текстурата поради супер-наложен текст чрез интерполиране на функция функция в пропуснатия блок. Функцията функция може да се интерпретира като математическа обозначение на модели в текстурата на изкривено изображение.

Значителните фактори, които влияят върху избора на прогнозни модели / стратегии са:

  • Точност на прогнозата: Това предава степента на близост между прогнозната стойност и действителната стойност. По-ниската дисперсия на разликата между прогнозна стойност и действителна стойност предполага по-висока точност на прогнозиращия модел.
  • Скорост на прогнозите: Приоритет е висок в приложенията за проследяване в реално време
  • Степен на обучение на модела: Зависи от сложността на модела и изчисленията, участващи в изчисляването на параметрите на модела.

3. Предписващ анализ

Прескриптивният Анализ използва знанията, открити като част както от описателен, така и от прогнозиращ анализ, за ​​да препоръча контекстно съобразен ход на действията. За да се разбере разпределението на прогнозните прогнози се прилагат усъвършенствани статистически техники и изчислително-интензивни методи за оптимизация.

При точни условия се оценява въздействието и ползата от всеки резултат, които се оценяват по време на прогнозна анализа, за да се вземат евристични и чувствителни към времето решения за даден набор от условия.

Консултантска фирма за борсов пазар извършва SWOT (сила, слабост, възможности и заплаха) анализ на прогнозираните цени за акции в портфолиото на инвеститорите и препоръчва най-добрите опции за покупка и продажба на своите клиенти.

Обработка на потока в Анализ на данни

Процесът на анализиране на данни има различни етапи на обработка на данните, както е обяснено по-долу:

1. Извличане на данни

Поемането на данни от множество източници на данни от различни видове, включително уеб страници, бази данни, наследени приложения, води до входни набори от данни в различни формати. Форматите на данни, въведени в потока за анализ на данни, могат да бъдат широко класифицирани като

  • Структурираните данни имат ясна дефиниция на типовете данни, заедно с свързаната дължина на полето или разделители на полето. Този тип данни могат да бъдат лесно запитвани като съдържанието, съхранявано в релационната база данни (RDBMS)
  • На полуструктурираните данни липсва точно определение на оформлението, но елементите от данни могат да бъдат идентифицирани, разделени и групирани въз основа на стандартна схема или други правила за метаданни. XML файлът използва маркиране, за да съхранява данни, докато Javascript обектният файл с обозначения (JSON) съхранява данни в двойки име-стойност. NoSQL (Не само SQL) бази данни като MongoDB, но и диван база също се използват за съхранение на полуструктурирани данни.
  • Неструктурираните данни включват разговори в социалните медии, изображения, аудиоклипове и др. Традиционните методи за анализ на данни не разбират тези данни. Неструктурирани данни се съхраняват в езера с данни.

Внедряването на анализ на данни за структурирани и полуструктурирани данни е включено в различни ETL инструменти като Ab Initio, Informatica, Datastage и алтернативи с отворен код като Talend.

2. Почистване и трансформация на данни

Почистването на анализирани данни се извършва, за да се гарантира съгласуваността на данните и наличието на подходящи данни за по-късните етапи в процеса на процеса. Основните операции за почистване в анализа на данни са:

  • Откриване и елиминиране на остатъците в обемите от данни
  • Премахване на дубликати в набора от данни
  • Работа с липсващи записи в записи на данни с разбирането на функционалността или случаите на използване
  • Валидирането на допустимите стойности на полета в записи на данни като „31 февруари“ не може да бъде валидна стойност в нито едно от полетата за дата.

Почистените данни се трансформират в подходящ формат за анализ на данните. Трансформациите на данни включват

  • Филтър от нежелани записи на данни.
  • Присъединяване към данните, получени от различни източници.
  • Обобщаване или групиране на данни
  • Предаване на данни

3. Извличане на KPI / Insight

Извличане на данни, методи за задълбочено обучение се използват за оценка на ключови показатели за ефективност (KPI) или извличат ценна информация от почистените и трансформирани данни. Въз основа на целта на аналитиката анализът на данните се извършва с помощта на различни техники за разпознаване на модели като к-средства на клъстеринг, SVM класификация, байесови класификатори и др. И модели на машинно обучение като Марковски модели, Гаусови модели на смеси (GMM) и др.

Вероятните модели в тренировъчната фаза научават оптимални параметри на модела, а във фазата на валидиране моделът се тества с помощта на k-кратно кръстосано тестване за избягване, за да се избегнат грешки при прекалено прилепване и недостатъчно прилягане.

Най-често използваният програмен език за анализ на данни са R и Python. И двете имат богат набор от библиотеки (SciPy, NumPy, Pandas), които са отворени за извършване на сложен анализ на данни.

4. Визуализация на данни

Визуализацията на данните е процесът на ясно и ефективно представяне на непокрити модели, извлечени изводи от данните, като се използват графики, графики, табла и графики.

  • Инструменти за отчитане на данни като QlikView, Tableau и т.н., показват KPI и други производни показатели на различни нива на детайлност.
  • Инструментите за отчитане дават възможност на крайните потребители да създават персонализирани отчети с въртящи се, подробни опции с помощта на удобни за плъзгане и изпускане интерфейси
  • Интерактивните библиотеки за визуализация на данни като D3.js (документи, управлявани от данни), HTML5-Anycharts и т.н. се използват за увеличаване на способността за изследване на анализирани данни

Препоръчителни статии

Това е ръководство за Какво е Анализ на данни. Тук обсъдихме различните видове анализи на данни с потока на процеса. Можете също да прегледате и други предложени статии, за да научите повече -

  1. Въпроси и отговори за интервю на анализатор на данни
  2. Какво е визуализация на данни?
  3. Какво представлява анализа на големи данни?
  4. Какво е Minitab?