Разлики между Text Mining vs Text Analytics

Структурираните данни съществуват там от началото на 1900 г., но това, което направи извличането на текст и анализа на текста толкова специално, е, че използването на информацията от неструктурирани данни (обработка на естествен език). След като успеем да преобразуваме този неструктуриран текст в полуструктурирани или структурирани данни, ще бъде на разположение да се прилагат всички алгоритми за извличане на данни напр. Алгоритми за статистическо и машинно обучение.

Дори Доналд Тръмп беше в състояние да използва данните и да ги преобразува в информация, която му помогна да спечели изборите за президент на САЩ, а в общи линии той не го направи подчинените му. Има много добра статия там http://fivethirtyeight.com/features/the-real-story-of-2016/ можете да преминете през нея.

Много фирми са започнали да използват извличане на текст, за да използват ценни данни от текста, наличен там, например, компания, базирана на продукти, може да използва данните от туитър / Facebook, за да знае колко добре или лошо се справя техният продукт там по света, използвайки Sentimental Анализ. В ранните дни обработката използваше много време, дни, всъщност за обработка или дори за изпълнение на алгоритмите за машинно обучение, но с въвеждането на инструменти като Hadoop, Azure, KNIME и други големи софтуерни програми за обработка на данни извличането на текст придоби огромна популярност на пазара. Един от най-добрите примери за анализиране на текст, използващ асоциация за добив, е двигателят на Amazon’s Препоръка, където той автоматично дава препоръки на своите клиенти какво още купуват други хора, когато купуват някой конкретен продукт.

Едно от най-големите предизвикателства за прилагането на инструменти за извличане на текст към нещо, което не е в цифров формат / на компютърно устройство, е процесът на неговото създаване. Старите архиви и много важни документи, които са достъпни само на хартия, понякога се четат чрез OCR (оптично разпознаване на символи), които имат много грешки, а понякога данните се въвеждат ръчно, което е предразположено към човешки грешки. Причината да искаме това е, че може да успеем да извлечем други прозрения, които не се виждат от традиционното четене.

Някои от стъпките за извличане на текст са както по-долу

  • Извличане на информация
  • Подготовка и почистване на данни
  • сегментиране
  • токанизация
  • Числата със стоп-думи и премахване на препинателни знаци
  • Изхождайки
  • Преобразуване в малки букви
  • POS маркиране
  • Създайте текстов корпус
  • Термин-матрица на документа

И по-долу са стъпките в Text Analytics, които се прилагат след като се подготви матрицата за термин

  • Моделиране (Това може да включва инфекциозни модели, прогнозни модели или предписателни модели)
  • Обучение и оценка на модели
  • Приложение на тези модели
  • Визуализиране на моделите

Единственото нещо, което винаги трябва да се помни е, че извличането на текст винаги предхожда анализа на текста.

Сравнение между главата на Text Mining и Text Analytics (Инфографика)

По-долу е 5-те сравнения между прогнозирането на текстовия майнинг и текстовия анализ

Ключови разлики между Text Mining vs Text Analytics

Нека да разграничим текстовото извличане и текстовата анализа въз основа на стъпките, които участват в няколко приложения, при които се прилагат и тези, и тези за анализиране на текст, и двете:

• Класификация на документите
По този начин стъпките, които са включени в извличането на текст, са токенизация, определяне и лематизация, премахване на стопсбук и пунктуация и накрая изчисляване на термина честотна матрица или честотни матрици на документа.

Токенизация - Процесът на разделяне на цели данни (корпус) на по-малки парчета или по-малки думи, обикновено единични думи, е известен като токенизация (N-Gram модел или Bag of words Model)

Стеммиране и лематизация - Например думите, големи и големи, означават едно и също и ще образуват дублиращи се данни, за да запазим излишните данни, правим лематизация, свързване на думи с коренната дума.
Премахване на стоп думи - Стоп думите не са полезни в аналитиката, която ще включва думи като е,, и т.н.

Термин честоти - Това е матрица, която има заглавки на редове като имена на документи и колони като термини (думи), а данните са честотата на думите, срещащи се в тези конкретни документи. По-долу е примерен екран.

На горната фигура имаме атрибутите в редовете (думите) и номера на документа като колони и честотата на думите като данни.

Сега стигайки до анализа на текста имаме следните стъпки, които трябва да бъдат взети предвид

Клъстериране - Използвайки кластеризиране на K-средства / Невронни мрежи / CART (дървета за класификация и регресия) или който и да е друг алгоритъм за клъстериране, сега можем да клъстеризираме документите въз основа на генерираните функции (тук са думите).

Оценка и визуализация - Изграждаме клъстера в две измерения и гледаме как тези клъстери се различават един от друг, и ако моделът държи добре на тестовите данни, можем да го разгърнем в производството и ще бъде добър класификатор на документи, който ще класифицира всеки нов документи, които се дават като вход и просто ще назове клъстера, в който ще попадне.

• Анализ на чувството

Един от най-мощните инструменти на пазара, които помагат при обработката на данните от Twitter или Facebook или други данни, които могат да бъдат използвани за извличане на настроението от него, дали настроението е добро, лошо или неутрално към всеки конкретен процес / продукт или човек е анализ на настроенията.
Източникът на данните може да бъде лесно достъпен, като използвате Twitter API / Facebook API, за да получите туитовете / коментари / харесвания и т.н. в туитър или публикация на компания. Основният проблем е, че тези данни са трудни за структуриране. Данните ще съдържат и различни реклами, а ученият по данни, който работи за компанията, трябва да се увери, че подборът на данни е извършен по правилния начин, така че само избраните туитове / публикации преминават през етапите на предварителна обработка.
Други инструменти включват Web-Scraping, това е част от извличане на текст, в която бракувате данните от уебсайтове с помощта на роботи.
Процесът на извличане на текст остава същият като токенизацията, установяването и лематизацията, премахването на стопсбук и пунктуацията и най-сетне изчислението, термина честотна матрица или честотни матрици на документа, но единствената разлика идва при прилагането на анализа на настроенията.
Обикновено даваме оценка на всеки пост / туит. Обикновено, когато купувате продукт и преглеждате, ако също така имате възможност да дадете звезди на рецензията и да публикувате коментар. Google, Amazon и други уебсайтове използват звездите, за да оценят коментара, не само това, те също приемат туитовете / публикациите и ги дават на хората, за да го оценят като добър / лош / неутрален и при комбинирането на тези два резултата генерират нов резултат към всеки конкретен туит / публикация.
Визуализацията на анализа на настроенията може да се извърши с помощта на слово облак, лентови диаграми на честотната матрица.

• Асоциация на минния анализ

Едно от приложенията, върху които някои момчета работеха, беше „вероятностният модел на нежеланите лекарствени събития“, където човек може да провери за кои нежелани събития може да причини други нежелани събития, ако приеме определено лекарство.
Извличането на текст включваше работния процес по-долу

От горната фигура можем да видим, че до извличане на данни всички стъпки принадлежат на извличане на текст, което идентифицира източника на данни, извлича ги и след това го подготвя за анализ.

След това, прилагайки асоциация за майнинг, имаме следния модел
Както можем да видим, че някои маркировки със стрелка сочат към оранжевия кръг и след това една стрелка сочи към някое конкретно ADE (Нежелано лекарствено събитие). Ако вземем пример от лявата долна страна на изображението, можем да открием апатия, астения и чувство за необичайност, което води до чувство на вина, добре че може да се каже, че това е очевидно, това е очевидно, защото като човек можете да интерпретирате и отнасяте, но тук машина го интерпретира и ни дава следващото неблагоприятно лекарствено събитие.

Пример за думата облак е както по-долу

Таблица за сравнение между Text Mining vs Text Analytics

По-долу са списъците с точки, опишете сравненията между Text Mining и Text Analytics:

Основа за сравнениеText MiningText Analytics

значение

Извличането на текст е основно почистване на данни, за да бъдат достъпни за анализиране на текстText Analytics прилага статистически и машинни техники за обучение, за да може да прогнозира / предписва или извежда всяка информация от текстовите данни.

понятие

Извличането на текст е инструмент, който помага при изчистване на данните.Text Analytics е процесът на прилагане на алгоритмите

рамка

Ако говорим за рамката, извличането на текст е подобно на ETL (Extract Transform Load), което означава, че да можем да вмъкнем данни в базата данни, тези стъпки се извършватВ текстовата анализа тези данни се използват за добавяне на стойности към бизнеса, например създаване на облачни думи, честотни диаграми в две грамове, N-грамове в някои случаи

език

Python и R са най-известните инструменти за добив на текст тамЗа текстова анализа, след като данните са достъпни на ниво база данни, тогава можем да използваме някой от софтуера за анализи, включително python и R. Другият софтуер включва Power Power, Azure, KNIME и т.н.

Примери

  • категоризация на текст
  • групиране на текст
  • извличане на концепция / образувание
  • анализ на настроенията
  • обобщение на документа
  • производство на гранулирани таксономии
  • Моделиране на отношенията между субектите
  • Анализ на асоциацията
  • визуализация
  • прогнозна анализа
  • извличане на информация
  • лексикален анализ
  • разпознаване на шаблон
  • маркиране / анотация

Заключение -Text Mining vs Text Analytics

Бъдещето на извличането на текст и текстовата анализа е приложимо не само за английския, но също така има непрекъснат напредък и използването на езикови инструменти не само английските други езици са твърде обмислени за анализ.

Обхватът и бъдещето на извличането на текст ще нарастват, тъй като има ограничени ресурси за анализ на други езици.

Text Analytics има много широк обхват, където може да се приложи, някои от примерите за индустриите, в които това може да се използва, са:

  • Мониторинг на социалните медии
  • Фарма / Биотехнически приложения
  • Бизнес и маркетингови приложения

Препоръчителен член

Това е ръководство за разликата между Text Mining и Text Analytics, тяхното значение, сравнение между главата, ключови разлики, таблица за сравнение и заключение. Можете също да разгледате следните статии, за да научите повече -

  1. Azure Paas срещу Iaas - открийте разликите
  2. Най-добрите 3 неща, които трябва да научите за Mining vs Text Mining
  3. Знайте най-добрите 7 разлика между Data Mining VS анализ на данни
  4. Бизнес интелигентност срещу машинно обучение - кой е по-добър
  5. Прогнозна аналитика срещу извличане на данни - кой е по-полезен

Категория: