Разлика между Малки данни и големи данни

Малки данни, не са нищо друго освен данните, които са достатъчно малки изчерпателни за човека в обем, а също и за форматиране, които го правят достъпни, информативни и приложими. Традиционната обработка на данни не може да се справи с големи или сложни данни; тези данни се наричат ​​големи данни. Когато обемът на данни нарасне над определен лимит, традиционните системи и методологии не са достатъчни за обработка на данни или трансформиране на данни в полезен формат. Ето защо данните като цяло се категоризират на две - Small Data vs Big Data

Сравнение между главата на малките данни и големите данни (Информационни графики)

По-долу е топ 10 Разлика между малки данни и големи данни

Ключови разлики между малките данни срещу големите данни

  • Събиране на данни - Обикновено малките данни са част от OLTP системите и се събират по по-контролиран начин, след което се вмъкват в кеширащия слой или базата данни. Базите данни ще имат прочетени реплики, за да поддържат незабавни заявки за анализи, ако е необходимо. Тръбопроводът за събиране на големи данни ще има опашки като AWS Kinesis или Google Pub / Sub, за да балансира данните с висока скорост. Надолу ще има поточни тръбопроводи за анализи в реално време и партидни задачи за студена обработка на данни.
  • Обработка на данни - Тъй като повечето от малките данни, генерирани чрез транзакционната система, анализите отгоре ще бъдат ориентирани партидно през повечето време. В някои редки случаи заявките за анализ се изпълняват директно върху системите за транзакции. Средата с големи данни ще има както тръбопроводи за пакетна, така и поточна обработка. Поток се използва за анализи в реално време като откриване на измами с кредитни карти или прогнозиране на цената на акциите. Партидна обработка, използвана за прилагане на сложна бизнес логика с данни и усъвършенствани алгоритми.
  • Мащабируемост - Малките системи за данни обикновено скалират вертикално. Вертикалното мащабиране увеличава капацитета на системата чрез добавяне на повече ресурси към една и съща машина. Вертикалното мащабиране е скъпо, но по-малко сложно за управление. Системите с големи данни зависят най-вече от хоризонтално мащабируема архитектура, която дава по-голяма гъвкавост при по-малки разходи. Предлаганите виртуални машини в облака правят хоризонтално мащабируемите системи още по-достъпни.
  • Моделиране на данни - Малки данни, генерирани от транзакционни системи, ще бъдат в нормализиран вид.ETL (Extract Transform Load) тръбопроводи за данни го превръщат в схема на звезда или снежинка в хранилище с данни. Тук схемата винаги се налага при писане на данни, което е сравнително лесно, тъй като данните са по-структурирани. Както бе споменато по-горе, табличните данни са само част от Big Data. Тук данните се възпроизвеждат много повече поради различни причини, като предаване на отказ или поради някакво ограничение на основната машина на базата данни (Например, някои бази данни поддържат само един вторичен индекс за набор от данни). Схемата не се налага при писане. Вместо това се валидира схема, докато се четат данни.
  • Съчетаване на съхранение и изчисления - В традиционните бази данни, които работят предимно с малки данни, съхранението и изчисленията са плътно свързани. Вмъкването и извличането на данни от и от базата данни е възможно само чрез дадения интерфейс. Данните не могат да бъдат поставени директно във файловата система на базата данни или съществуващите данни не могат да бъдат заявявани с други двигатели на DB. Всъщност тази архитектура значително помага да се гарантира целостта на данните. Системите с големи данни имат много слабо свързване между съхранение и изчисление. Обикновено данните се съхраняват в разпределена система за съхранение на данни като HDFS, AWS S3 или Google GCS и се изчислява двигател за заявка на данни или да се избере ETL по-късно. Например, интерактивните заявки могат да се изпълняват с помощта на Presto (Link) и ETL, като се използват Apache Hive на едни и същи данни.
  • Наука за данни - Алгоритмите за машинно обучение изискват входни данни в добре структуриран и правилно кодиран формат и по-голямата част от входните данни ще бъдат от двете транзакционни системи като склад за данни и съхранение на големи данни като езеро за данни. Алгоритмите за машинно обучение, работещи единствено върху малки данни, ще бъдат лесни, тъй като етапът на подготовка на данни е тесен. Подготовката и обогатяването на данни в средата на Big Data отнема много повече време. Големите данни дават много възможности за експерименти с научни данни поради големия обем и разнообразие от данни.
  • Сигурност на данните - практики за защита на малки данни, които се намират в корпоративни хранилища на данни или системи за транзакции, предоставени от съответните доставчици на бази данни, които могат да включват потребителски привилегии, криптиране на данни, хеширане и др. Най-добрите практики за сигурност включват криптиране на данни в покой и транзит, изолиране на клъстерна мрежа, строги правила за контрол на достъпа и др.

Таблица за сравняване на малки данни срещу големи данни

Основа за сравнениеМалки данниГоляма информация
дефиницияДанни, които са „малки“, достатъчни за човешкото разбиране. В обем и формат, които го правят достъпни, информативни и изпълнимиНабори от данни, които са толкова големи или сложни, че традиционните приложения за обработка на данни не могат да се справят с тях
Източник на данни● Данни от традиционните корпоративни системи като
Planning Планиране на ресурсите на предприятието
Management управление на взаимоотношенията с клиенти (CRM)
● Финансови данни като общи данни
● Данни за платежни транзакции от уебсайт
● Данни за покупка от място на продажба
● Clickstream данни от уебсайтове
● Данни от GPS поток - Данни за мобилност, изпратени до сървър
● Социални медии - фейсбук, туитър
Сила на звукаПовечето случаи в диапазон от десетки или стотици GB.Някои случаи малко TBs (1 TB = 1000 GB)Повече от няколко терабайта (TB)
Скорост (Скорост, с която се показват данни)● Контролиран и постоянен поток от данни
● Натрупването на данни е бавно
● Данните могат да пристигат с много бързи скорости.
● Огромни данни могат да се натрупват за много кратки периоди от време
разнообразиеСтруктурирани данни в табличен формат с фиксирана схема и полуструктурирани данни във формат JSON или XMLНабори от голямо разнообразие от данни, които включват таблични данни, текстови файлове, изображения, видео, аудио, XML, JSON, дневници, данни от сензори и др.
Вярност (Качество на данните)Съдържа по-малко шум като данни, събрани по контролиран начин.Обикновено качеството на данните не е гарантирано. Преди обработката се изисква строга проверка на данните.
стойностБизнес анализ, анализ и отчитанеСложно извличане на данни за прогнозиране, препоръки, намиране на модели и т.н.
Вариант на времетоИсторическите данни, еднакво валидни като данните, представляват стабилни бизнес взаимодействияВ някои случаи данните остаряват скоро (Откриване на измами).
Местоположение на данниБази данни в предприятие, локални сървъри и т.н.Най-вече в разпределени съхранения в Cloud или във външни файлови системи.
инфраструктураПредсказуемо разпределение на ресурсите. Най-вертикално мащабируем хардуерПо-гъвкава инфраструктура с хоризонтално мащабируема архитектура. Натоварването в системата варира много.

Заключение - Малки данни срещу големи данни

Крайната цел за анализ на данни, за да получите навременна информация за подкрепа на вземането на решения. Категоризирането на данни в малки и големи помага за справяне с предизвикателствата при анализиране на данните за всеки свят поотделно с подходящи инструменти. Линията между две категории варира с възникващите модерни системи за обработка на данни, което прави дори голямото търсене на данни много по-бързо и по-малко сложно.

Препоръчани статии:

Това е ръководство за малките данни срещу големите данни, тяхното значение, сравнение между главата, ключови разлики, таблица на сравнението и заключение. тази статия включва всички важни разлики между малките данни и големите данни. Можете също да разгледате следните статии, за да научите повече -

  1. Big Data vs Data Science - как са различни?
  2. Големи данни: Важното за сближаването на технологиите и бизнес анализа
  3. Топ 5 големи тенденции на данни, които компаниите ще трябва да овладеят
  4. 16 интересни съвета за превръщането на големи данни към голям успех

Категория: