Въведение в Data Lake vs Data Warehouse

Data Lake vs Data Warehouse са термините, които се използват взаимозаменяемо, но има разлики между тези два термина. Представихме по-долу диаграмата, за да разберем разликата на високо ниво между тези две и много скоро ще разгледаме подробно за всяка една от тях.

Какво е Data Lake?

Data Lake е вид хранилище за съхранение, което се състои само от сурови данни, които са под формата на структуриран, полуструктуриран и неструктуриран формат. Езерото с данни се използва най-вече от Data Scientist и инженери за машинно обучение, тъй като им помага да отговорят на въпроси, които все още не са отговорили или може би създават въпрос, който все още не е известен. Той съдържа богат набор от данни с различни видове и когато те са интегрирани, те се оказват много полезни по отношение на прогнозиращото моделиране, което се използва най-вече за изграждане на модели за машинно обучение.

Какво е склад за данни?

Склад за данни е централизирано място за съхранение на трансформираните данни, които са направени в структуриран формат, преди да се съхранят в хранилището с данни. Складът за данни може да съдържа данни от множество източници на данни, които се зареждат с помощта на ETL процеса в склада и след това се използват за целите на Business Intelligence.

Сравнение между главата на Data Lake и Data Warehouse (Инфографика)

По-долу са горните 14 разлики между Data Lake vs Data Warehouse

Ключови разлики

Има основни ключови разлики между данните езеро спрямо хранилището на данните са дадени по-долу:

  • Състои се от неструктурирани и структурирани данни от различни платформи, като сензори, приложения и уебсайтове и др. Състои се най-вече от релационни данни от RDBMS, DBMS системи и други оперативни бази данни и приложения.
  • Data Lake е обработка на схема за четене. Съхранението на данни е обработка по схема на запис.
  • Той е изключително пъргав. Той е по-малко пъргав.
  • Конфигурацията е лесна и може да се адаптира към промените. Има фиксирана конфигурация и е много трудно да се промени.
  • Използва се предимно от AI учени и специалисти по машинно обучение. Използва се от бизнес професионалисти.

Таблица за сравнение между Data Lake vs Data Warehouse:

Нека да обсъдим най-високата разлика между Data Lake vs Data Warehouse

ХарактеристикиData LakeСклад за данни
съхранениеДанните се съхраняват в суровия си вид в Data Lake и тук всички данни се съхраняват независимо от източника на данните. Те се трансформират в други форми само когато се налага.Складът за данни се състои от данни, които се извличат от транзакционни и други метрични системи. Тук данните не са в суров вид и винаги се трансформират и чисти.
Използване и предназначениеОсновната цел на Data Lake са учените на данни, големите разработчици на данни и инженерите за машинно обучение, които трябва да направят задълбочен анализ, за ​​да създадат модели за бизнеса, като прогнозно моделиране.Основната цел на Data Warehouse са оперативните потребители, тъй като тези данни са в структуриран формат и могат да предоставят готови за изграждане на отчети. Така че те се използват най-вече за бизнес разузнаване.
Въвеждане на данниОсновните входове в данните Lake са всички видове данни като структурирани, полуструктурирани и неструктурирани данни. Тези данни се намират в данните Lake в оригиналния им вид.Основните входове в хранилището на данни са структурирани данни, които идват от транзакционни и метрични системи, които след това се организират под формата на схеми.
Качество на даннитеСъстои от сурови данни, които могат или не могат да бъдат курирани.Състои се от курирани данни, които са централизирани и са готови да бъдат съдени за целите на бизнес разузнаването и анализа.
нормализиранеТук данните не са в нормализирана форма.Денормализирани схеми
историяТехнологиите, които се използват в езера с данни като Hadoop, Machine Learning, са сравнително нови в сравнение със склада за данни.Тук технологията, която се използва за склад на данни, е по-стара.
Времева линия на даннитеЕзерото с данни може да има всякакви данни и може да се използва, като се има предвид миналото, настоящето и перспективите.Що се отнася до хранилището на данни, тук по-голямата част от времето се отделя за анализ на различни източници на данни.
време за обработкаТук времето за обработка при анализиране и получаване на резултати от данните Lake е много по-малко от това на Data Warehouse, тъй като тук данните се съхраняват под формата на необработени данни и тези не са в трансформиран формат и в резултат на това ние отрязваме времето което може да се изразходва за преобразуване на данните. Можем просто да вземем данните такива, каквито са, и да направим основно почистване и да започнем да изграждаме нашите модели.В случай на склад за данни, времето, което се изразходва за обработка, е повече в сравнение с езерото с данни. Причината за това е, че първо трябва да се трансформират данните във всеки склад на данни и след това да бъдат анализирани.
Разходи за съхранениеРазходите за съхранение тук в технологиите на езерото за данни са сравнително по-ниски от тези на хранилището на данни и също са по-малко време.Цената за съхранение в технологиите за съхранение на данни е повече в сравнение с езерото с данни. Това е така, защото се нуждае от повече хранилище за трансформираните данни, тъй като първо трябва да съхранява суровите данни и след това да ги преобразува, за да присвои различни полета според структурата на хранилището на данни.
СъвместимостТук данните винаги се съхраняват в необработен формат и се трансформират само когато се изисква или когато са готови за използване.Тук данните се съхраняват в трансформиран формат и може да се сблъскаме с проблеми, когато се опитаме да направим някакви промени.
ДостъпностДанните в езерото с данни са много достъпни и могат бързо да се актуализират.Данните в хранилището на данни са по-сложни и изисква повече разходи, за да внесете каквито и да било промени в тях, достъпността също е ограничена само за оторизирани потребители.
Позиция на схематаСхемата се създава най-вече след съхраняване на данните. Това носи висока ловкост.Тук схемата се създава предимно преди съхранението на данни.
Процес на обработкаЕзерото с данни използва процеса ELT, т.е. извличане, зареждане и трансформиране.Складът за данни използва традиционния подход на ETL т.е. извличане, трансформиране и зареждане.
ПолзиData Lake води до нови изобретения, тъй като интеграцията обединява различни видове данни и също така дава отговори на много въпроси без отговор.Повечето от организационните потребители участват в оперативните дейности, а складът на данни предоставя една такава блестяща платформа за създаване на отчети и показатели върху преобразувани данни.

заключение

В тази публикация научихме за Data Lakes vs Data Warehouse. Ние също продължихме и сравнихме и двете на базата на различни параметри. Това трябва да помогне на всеки обучаем да добие основна идея зад технологиите, които поддържат Data Lake и Data Warehouse.

Препоръчителни статии

Това е ръководство за най-високата разлика между Data Lake vs Data Warehouse. Тук сме обсъдили ключовите разлики в Data Lake vs Data Warehouse с инфографика и таблица за сравнение. Може да разгледате и следните статии, за да научите повече -

  1. Scrum срещу водопад - Топ разлики
  2. MySQL срещу MySQLi - кой е по-добър?
  3. Микропроцесор срещу микроконтролер
  4. Въпроси за интервю за моделиране на данни

Категория: