Въведение в Data Lake vs Data Warehouse
Data Lake vs Data Warehouse са термините, които се използват взаимозаменяемо, но има разлики между тези два термина. Представихме по-долу диаграмата, за да разберем разликата на високо ниво между тези две и много скоро ще разгледаме подробно за всяка една от тях.
Какво е Data Lake?
Data Lake е вид хранилище за съхранение, което се състои само от сурови данни, които са под формата на структуриран, полуструктуриран и неструктуриран формат. Езерото с данни се използва най-вече от Data Scientist и инженери за машинно обучение, тъй като им помага да отговорят на въпроси, които все още не са отговорили или може би създават въпрос, който все още не е известен. Той съдържа богат набор от данни с различни видове и когато те са интегрирани, те се оказват много полезни по отношение на прогнозиращото моделиране, което се използва най-вече за изграждане на модели за машинно обучение.
Какво е склад за данни?
Склад за данни е централизирано място за съхранение на трансформираните данни, които са направени в структуриран формат, преди да се съхранят в хранилището с данни. Складът за данни може да съдържа данни от множество източници на данни, които се зареждат с помощта на ETL процеса в склада и след това се използват за целите на Business Intelligence.
Сравнение между главата на Data Lake и Data Warehouse (Инфографика)
По-долу са горните 14 разлики между Data Lake vs Data Warehouse
Ключови разлики
Има основни ключови разлики между данните езеро спрямо хранилището на данните са дадени по-долу:
- Състои се от неструктурирани и структурирани данни от различни платформи, като сензори, приложения и уебсайтове и др. Състои се най-вече от релационни данни от RDBMS, DBMS системи и други оперативни бази данни и приложения.
- Data Lake е обработка на схема за четене. Съхранението на данни е обработка по схема на запис.
- Той е изключително пъргав. Той е по-малко пъргав.
- Конфигурацията е лесна и може да се адаптира към промените. Има фиксирана конфигурация и е много трудно да се промени.
- Използва се предимно от AI учени и специалисти по машинно обучение. Използва се от бизнес професионалисти.
Таблица за сравнение между Data Lake vs Data Warehouse:
Нека да обсъдим най-високата разлика между Data Lake vs Data Warehouse
Характеристики | Data Lake | Склад за данни |
съхранение | Данните се съхраняват в суровия си вид в Data Lake и тук всички данни се съхраняват независимо от източника на данните. Те се трансформират в други форми само когато се налага. | Складът за данни се състои от данни, които се извличат от транзакционни и други метрични системи. Тук данните не са в суров вид и винаги се трансформират и чисти. |
Използване и предназначение | Основната цел на Data Lake са учените на данни, големите разработчици на данни и инженерите за машинно обучение, които трябва да направят задълбочен анализ, за да създадат модели за бизнеса, като прогнозно моделиране. | Основната цел на Data Warehouse са оперативните потребители, тъй като тези данни са в структуриран формат и могат да предоставят готови за изграждане на отчети. Така че те се използват най-вече за бизнес разузнаване. |
Въвеждане на данни | Основните входове в данните Lake са всички видове данни като структурирани, полуструктурирани и неструктурирани данни. Тези данни се намират в данните Lake в оригиналния им вид. | Основните входове в хранилището на данни са структурирани данни, които идват от транзакционни и метрични системи, които след това се организират под формата на схеми. |
Качество на данните | Състои от сурови данни, които могат или не могат да бъдат курирани. | Състои се от курирани данни, които са централизирани и са готови да бъдат съдени за целите на бизнес разузнаването и анализа. |
нормализиране | Тук данните не са в нормализирана форма. | Денормализирани схеми |
история | Технологиите, които се използват в езера с данни като Hadoop, Machine Learning, са сравнително нови в сравнение със склада за данни. | Тук технологията, която се използва за склад на данни, е по-стара. |
Времева линия на данните | Езерото с данни може да има всякакви данни и може да се използва, като се има предвид миналото, настоящето и перспективите. | Що се отнася до хранилището на данни, тук по-голямата част от времето се отделя за анализ на различни източници на данни. |
време за обработка | Тук времето за обработка при анализиране и получаване на резултати от данните Lake е много по-малко от това на Data Warehouse, тъй като тук данните се съхраняват под формата на необработени данни и тези не са в трансформиран формат и в резултат на това ние отрязваме времето което може да се изразходва за преобразуване на данните. Можем просто да вземем данните такива, каквито са, и да направим основно почистване и да започнем да изграждаме нашите модели. | В случай на склад за данни, времето, което се изразходва за обработка, е повече в сравнение с езерото с данни. Причината за това е, че първо трябва да се трансформират данните във всеки склад на данни и след това да бъдат анализирани. |
Разходи за съхранение | Разходите за съхранение тук в технологиите на езерото за данни са сравнително по-ниски от тези на хранилището на данни и също са по-малко време. | Цената за съхранение в технологиите за съхранение на данни е повече в сравнение с езерото с данни. Това е така, защото се нуждае от повече хранилище за трансформираните данни, тъй като първо трябва да съхранява суровите данни и след това да ги преобразува, за да присвои различни полета според структурата на хранилището на данни. |
Съвместимост | Тук данните винаги се съхраняват в необработен формат и се трансформират само когато се изисква или когато са готови за използване. | Тук данните се съхраняват в трансформиран формат и може да се сблъскаме с проблеми, когато се опитаме да направим някакви промени. |
Достъпност | Данните в езерото с данни са много достъпни и могат бързо да се актуализират. | Данните в хранилището на данни са по-сложни и изисква повече разходи, за да внесете каквито и да било промени в тях, достъпността също е ограничена само за оторизирани потребители. |
Позиция на схемата | Схемата се създава най-вече след съхраняване на данните. Това носи висока ловкост. | Тук схемата се създава предимно преди съхранението на данни. |
Процес на обработка | Езерото с данни използва процеса ELT, т.е. извличане, зареждане и трансформиране. | Складът за данни използва традиционния подход на ETL т.е. извличане, трансформиране и зареждане. |
Ползи | Data Lake води до нови изобретения, тъй като интеграцията обединява различни видове данни и също така дава отговори на много въпроси без отговор. | Повечето от организационните потребители участват в оперативните дейности, а складът на данни предоставя една такава блестяща платформа за създаване на отчети и показатели върху преобразувани данни. |
заключение
В тази публикация научихме за Data Lakes vs Data Warehouse. Ние също продължихме и сравнихме и двете на базата на различни параметри. Това трябва да помогне на всеки обучаем да добие основна идея зад технологиите, които поддържат Data Lake и Data Warehouse.
Препоръчителни статии
Това е ръководство за най-високата разлика между Data Lake vs Data Warehouse. Тук сме обсъдили ключовите разлики в Data Lake vs Data Warehouse с инфографика и таблица за сравнение. Може да разгледате и следните статии, за да научите повече -
- Scrum срещу водопад - Топ разлики
- MySQL срещу MySQLi - кой е по-добър?
- Микропроцесор срещу микроконтролер
- Въпроси за интервю за моделиране на данни