Склад за данни срещу Hadoop - 6 важни разлики, които трябва да знаете

Съдържание:

Anonim

Разлики между хранилището на данни срещу Hadoop

Във всяко десетилетие ИТ индустрията изпитва голяма иновация, която разтърсва цялата ИТ индустрия. През последните години Apache Hadoop направи същото, като влезе в центрове за данни с нова инфраструктура

Придавайки силата на паралелната обработка на програмиста Hadoop е в такъв експоненциален възход на приемането и неговата екосистема се разширява както в дълбочина, така и в ширина, естествено е да се запитаме дали Hadoop ще замени традиционните хранилища на данни.

Нека да видим какво каза Alasdair Anderson (изпълнителен вицепрезидент в Nordea) на срещата на върха в Хадооп по тази гореща тема в града.

„В момента няма връзка между EDW и Hadoop - те ще се допълват. НЕ е за извличане и заместване: няма да се отървем от RDBMS или MPP, а вместо това използваме правилния инструмент за правилната работа - и това много ще се ръководи от цената. "

Всеки път, когато тази интересна дискусия започне, много въпроси ни идват като:

1) Ако имате големи данни, имате ли нужда от склад за данни?

2) Ще замени ли Hadoop хранилището на данни?

3) Това ли е смъртта на традиционната ера на хранилището на данни?

За да знаем отговорите на всички тези въпроси, трябва да разгледаме по-големия контекст на тази картина.

1. Какво е Hadoop?

Кой не е чувал за Big Data напоследък? Със стотици терабайти данни, генерирани всеки ден от различни източници, е ясно, че днешният модерен свят е свят с големи данни

Когато започнете да говорите за Big Data, рано или късно ще започнете да обсъждате най-горещата тема от света на големите данни: Hadoop - но какво точно е това?

Hadoop е отворен код, базирана на Java рамка за програмиране, който поддържа обработката и съхранението на изключително големи набори от данни в разпределена изчислителна среда.

Четирите модула на Hadoop -

Hadoop е съставен от 4 модула -

  1. Разпределена файлова система

Разпределената файлова система позволява да се съхраняват данни в лесно достъпен формат в голям брой свързани устройства за съхранение.

  1. Намаляване на картата

Намаление на карта е комбинацията от две операции - четене на данни от базата данни и поставянето им във формат, подходящ за анализ (карта) и извършване на математически операции (намаляване).

  1. Hadoop Common

Hadoop Common предоставя инструментите, необходими за данните, съхранявани в HDFS (разпределена файлова система Hadoop)

  1. прежди

YARN управлява ресурсите на системите, съхраняващи данните и извършвайки анализа.

2. Какво е склад за данни?

Склад за данни е релационна база данни, която е предназначена за данни от заявки и анализи. Обикновено съдържа исторически данни, получени от различни източници.

Средата за съхранение на данни включва ETL решения, двигател за онлайн аналитична обработка (OLAP), инструменти за анализ на клиенти и други приложения, които управляват процеса на анализ на данните и предоставянето им на бизнес потребителите.

Нека да обобщим какво е склад за данни -

  1. Тема ориентирани

Склад за данни може да се използва за анализ на определена предметна област като продажби, финанси и инвентар. Всяка предметна област съдържа подробни данни.

  1. Интегрирана

Склад за данни интегрира данни от множество източници на данни. Например, датите са в един и същ формат, кодовете за мъже / жени са последователни. В хранилището с данни ще има само един начин за идентифициране на продукт и те използват един и същ клиентски запис, а не копия

  1. Енергонезависима

Данните се съхраняват в хранилището на данните немодифицирани и няма да се променят. Така че историческите данни в хранилището на данни никога не трябва да се променят.

  1. Time-вариант

човек може да извлече данни от 3 месеца, 6 месеца, 12 месеца или дори по-стари данни от хранилище с данни.

  1. Не виртуално

Складът за данни е физическо и постоянно хранилище.

Склад за данни срещу Hadoop (Инфографика)

По-долу е дадено топ 6 сравнения между Data Warehouse и Hadoop

Склад за данни срещу Hadoop - кой да се използва?

  • Ако имате чисти, последователни и висококачествени данни, тогава трябва да потърсите склад за данни, тъй като Hadoop няма качество на данните в някои от своите решения.
  • Ако имате сурови неструктурирани данни, тогава трябва да отидете за Hadoop, защото Hadoop работи добре с неструктурирани / необработени данни, но Data Warehouse работи само със структурирани данни.
  • За ниско закъснение и интерактивни отчети трябва да отидете в Склад за данни
  • За заявки на OLTP / реално време / точка трябва да отидете за хранилище на данни, защото Hadoop работи добре с пакетни данни.
  • За големи масиви от данни за обем трябва да отидете за Hadoop, тъй като Hadoop е предназначен да разрешава проблеми с големи данни.

Таблица за сравнение между хранилището на данни срещу Hadoop

По-долу е списъкът на точките, описващи сравненията между хранилището на данни и Hadoop

Основа за сравнениеСклад за данниHadoop
ДанниВ Data Warehouse анализираме структурирани и обработени данниВ Hadoop можем да обработваме всякакъв вид данни, включително структурирани / неструктурирани / полуструктурирани и сурови
обработванеНеговата обработка се основава на концепции за запис на схематаНеговата обработка се основава на концепции за четене на схема
съхранениеПодходящ за данни с малък обем и е твърде скъп за данни с голям обемРаботи добре с големи масиви от данни, които имат огромен обем, скорост и разнообразие
ловкостТой е по-малко гъвкав и с фиксирана конфигурацияТой е изключително пъргав, конфигурира и конфигурира според нуждите
СигурностТехнологиите за съхранение на данни съществуват от десетилетия. По този начин, по отношение на сигурността, можем да разчитаме на Data WarehouseДокато технологиите на Hadoop са сравнително нови в сравнение с хранилището на данни, затова сигурността е голяма грижа тук
ПотребителиБизнес професионалистите обикновено използват склад за данниHadoop е доста известен в областта на науката за данни и инженерството на данни

Заключение - Склад за данни срещу Hadoop

Сега знаем за Data Warehouse и Hadoop и двете, нека се върнем и да разгледаме въпроса, който зададохме в началото на тази статия за хранилището на данни и Hadoop -

1) ако имате големи данни, имате ли нужда от склад за данни?

Отговор - стига вашата организация да се нуждае от надеждни, надеждни и достъпни данни, тогава имате нужда от склад за данни.

2) Ще замени ли Hadoop хранилището на данни?

Отговор - Сравняването на Data Warehouse с Hadoop е като сравняване на ябълки и портокали. И двете Data Warehouse и Hadoop имат своите предимства в различни сценарии на използване. В някои случаи ние все още зависим от традиционните техники за съхранение на данни, но с времето се променяме повече се съсредоточаваме върху Hadoop Framework за справяне с проблемите с големи данни.

3) Това е смърт на традиционната ера на хранилището на данни?

Отговор - Както виждате, това всъщност не е прост въпрос и следователно не се поддава на прост отговор. Вярно е, че големите данни ще променят традиционния подход за съхранение на данни през следващите няколко години, но това няма да остарее от концепциите и практиката на съхранение на данни.

Препоръчителен член

Това е полезно ръководство за Data Warehouse vs Hadoop, тук сме обсъдили тяхното значение, сравнение между главата, ключова разлика и заключение. Можете също да разгледате следната статия, за да научите повече -

  1. Hadoop срещу Splunk - Разберете най-добрите 7 разлики
  2. Hadoop vs Elasticsearch - кой е по-полезен
  3. Големи данни срещу Склад за данни - Разберете най-добрите разлики
  4. Business Intelligence срещу Склад на данни
  5. Splunk срещу Nagios