Разберете най-добрите 5 разлики между Hadoop срещу MapReduce

Разлика между Hadoop и MapReduce

Корените на Hadoop датират от 2002 г., когато Dough Cutting работи върху проект с отворен код, наречен Nutch (който се използва за индексиране на уеб страниците и използване на индексираните уеб страници за търсене, същото, което прави Google). Той беше изправен пред проблемите с мащабируемостта както по отношение на съхранението, така и по отношение на изчислителната техника. През 2003 г. google публикува GFS (файлова система google), а през 2004 г. Nutch създаде NDFS (разпределена файлова система Nutch). След като Google обяви MapReduce като техен изчислителен мозък зад алгоритмите си за сортиране, Dough успя да изпълни Nutch на NDFS и използва MapReduce през 2005 г. и през 2006 г. Hadoop се роди.

Hadoop и MapReduce! Hadoop е екосистема на проекти с отворен код като Hadoop Common, разпределена файлова система Hadoop (HDFS), Hadoop YARN, Hadoop MapReduce. Hadoop като такъв е рамка с отворен код за съхранение и обработка на огромни набори от данни. Съхраняването се извършва от HDFS, а обработката се грижи от MapReduce. MapReduce, от друга страна, е модел на програмиране, който ви позволява да обработвате огромни данни, съхранявани в Hadoop.let, да разберем Hadoop и MapReduce подробно в тази публикация.

Сравнение между главата на Hadoop Vs MapReduce (Инфографика)

По-долу е топ 5 на сравнение между Hadoop срещу MapReduce

Ключови разлики между Hadoop срещу MapReduce

Следва разликата между Hadoop и MapReduce

Ако искаме да разграничим Hadoop и MapReduce в термините на хората, можем да кажем, че Hadoop е като колата, в която имате всичко необходимо за изминаване на разстояния, но MapReduce е като двигателя на колата, така че без автомобила двигателят може да ' t съществуват, но външността на автомобила може да се промени (други DFS (разпределени файлови системи)).
Основната идея зад Hadoop е, че данните трябва да бъдат надеждни и мащабируеми, надеждни, тъй като в случай на бедствие или повреда в мрежата, данните трябва да са достъпни през цялото време и това се постига от рамката на Hadoop, използвайки имена възли и възли за данни.
Някои основни идеи за възли за данни и именни възли

Основната идея зад архитектурата на Data Node и Name Node е архитектурата master / slave, където единият съхранява местоположението на данните (Name Node), а другият съхранява самите данни (Data Node). Данните се разделят на парчета от 64mb и се записват в блоковете с данни, а регистърът на тях се поддържа в име на възела. Данните се репликират три пъти по подразбиране за надеждност. Говорейки за мащабируемостта, хардуерът може да бъде увеличен в движение и това помага да се увеличи съхранението и да се направи система мащабируема.
Сега идвайки в MapReduce има три фази
1. Фаза на картата
2. Фаза на разбъркване
3. Намаляване на фазата

Нека вземем пример, за да го разберем по-добре. MapReduce като програма за програмиране също има здрава световна програма, но тя е известна като програма за броене на думи в MapReduce.

Програмата Word Count ни дава двойки ключ-стойност на думата и нейната честота в параграф / статия или във всеки източник на данни. За да можете да го разберете лесно, нека вземем по-долу като пример данни.

Както можем да видим, в набора от данни имаме три думи автобус, кола и влак. Графата с име Input има данните, както имаме в набора от данни, колоната Output има данните в междинния етап, в който ще се извърши разбъркването.

Тук приемаме разделителя като запетая (, ), за да разделим думите. Разделителят може да бъде запетая или интервал или нов ред и т.н.

Вход

Набор от данни

caR, CAR, кола, автобус, влак, автобус, влак, автобус, ВЛАК, автобус, buS, кола, автобус, кола, влак, кола, автобус, кола

продукция

Преобразуване в друг набор от данни

(Key, стойност)

(Автобус, 1), (Кола, 1), (Автобус, 1), (Кола, 1), (Влак, 1),

(кола, 1), (автобус, 1), (кола, 1), (влак, 1), (автобус, 1),

(ВЛАК, 1), (BUS, 1), (buS, 1), (caR, 1), (CAR, 1),

(кола, 1), (BUS, 1), (ВЛАК, 1)

И изходът от горния междинен етап е даден на редуктора, а по-долу е крайният изход на програмата.

Вход

(изход от функцията Map)

Комплект кортежи

(Автобус, 1), (Кола, 1), (Автобус, 1), (Кола, 1), (Влак, 1),

(кола, 1), (автобус, 1), (кола, 1), (влак, 1), (автобус, 1),

(ВЛАК, 1), (BUS, 1), (buS, 1), (caR, 1), (CAR, 1),

(кола, 1), (BUS, 1), (ВЛАК, 1)

продукция

Преобразува се в по-малък набор от кортежи

(BUS, 7),

(CAR, 7),

(ВЛАК, 4)

Една от ключовите разлики на Hadoop с други големи рамки за обработка на данни е, че Hadoop изпраща кода (MapReduce код) на клъстерите, където се съхраняват данните, а не изпраща данните в код, тъй като наборите от данни ще бъдат в TB или понякога в PB това ще бъде досадна задача.

Таблица за сравняване на Hadoop срещу MapReduce

Основа за сравнение	Hadoop	MapReduce
значение	Името "Hadoop" беше името на играчката слон на сина на Дъг Кътнинг. Той нарече този проект „Hadoop“, тъй като беше лесно да се произнесе.	Името „MapReduce“ възникна според самата функционалност на картографиране и намаляване на двойки ключ-стойност.
понятие	Apache Hadoop е екосистема, която осигурява среда, която е надеждна, мащабируема и готова за разпределени изчисления.	MapReduce е подмодул на този проект, който е програмен модел и се използва за обработка на огромни набори от данни, който седи на HDFS (разпределена файлова система Hadoop).
Необходими условия	Hadoop работи на приложения HDFS (разпределена файлова система Hadoop)	MapReduce може да работи на HDFS / GFS / NDFS или всяка друга разпределена файлова система, например MapR-FS
език	Hadoop е съвкупност от всички модули и следователно може да включва и други езици за програмиране / скриптове	MapReduce е основно написан на езика за програмиране на Java
рамка	Hadoop има не само рамка за съхранение, която съхранява данните, но създава име на възел и възел на данни, но има и други рамки, които включват самата MapReduce.	MapReduce е рамка за програмиране, която използва ключ, стойностни карти за сортиране / обработка на данните

Фигурата по-долу ще ви помогне да разграничите MapReduce от Hadoop.

MapReduce Framework

Както можем да видим от горната картина, че MapReduce е разпределена рамка за обработка, докато Hadoop е съвкупност от всички рамки.

Заключение - Hadoop срещу MapReduce

Hadoop с отворен код придоби популярност, тъй като беше свободен за използване и програмистите могат да променят кода според техните нужди. Екосистемата Hadoop е разработвана непрекъснато през последните години, за да направи екосистемата възможно най-свободна от проблеми.

С непрекъснато променящите се нужди на света технологията се променя бързо и става трудно да се следят промените. Данните, които се генерират за месец, се удвояват / утрояват, докато четете тази статия, а необходимостта от по-бърза обработка на набори от данни доведе до много други програмни рамки като MapReduce 2, Spark и т.н.

Препоръчителни статии

Това е ръководство за Hadoop срещу MapReduce, тяхното значение, сравнение между главата, ключови разлики, таблица на сравнението и заключение. Можете също да разгледате следните статии, за да научите повече -