Hadoop инструменти - Научете различните инструменти на Hadoop с техните функции

Въведение в Hadoop Tools

Hadoop Tools са рамката, която се използва за обработка на голям обем данни. Тези данни се разпространяват в клъстер и се извършват разпределени изчисления. Данните се съхраняват в блокове с размер 128Mb и за обработка и постигане на резултат се използва мощта на Map Reduce. По традиция Map и Reduce бяха написани на Java, но беше трудно да се пресече умението на ресурсите, работещи в хранилището на данни, тъй като те нямаха опит в това. SQL е добре известен и лесен за използване, така че като намери начин да напише SQL като заявка, която се преобразува в Map and Reduce, това е основано от Facebook и по-късно дарено на Apache, този инструмент е известен като Hive. Yahoo също така създаде инструмент, наречен Pig, който при изпълнение се преобразува в Map Reduce, по подобен начин имаме Sqoop и flume за движение на данни и инструменти за инжектиране. HBase е инструмент за система за управление на база данни.

Характеристики на Hadoop Tools

кошер
прасе
Sqoop
HBase
Zookeeper
воденичен улей

Сега ще видим функциите с кратко обяснение.

1. Кошера

Apache Hive е основан от Facebook и по-късно дарен на Apache фондация, която е инфраструктура за съхранение на данни, той улеснява писането на SQL като Query, наречен HQL или HiveQL. Тези заявки се преобразуват вътре в задачи за намаляване на картата и обработката се извършва с помощта на разпределените изчисления на Hadoop. Той може да обработва данните, които се намират в HDFS, S3 и всички хранилища, съвместими с Hadoop. Можем да използваме удобствата, предоставени от Map Reduce, когато открием нещо трудно за реализиране в Hive, като внедряваме в потребителски функции. Той дава възможност на потребителя да регистрира UDF и да го използва в заданията.

Характеристики на кошера

Hive може да обработва много видове файлови формати като последователност файл, ORC файл, TextFile и т.н.
Разделянето, групирането и индексирането са достъпни за по-бързо изпълнение.
Компресираните данни също могат да бъдат заредени в таблица на кошерите.
Управляваните или Вътрешните таблици и външните таблици са отличителните черти на Hive.

2. Прасе

Yahoo разработи прасето Apache, за да има допълнителен инструмент за укрепване на Hadoop, като има ad-hoc начин за внедряване на намаление на картата. Pig има двигател, наречен Pig Engine, който преобразува скриптове в намаление на картата. Pig е скриптов език, скриптовете, написани за Pig, са в PigLatin, точно както Hive тук също можем да имаме UDF's, за да подобрим функционалността. Задачите в Pig се оптимизират автоматично, така че програмистите не трябва да се притесняват от това. Прасета обработва както структурирани, така и неструктурирани данни.

Характеристики на Прасето

Потребителите могат да имат свои собствени функции за извършване на специален тип обработка на данни.
Лесно е да се пишат кодове в Pig сравнително и дължината на кода е по-малка.
Системата може автоматично да оптимизира изпълнението.

3. Sqoop

Sqoop се използва за прехвърляне на данни от HDFS към RDBMS и обратно. Можем да изтеглим данните към HDFS от RDBMS, Hive и т.н. и можем да ги обработим и експортираме обратно в RDBMS. Ние можем да добавим данните много пъти в таблица, също така можем да създадем Sqoop задача и да я изпълним 'n' брой пъти.

Характеристики на Sqoop

Sqoop може да импортира всички таблици наведнъж в HDFS.
Можем да вграждаме SQL заявки, както и условия за импортиране на данни.
Можем да импортираме данни в кошера, ако има таблица от HDFS.
Броят на картографите може да бъде контролиран, т.е. паралелното изпълнение може да се контролира чрез посочване на броя на картографите.

4. HBase

Системата за управление на базата данни на върха на HDFS се нарича HBase. HBase е NoSQL база данни, която е разработена върху HDFS. HBase не е релационна база данни, не поддържа структурирани езици за заявки. HBase използва разпределена обработка на HDFS. Може да има големи таблици с милиони и милиони записи.

Характеристики на HBase

HBase осигурява мащабируемост както в линейни, така и в модулни.
API-ите в JAVA могат да се използват за клиентски достъп.
HBase предоставя обвивка за изпълнение на заявки.

5. Зоокеер

Apache Zookeeper е централизирана услуга за поддържане на конфигурацията, поддържа запис на информация, именуване, също така предоставя разпределена синхронизация и групови услуги. Zookeeper е централизирано хранилище, което се използва от разпределени приложения за поставяне и получаване на данни за него. Той също така помага при управлението на възлите, т.е. да се присъедини или да остави възел в клъстера. Той осигурява високо надежден регистър на данните, когато малко от възлите са надолу.

Характеристики на Zookeeper

Производителността може да се увеличи, като се разпределят задачите, които се постигат чрез добавяне на повече машини.
Той крие сложността на дистрибуцията и се представя като единична машина.
Сривът на няколко системи не оказва влияние върху цялата система, но недостатъкът е, че може да доведе до частична загуба на данни.
Той осигурява Atomicity, т.е. транзакцията е успешна или неуспешна, но не е в несъвършено състояние.

6. Флум

Apache Flume е инструмент, който осигурява поглъщане на данни, който може да събира, агрегира и транспортира огромно количество данни от различни източници до HDFS, HBase и др. Flume е много надежден и може да бъде конфигуриран. Той е проектиран да поема поточни данни от уеб сървъра или данни за събитията към HDFS, например може да подава туитър данни към HDFS. Flume може да съхранява данни във всеки от централизираните хранилища на данни като HBase / HDFS. Ако има ситуация, при която произвежданите данни са с по-висока скорост в сравнение със скоростта на данните, може да се запише, тогава фламерът действа като медиатор и гарантира постоянен поток на данни.

Характеристики на Flume

Той може да поглъща данни от уеб сървъри заедно с данните за събитията, като например данни от социалните медии.
Транзакциите с Flume са базирани на канал, т.е. се поддържат две съобщения, едното е за изпращане и едно за получаване.
Хоризонтално мащабиране е възможно в дим.
Толерантен е с голяма вина, тъй като контекстното маршрутизиране присъства в пате.

Заключение - Инструменти Hadoop

Тук в тази статия научихме за някои от инструментите на Hadoop и как те са полезни в света на данните. Видяхме Hive and Pig, който се използва за заявки и анализи на данни, преместване на данни за преместване на данни и движение за поглъщане на поточни данни към HDFS.

Препоръчителни статии

Това е ръководство за Hadoop Tools. Тук обсъждаме различни инструменти на Hadoop с техните функции. Можете да разгледате и другите ни предложени статии, за да научите повече -

Hadoop Алтернативи
Hadoop база данни
SQL стринг функции
Какво е Big Data

Hadoop инструменти - Научете различните инструменти на Hadoop с техните функции

Съдържание:

Въведение в Hadoop Tools

Характеристики на Hadoop Tools

1. Кошера

2. Прасе

3. Sqoop

4. HBase

5. Зоокеер

6. Флум

Заключение - Инструменти Hadoop

Препоръчителни статии

Google Cloud vs AWS - Топ 15 разлики, които ypu трябва да научите

Google Data Studio срещу Tableau - Научете 4-те най-ценни разлики

10 полезни стъпки за използване на страницата на Google Plus за бизнеса - eduCBA

GO Оператори - Различни видове оператори, използвани в GO

Преминете срещу Java - Знайте топ 8 на най-важните разлики

15 основни въпроса и отговори за интервю Oracle (Актуализирано за 2019 г.)

Обратно на Concatenate в Excel - Примери за обратно свързване

Топ 10 Въпроси за интервю с база данни Oracle (Актуализирано за 2019 г.)

Топ 10 Въпроси и отговори за интервю за Oracle PL / SQL (Актуализирано за 2019 г.)

Топ 10 въпроси за интервю за Oracle и отговори (Актуализирано за 2019 г.)

Какво е маркетингова сегментация? - Категории на маркетингова сегментация

Какво е MapReduce? - Научете примера и предимствата на MapReduce

Какво е Matlab? - Как работи - Умение и растеж в кариерата - Предимства

Какво представлява MapReduce в Hadoop? - Как работи - Умения и кариерен растеж

Какво е злонамерен софтуер? - Видове злонамерен софтуер и как да се предотврати злонамерен софтуер