Въведение в Hadoop Tools

Hadoop Tools са рамката, която се използва за обработка на голям обем данни. Тези данни се разпространяват в клъстер и се извършват разпределени изчисления. Данните се съхраняват в блокове с размер 128Mb и за обработка и постигане на резултат се използва мощта на Map Reduce. По традиция Map и Reduce бяха написани на Java, но беше трудно да се пресече умението на ресурсите, работещи в хранилището на данни, тъй като те нямаха опит в това. SQL е добре известен и лесен за използване, така че като намери начин да напише SQL като заявка, която се преобразува в Map and Reduce, това е основано от Facebook и по-късно дарено на Apache, този инструмент е известен като Hive. Yahoo също така създаде инструмент, наречен Pig, който при изпълнение се преобразува в Map Reduce, по подобен начин имаме Sqoop и flume за движение на данни и инструменти за инжектиране. HBase е инструмент за система за управление на база данни.

Характеристики на Hadoop Tools

  1. кошер
  2. прасе
  3. Sqoop
  4. HBase
  5. Zookeeper
  6. воденичен улей

Сега ще видим функциите с кратко обяснение.

1. Кошера

Apache Hive е основан от Facebook и по-късно дарен на Apache фондация, която е инфраструктура за съхранение на данни, той улеснява писането на SQL като Query, наречен HQL или HiveQL. Тези заявки се преобразуват вътре в задачи за намаляване на картата и обработката се извършва с помощта на разпределените изчисления на Hadoop. Той може да обработва данните, които се намират в HDFS, S3 и всички хранилища, съвместими с Hadoop. Можем да използваме удобствата, предоставени от Map Reduce, когато открием нещо трудно за реализиране в Hive, като внедряваме в потребителски функции. Той дава възможност на потребителя да регистрира UDF и да го използва в заданията.

Характеристики на кошера

  • Hive може да обработва много видове файлови формати като последователност файл, ORC файл, TextFile и т.н.
  • Разделянето, групирането и индексирането са достъпни за по-бързо изпълнение.
  • Компресираните данни също могат да бъдат заредени в таблица на кошерите.
  • Управляваните или Вътрешните таблици и външните таблици са отличителните черти на Hive.

2. Прасе

Yahoo разработи прасето Apache, за да има допълнителен инструмент за укрепване на Hadoop, като има ad-hoc начин за внедряване на намаление на картата. Pig има двигател, наречен Pig Engine, който преобразува скриптове в намаление на картата. Pig е скриптов език, скриптовете, написани за Pig, са в PigLatin, точно както Hive тук също можем да имаме UDF's, за да подобрим функционалността. Задачите в Pig се оптимизират автоматично, така че програмистите не трябва да се притесняват от това. Прасета обработва както структурирани, така и неструктурирани данни.

Характеристики на Прасето

  • Потребителите могат да имат свои собствени функции за извършване на специален тип обработка на данни.
  • Лесно е да се пишат кодове в Pig сравнително и дължината на кода е по-малка.
  • Системата може автоматично да оптимизира изпълнението.

3. Sqoop

Sqoop се използва за прехвърляне на данни от HDFS към RDBMS и обратно. Можем да изтеглим данните към HDFS от RDBMS, Hive и т.н. и можем да ги обработим и експортираме обратно в RDBMS. Ние можем да добавим данните много пъти в таблица, също така можем да създадем Sqoop задача и да я изпълним 'n' брой пъти.

Характеристики на Sqoop

  • Sqoop може да импортира всички таблици наведнъж в HDFS.
  • Можем да вграждаме SQL заявки, както и условия за импортиране на данни.
  • Можем да импортираме данни в кошера, ако има таблица от HDFS.
  • Броят на картографите може да бъде контролиран, т.е. паралелното изпълнение може да се контролира чрез посочване на броя на картографите.

4. HBase

Системата за управление на базата данни на върха на HDFS се нарича HBase. HBase е NoSQL база данни, която е разработена върху HDFS. HBase не е релационна база данни, не поддържа структурирани езици за заявки. HBase използва разпределена обработка на HDFS. Може да има големи таблици с милиони и милиони записи.

Характеристики на HBase

  • HBase осигурява мащабируемост както в линейни, така и в модулни.
  • API-ите в JAVA могат да се използват за клиентски достъп.
  • HBase предоставя обвивка за изпълнение на заявки.

5. Зоокеер

Apache Zookeeper е централизирана услуга за поддържане на конфигурацията, поддържа запис на информация, именуване, също така предоставя разпределена синхронизация и групови услуги. Zookeeper е централизирано хранилище, което се използва от разпределени приложения за поставяне и получаване на данни за него. Той също така помага при управлението на възлите, т.е. да се присъедини или да остави възел в клъстера. Той осигурява високо надежден регистър на данните, когато малко от възлите са надолу.

Характеристики на Zookeeper

  • Производителността може да се увеличи, като се разпределят задачите, които се постигат чрез добавяне на повече машини.
  • Той крие сложността на дистрибуцията и се представя като единична машина.
  • Сривът на няколко системи не оказва влияние върху цялата система, но недостатъкът е, че може да доведе до частична загуба на данни.
  • Той осигурява Atomicity, т.е. транзакцията е успешна или неуспешна, но не е в несъвършено състояние.

6. Флум

Apache Flume е инструмент, който осигурява поглъщане на данни, който може да събира, агрегира и транспортира огромно количество данни от различни източници до HDFS, HBase и др. Flume е много надежден и може да бъде конфигуриран. Той е проектиран да поема поточни данни от уеб сървъра или данни за събитията към HDFS, например може да подава туитър данни към HDFS. Flume може да съхранява данни във всеки от централизираните хранилища на данни като HBase / HDFS. Ако има ситуация, при която произвежданите данни са с по-висока скорост в сравнение със скоростта на данните, може да се запише, тогава фламерът действа като медиатор и гарантира постоянен поток на данни.

Характеристики на Flume

  • Той може да поглъща данни от уеб сървъри заедно с данните за събитията, като например данни от социалните медии.
  • Транзакциите с Flume са базирани на канал, т.е. се поддържат две съобщения, едното е за изпращане и едно за получаване.
  • Хоризонтално мащабиране е възможно в дим.
  • Толерантен е с голяма вина, тъй като контекстното маршрутизиране присъства в пате.

Заключение - Инструменти Hadoop

Тук в тази статия научихме за някои от инструментите на Hadoop и как те са полезни в света на данните. Видяхме Hive and Pig, който се използва за заявки и анализи на данни, преместване на данни за преместване на данни и движение за поглъщане на поточни данни към HDFS.

Препоръчителни статии

Това е ръководство за Hadoop Tools. Тук обсъждаме различни инструменти на Hadoop с техните функции. Можете да разгледате и другите ни предложени статии, за да научите повече -

  1. Hadoop Алтернативи
  2. Hadoop база данни
  3. SQL стринг функции
  4. Какво е Big Data

Категория: