Какво е прасето? - Характеристики и разбиране - Архитектура и кариера

Съдържание:

Anonim

Какво е прасето?

Pig е двигател с отворен код, който е част от екосистемните технологии на Hadoop. Прасето е чудесно в работата с данни, които са извън традиционните бази данни или хранилища на данни. Това може да се справи добре с липсващи, непълни или непоследователни данни, които нямат схема. Прасето има свой собствен език за изразяване на манипулации с данни, което е латински прасе.

Разбиране на прасето

Pig е технология, която ви позволява да пишете високо ниво, но изключително подробни скриптове, което ви позволява да работите с данни, където схемата е неизвестна или непоследователна. Pig е технология с отворен код, която работи над Hadoop и е част от изключително жизнената и популярна екосистема Hadoop.

Прасето работи добре с неструктурирани и непълни данни, така че не е нужно да имате традиционното оформление на правила и колони за всичко.

Той е добре дефиниран и може директно да работи върху файлове в HDFS (разпределена файлова система Hadoop).

Прасето ще бъде вашата технология на избор, когато искате да получите данни от източника в склад за данни.

Например визуален план за това как данните обикновено протичат, преди да можете да ги използвате, за да генерирате приятните диаграми, които използвате за вземане на бизнес решения.

Суровите данни идват от различни източници, като сензори, мобилни телефони и т.н. След това ще използвате Pig за извършване на ETL операция. ETL означава извличане, преобразуване и зареждане, след като тези операции се извършват, почистените данни се съхраняват в друга база данни. Пример за такава база данни е HDFS, която е част от Hadoop. Hive е склад за данни, който ще работи над файлова система като тази. Кошера е това, което бихте използвали за анализ, за ​​генериране на отчетите и за извличане на прозрения.

ETL е много важна стъпка в обработката на данни, за да се изчистят суровите данни и в правилната форма, която да се съхранява в база данни. Екстрактът се отнася до операцията по изтегляне на неструктурирани, непоследователни данни с липсващо поле и стойности от първоначалния източник. Transform означава серията от операции, които бихте приложили върху данните, за да ги почистите или получите.

Предварително изчисляване на полезна съвкупна информация, обработка на полета, за да съответства на определен формат, всичко това е част от почистване на данни на трансформираните полета.

И накрая, Pig извършва операцията за натоварване, при която тези чисти данни се съхраняват в база данни, където могат да бъдат анализирани допълнително. Пример за стандартна операция, която Pig извършва, е да почисти логовите файлове.

Обяснете свинската архитектура

В Архитектурата има много части за прасета, предпочитайте:

  • Parser : Parser се занимава с Pig Scripts, както и, проверява този синтаксис на скрипта, ще въведе проверка и различни асортирани проверки. Освен това, резултатът от тях може да бъде DAG (насочена ациклична графика), която обикновено означава заявките на Pig Latin заедно с логическите оператори.

Също така, логическите оператори със скрипта ще бъдат показани като възлите, както и потоците от данни ще бъдат показани от ръбовете през DAG.

  • Оптимизатор: По-късно логическият план (DAG) обикновено е надвишен спрямо логическия оптимизатор. Той изпълнява допълнително логическите оптимизации, включително прожектирането и промотира ниско
  • Компилатор: Освен това компилаторът компилира подобрения логически план в група MapReduce.
  • Execution Engine: В крайна сметка всички произведения на MapReduce ще бъдат публикувани в Hadoop в подредена последователност. В крайна сметка това генерира необходимите резултати, въпреки че тези работи на MapReduce ще се извършват с Hadoop.
  • MapReduce: MapReduce първоначално е създаден в Google като начин за обработка на уеб страници, така че да засили търсенето с Google. MapReduce разпространява изчисления на множество машини в клъстера. MapReduce се възползва от присъщия паралелизъм в обработката на данни. Съвременните системи като сензори или дори актуализации на състоянието на Facebook генерират милиони записи на сурови данни.

Дейност с това ниво може да се подготви на две фази:

  1. карта
  2. Намалете

Вие решавате каква логика искате да приложите в рамките на тези фази, за да обработите данните си.

  • HDFS (разпределена файлова система Hadoop ): Hadoop позволява експлозия на съхранение и анализ на данни в мащаб с неограничен капацитет. Разработчиците използват приложение като Pig, Hive, HBase и Spark за извличане на данни от HDFS.

Характеристика

Apache Pig идва с различни функции:

  • Простотата на програмирането: Pig Latin е сравнима с SQL и следователно е доста лесно за разработчиците да създадат Pig скрипт. В случай, че имате разбиране на езика на SQL, е невероятно лесно да научите Pig латински език, тъй като е точно като SQL език.
  • Богат набор от оператори: Pig включва разнообразие от набор от оператори, за да могат да изпълняват процедури точно като присъединяване, файлове, сортиране и много други.
  • Възможности за оптимизация: Изпълнението със задачата в Apache Pig може да бъде незабавно подобрено от самата задача; следователно разработчиците трябва просто да се концентрират върху семантиката на този език.
  • Разширяемост: Използвайки достъпни оператори, потребителите могат просто да развият своите функции за четене, обработка и запис на данни.
  • Потребителски дефиниращи функции (UDF's): Използвайки услугата, предоставена от Pig за изработване на UDF, ние можем да произвеждаме потребителски зададени функции на броя езици за разработка, включително Java, както и да извикваме или вграждаме всички тях в Pig Script.

За какво е полезно прасето?

Той се използва за проверка, както и за изпълнение на отговорности, включително ad-hoc работа. Apache Pig може да се използва за:
Анализът с огромни сурови колекции от данни предпочита обработката на данни, за да получите уебсайтове за търсене. Като Yahoo, Google се възползва от Apache Pig за оценка на данните, събрани чрез Google, както и в Yahoo търсачките. Работа с големи колекции от данни, точно като уеб записи, поточна информация онлайн и т.н. Дори актуализациите за състоянието на Facebook генерират милиони записи на сурови данни.

Как ви помага тази технология да се развивате в кариерата си?

Много организации внедряват Apache Pig невероятно бързо. Това означава, че професиите в свине и свине кариерата се повишават ежедневно. През последните няколко години има голям напредък в развитието на Apache Hadoop. Hadoop елементи точно като Hive, Pig, HDFS, HBase, MapReduce и т.н.

Въпреки че офертите на Hadoop влязоха във второто им десетилетие по това време, те все още са избухнали в признание през предишните три до четири години. Голям брой софтуерни компании прилагат клъстери Hadoop невероятно често. Това определено може да е най-добрата част от големите данни. Специалистите, които се стремят да превърнат опит в тази отлична технология.

заключение

Apache Pig Expertise е голямо изискване на пазара и може да продължи да бъде разширено. Чрез просто разбиране на концепциите, както и получаване на опит с най-добрите Apache Pig в Hadoop уменията, експертите могат да се включат в тяхната професия Apache Pig перфектно.

Препоръчителен член

Това е ръководство за Какво е прасето? Тук обсъдихме концепциите, определението и архитектурата с характеристиките на Pig. Можете да разгледате и другите ни предложени статии, за да научите повече -

  1. Как да инсталирате Apache
  2. Въпроси за интервю на Apache PIG
  3. Какво е ASP.Net Web Services?
  4. Какво е Blockchain технологията?