Въведение в Apache PIG интервю въпроси и отговори

Така че най-накрая сте намерили вашата мечтана работа в Apache PIG, но се чудим как да пробием интервюто за Apache PIG 2019 и какви биха могли да бъдат вероятните въпроси за интервю Apache PIG. Всяко интервю на Apache PIG е различно и обхватът на работата също е различен. Имайки това предвид, ние разработихме най-често срещаните въпроси и отговори за интервю за Apache PIG, за да ви помогнем да постигнете успех в интервюто с Apache PIG.

Следва списъкът с въпроси за интервю Apache PIG за 2019 г., които се задават предимно зададени

1. Кои са основните разлики между MapReduce и Apache Pig?

Отговор:
Следват основните разлики между Apache Pig и MapReduce, поради които Apache Pig влезе в снимката:
• MapReduce е модел за обработка на данни на ниско ниво, докато Apache Pig е платформа за поток от данни на високо ниво
• Без да пишат сложните реализации на Java в MapReduce, програмистите могат лесно да постигнат същите реализации, използвайки Pig Latin.
• Apache Pig предоставя вложени типове данни като торби, кортежи и карти, тъй като липсват от MapReduce.
• Прасето поддържа операциите с данни като филтри, присъединяване, подреждане, сортиране и т.н. с много вградени оператори. Докато изпълнението на същата функция в MapReduce е огромна задача.

2. Обяснете употребите на MapReduce в Pig.

Отговор:
Програмите Apache Pig са написани на език за заявки, известен като Pig Latin, който е подобен на езика за SQL заявки. За да изпълните заявка, има нужда от двигател за изпълнение. И Pig двигателят преобразува заявките в задания на MapReduce и по този начин MapReduce действа като двигател за изпълнение и е необходим за стартиране на програмите.

3. Обяснете употребите на свинята.

Отговор:
Можем да използваме Прасето в три категории, те са:
• ETL тръбопровод за данни: Той помага за попълване на нашия информационен склад. Pig може да изпрати данните към външно приложение, ще изчака, докато приключи, така че да получи обработените данни и да продължи оттам. Това е най-често срещаният случай за използване на прасето.
• Проучване на сурови данни.
• Итеративна обработка.

4. Сравнете Apache Pig и SQL.

Отговор:
• Apache Pig се различава от SQL в използването му за ETL, мързелива оценка, съхраняване на данни във всеки даден момент в тръбопровода, поддръжка за разделянето на тръбопровода и изрична декларация за планове за изпълнение. SQL (Структурен език на заявките) е ориентиран около заявки, които дават единен резултат. SQL няма вграден механизъм за разделяне на потока за обработка на данни и прилагане на различни оператори към всеки подпоток.
• Apache Pig позволява включване на потребителски код във всяка точка на тръбопровода, докато ако SQL, където да се използват данни, първо трябва да бъдат импортирани в базата данни и след това процесът на почистване и трансформация започва.

5. Обяснете за различните сложни типове данни в Pig.

Отговор:
Apache Pig поддържа три сложни типа данни -
• Карти - Това са ключови, магазини за стойности, свързани заедно с помощта на #.
Пример: ('city' # 'pune', 'pin' # 411045) • Tuples - точно подобно на реда в таблица, където различните елементи са разделени със запетая. Капаците могат да имат множество атрибути.
• Чанти - Неподредена колекция от кортежи. Чантата позволява множество дублирани кортежи.
Пример: (('Mumbai', 022), ('New Delhi', 011), ('Kolkata', 44))

6. Обяснете различните модели за изпълнение, налични в Pig.

Отговор:
В Pig са налични три различни режима на изпълнение,
• Интерактивен режим или режим Grunt.
Интерактивен режим или режим на грухтене: Интерактивната обвивка на Pig е известна като grunt shell. Ако не е посочен файл, който да се стартира в Pig, той ще започне.
• Партиден или скриптен режим.
Pig изпълнява зададените команди в файла със скрипт.
• Вграден режим
Можем да вграждаме Pig програми в Java и можем да стартираме програмите от Java.

7. Обяснете за плановете за изпълнение (логически и физически план) на Pig Script

Отговор:
Логически и физически планове се създават по време на изпълнение на скрипт за прасе. Скриптите за свине се основават на проверка на преводача. Логическият план се произвежда чрез семантична проверка и основен анализ и при създаването на логически план не се извършва обработка на данни. За всеки ред в Pig скрипта се извършва проверка на синтаксиса за операторите и се създава логичен план. Всеки път, когато се открие грешка в рамките на скрипта, се хвърля изключение и изпълнението на програмата приключва, иначе за всеки оператор в скрипта има собствен логичен план.
Логически план съдържа колекцията от оператори в скрипта, но не съдържа ръбовете между операторите.
След като се генерира логическият план, изпълнението на скрипта се премества във физическия план, където има описание на физическите оператори, които Apache Pig ще използва за изпълнение на скрипта Pig. Физическият план е повече или по-малко като поредица от задания на MapReduce, но тогава планът няма никаква справка за това как ще бъде изпълнен в MapReduce. По време на създаването на физически план логическият оператор на групата се преобразува в 3 физически оператора, а именно - локално пренареждане, глобално пренареждане и пакет. Функциите за зареждане и съхраняване обикновено се решават във физическия план.

8. Какви инструменти за отстраняване на грешки се използват за скриптове Apache Pig?

Отговор:
Опишете и обяснете важните помощни програми за отстраняване на грешки в Apache Pig.
• Помощната програма Explain е полезна за разработчиците на Hadoop, когато се опитват да отстраняват грешки или да оптимизират PigLatin скриптове. обяснението може да бъде приложено към определен псевдоним в скрипта или може да се приложи към целия скрипт в грубия интерактивен корпус. Помощната програма обясни създава няколко графики в текстов формат, които могат да бъдат отпечатани във файл.
• Опишете помощната програма за отстраняване на грешки е полезна за разработчиците, когато пишат Pig скриптове, тъй като показва схемата на връзка в скрипта. За начинаещи, които се опитват да научат Apache Pig, могат да използват помощната програма за описание, за да разберат как всеки оператор прави промени в данните. Скриптът за прасе може да има множество описания.

9. Какви са някои от случаите на употреба на Apache Pig, за които можете да се сетите?

Отговор:
• Apache Pig инструмент за големи данни се използва по-специално за итеративна обработка, проучване на сурови данни и за традиционните тръбопроводи за ETL. Тъй като Pig може да работи при обстоятелства, при които схемата не е известна, непоследователна или непълна - тя се използва широко от изследователи, които искат да се възползват от данните, преди да бъдат почистени и заредени в хранилището на данните.
• За изграждане на модели за прогнозиране на поведението, например, той може да се използва от уебсайт за проследяване на реакцията на посетителите на различни видове реклами, изображения, статии и т.н.

10. Маркирайте разликата между операторите на групата и Cogroup в Pig.

Отговор:
И двата оператора могат да работят с една или повече връзки. Операторите на Group и Cogroup са идентични. Груповият оператор събира всички записи със същия ключ. Cogroup е комбинация от група и присъединяване, това е обобщаване на група, вместо събиране на записи от един вход зависи от ключ, той събира записи на n входа въз основа на ключ. В даден момент можем да групираме до 127 отношения.

Препоръчителни статии

Това е ръководство за списъка с въпроси и отговори на интервю за Apache PIG, така че кандидатът да може лесно да преодолее тези въпроси за интервю на Apache PIG. Тази статия се състои от всички полезни въпроси и отговори на Apache PIG Interview, които ще ви помогнат в интервю. Можете също да разгледате следните статии, за да научите повече -

  1. Apache Pig срещу Apache Hive
  2. Топ 10 трудни въпроса за интервю
  3. 8 ефективни стъпки за подготовка за вътрешно интервю
  4. Важни съвети за оцеляване на интервю на панела (полезно)