Въведение в командите за свине

Apache Pig инструмент / платформа, която се използва за анализ на големи набори от данни и извършване на дълги серии от операции с данни. Прасето се използва с Hadoop. Всички скриптове за прасе се преобразуват в задачи за намаляване на картата и след това се изпълняват. Той може да обработва структурирани, полуструктурирани и неструктурирани данни. Магазини за свине, резултатът от тях е HDFS. В тази статия научаваме повече видове Pig команди.

Ето някои характеристики на Прасето:

  1. Самооптимизиране: Прасето може да оптимизира задачите за изпълнение, потребителят има свободата да се съсредоточи върху семантиката.
  2. Лесен за програмиране: Pig осигурява език / диалект на високо ниво, известен като Pig Latin, който лесно се пише. Pig Latin предоставя много оператори, които програмистът може да използва за обработка на данните. Програмистът има гъвкавост да запише и своите собствени функции.
  3. Разширяемо: Pig улеснява създаването на персонализирана функция, която се нарича UDF's (Потребителски зададени функции), което прави програмистите способни да постигнат бързо и лесно всяко изискване за обработка. Скриптът за свине работи върху черупка, известна като грунт.

Защо свине команди?

Програмистите, които не са добри с Java, обикновено се борят с писането на програми в Hadoop, т.е. писането на задачи за намаляване на картата. За тях Pig Latin, което е много като език SQL, е благодат. Подходът му за много запитвания намалява дължината на кода.
Толкова цялостният му кратък и ефективен начин на програмиране. Pig командите могат да извикат код на много езици като JRuby, Jython и Java.

Архитектурата на Pig Commands

Всички скриптове, написани на Pig-латиница през груба черупка, отиват в анализатора за проверка на синтаксиса и други разни проверки също се случват. Изходът на анализатора е DAG. След това този DAG се предава на оптимизатора, който след това извършва логическа оптимизация като проектиране и натискане надолу. Тогава компилаторът отговаря на логическия план за заданията MapReduce. И накрая, тези задания MapReduce се предават на Hadoop в подреден ред. Тези задачи се изпълняват и дават желани резултати.

Прасен-латински модел на данни е изцяло вложен и позволява сложни типове данни като карта и кортеж.

Всяка една стойност на латински език на прасето (независимо от типа на данните) е известна като Atom.

Основни команди за свине

Нека да разгледаме някои от основните Pig команди, които са дадени по-долу: -

1. Fs: Това ще изброява всички файлове в HDFS

grunt> fs –ls

2. Изчисти: Това ще изчисти интерактивната черупка на Grunt.

грунт> ясно

3. История:

Тази команда показва командите, изпълнени досега.
grunt> история

4. Четене на данни: Ако приемем, че данните пребивават в HDFS и трябва да четем данните на Pig.

grunt> college_students = LOAD 'hdfs: // localhost: 9000 / pig_data / college_data.txt'

ИЗПОЛЗВАНЕ PigStorage (', ')

като (id: int, име: chararray, фамилия: chararray, телефон: chararray,

град: chararray);

PigStorage () е функцията, която зарежда и съхранява данни като структурирани текстови файлове.

5. Съхранение на данни: Операторът на магазина се използва за съхранение на обработените / заредени данни.

grunt> STORE college_students INTO 'hdfs: // localhost: 9000 / pig_Output /' ИЗПОЛЗВАНЕ PigStorage (', ');

Тук „/ pig_Output /“ е директорията, в която трябва да се съхранява връзката.

6. Dump Operator: Тази команда се използва за показване на резултатите на екрана. Обикновено помага при отстраняване на грешки.

grunt> Dump college_students;

7. Опишете оператора: Помага на програмиста да види схемата на връзката.

grunt> описва колегитестуденти;

8. Обяснете: Тази команда помага за преглед на логическите, физическите и плановете за намаляване на изпълнението.

grunt> обяснете колегитестуденти;

9. Илюстрирайте оператора: Това дава поетапно изпълнение на оператори в Pig Commands.

grunt> илюстрират колегите студенти;

Междинни свине команди

1. Група: Тази команда Pig работи за групиране на данни със същия ключ.

grunt> group_data = GROUP College_students от първо име;

2. COGROUP: Работи подобно на груповия оператор. Основната разлика между оператора Group & Cogroup е, че груповият оператор обикновено се използва с едно отношение, докато cogroup се използва с повече от едно отношение.

3. Присъединете се: Използва се за комбиниране на две или повече връзки.

Пример: За да се извърши самостоятелно присъединяване, да речем, че връзката „клиент“ е заредена от HDFS tp pig команди в две отношения customer1 & customers2.

grunt> customers3 = ПРИСЪЕДИНЕТЕ клиентите1 BY id, customers2 BY id;

Присъединяването може да бъде самостоятелно присъединяване, вътрешно присъединяване, външно присъединяване.

4. Кръст: Тази команда свиня изчислява кръстосания продукт на две или повече отношения.

grunt> cross_data = CROSS клиенти, поръчки;

5. Съюз: Той обединява две отношения. Условието за сливане е както колоните, така и домейните на връзката да са идентични.

grunt> student = UNION student1, student2;

Разширени прасен команд

Нека да разгледаме някои от усъвършенстваните Pig команди, които са дадени по-долу:

1. Филтър: Това помага за филтриране на кортежите извън връзка, въз основа на определени условия.

filter_data = ФИЛТЪР колежани ученици по град == 'Chennai';

2. Отличителна: Това помага за премахване на излишни кортежи от връзката.

grunt> distct_data = DISTINCT college_students;

Това филтриране ще създаде ново име на връзката „distct_data“

3. Foreach: Това помага за генериране на трансформация на данни въз основа на данни от колони.

grunt> foreach_data = FOREACH student_details GENERATE id, възраст, град;

Това ще получи стойностите на id, възраст и град на всеки ученик от връзката student_details и по този начин ще го съхранява в друго отношение, наречено foreach_data.

4. Подреждане по: Тази команда показва резултата в сортиран ред въз основа на едно или повече полета.

grunt> order_by_data = ПОРЪЧАЙТЕ колежани ученици по възраст DESC;

Това ще сортира отношението „колежи ученици“ в низходящ ред по възраст.

5. Limit: Тази команда се ограничава не. на кортежи от връзката.

grunt> limit_data = LIMIT student_details 4;

Съвети и трикове

По-долу са различните съвети и трикове на Pig команди: -

1. Активирайте компресията на вашия вход и изход:

задайте input.compression.enabled true;

set output.compression.enabled true;

По-горе споменатите редове от код трябва да са в началото на скрипта, така че да могат Pig командите да четат компресирани файлове или да генерират компресирани файлове като изход.

2. Присъединете се към множество отношения:

За извършване на ляво присъединяване, кажете три отношения (input1, input2, input3), трябва да изберете SQL. Това е така, защото външното присъединяване не се поддържа от Pig на повече от две таблици.

По-скоро изпълнете наляво, за да се присъедините в две стъпки като:

data1 = ПРИСЪЕДИНЕТЕ вход1 ПО клавиша НАЛЯВО, input2 BY ключ;

data2 = Обединете данни1 BY input1 :: бутон НАЛЯВО, input3 BY key;

Това означава две работни места за намаляване на картата.

За да изпълнявате горната задача по-ефективно, можете да изберете „Cogroup“. Cogroup може да се присъедини към множество отношения. Cogroup по подразбиране се присъединява външно.

заключение

Pig е процедурен език, обикновено използван от учените за данни за извършване на ad-hoc обработка и бързо прототипиране. Това е страхотен инструмент за обработка на големи данни ETL и големи. Свинарните скриптове могат да бъдат извиквани от други езици и обратно. Следователно Pig командите могат да се използват за изграждане на по-големи и сложни приложения.

Препоръчителни статии

Това е ръководство за Pig команди. Тук сме обсъдили основни, както и усъвършенствани Pig команди и някои непосредствени Pig команди. Можете също да разгледате следната статия, за да научите повече -

  1. Команди на Adobe Photoshop
  2. Команди на Табау
  3. Чит лист SQL (Команди, безплатни съвети и трикове)
  4. VBA Команди-Довършителни докосвания
  5. Различни операции, свързани с Tuples

Категория: