Apache Spark Architecture

Въведение в архитектурата на искра Apache

Тази статия определя концепциите на Apache Spark Architecture и нейните компоненти. Счита се за обработка на данни на пиково ниво в Apache Software Foundation. Искрата в крайна сметка се счита за друга възможност за Hadoop и намаляване на картата.

Spark е архитектура с отворен код с добре дефинирани компоненти, които помагат за анализиране на огромно количество данни и работи за разпределени изчисления. Spark е написан на Scala с активирани функции като API, R и обогатен набор от библиотеки, което улеснява обработката на данни. Apache Spark има своите индивидуални изчисления на клъстери за по-бърза достъпност и се изпълнява в различни платформи.

Apache Spark има широка гама от функции като ускоряване на процеса на по-бърза памет, адаптира се към множество езици за програмиране, има подобрени техники за кеширане и поддържа SQL заявки, Машинно обучение. Работи на платформи като Microsoft Windows и Linux операционни системи. Тяхното внедряване казва, че те биха могли да работят и в една машина и в клъстер режим.

Искрата на архитектурата Apache има слабо свързани компоненти. Spark помислете за процеса на главен / работник в архитектурата и цялата задача работи в горната част на разпределената файлова система Hadoop. Apache искра използва Hadoop за обработка на данни и съхранение на данни. Те се считат за двигател за обработка на данни в паметта и правят приложенията им да работят на Hadoop клъстери по-бързо от паметта. Наличието на обработка в паметта предотвратява срива на дисковия I / O. Spark позволява на хетерогенната работа да работи със същите данни. Spark разделя данните си на дялове, размерът на разделените дялове зависи от дадения източник на данни.

По-долу са двете основни реализации на Apache Spark Architecture:

1. Устойчиви разпределени набори от данни (RDD)

Той е отговорен за предоставянето на API за контрол на кеширането и разделянето. Това е важен набор от инструменти за изчисляване на данни. Той помага при преизчисляване на елементи в случай на повреда и се счита за неизменни данни и действа като интерфейс. Трансформациите и действията са двете операции, извършени от RDD.

2. Насочена ациклична графика (DAG)

Той формира последователност връзка от един възел към друг. Драйверът преобразува програмата в DAG за всяка работа. Екосистемата Apache Spark има различни компоненти като API ядро, Spark SQL, поточно обработване и обработка в реално време, MLIB и Graph X. Някои терминологии, които трябва да се научат тук са Spark shell, които помагат при четене на големи обеми от данни, контекст на Spark - анулиране, стартиране на работа, задача (работа), работа (изчисление)

Компоненти на Apache Spark Architecture

Четирите основни компонента на Spark са дадени по-долу и е необходимо да ги разберем за цялата рамка.

Искрен шофьор
изпълнители
Мениджър на клъстери
Работни възли

Следващата схема показва архитектурата и компонентите на искрата:

Фиг.: Самостоятелен режим на Apache Spark Architecture

Изпълнението започва по следния начин:

1. Драйвер за искри

Отговорността на водача е да координира задачите и работниците за управление. Това е Application JVM процес и се счита за главен възел. Шофьорът разделя искрата на задачи и графици за изпълнение на изпълнителите в клъстерите. На схемата драйверните програми извикват основното приложение и създават искра контекст (действа като шлюз) колективно наблюдават работата, която работи в дадения клъстер и се свързват с клъстер Spark Всички функционалности и команди се извършват чрез искра контекста.

Искровият контекст е запис за всяка сесия. Драйверът на Spark има повече компоненти за изпълнение на задачи в клъстерите. Искровите клъстери се свързват с различни видове мениджъри на клъстери и едновременно контекстът придобива работни възли за изпълнение и съхраняване на данни. В клъстера, когато изпълняваме процеса, тяхната работа се подразделя на етапи с фази на усилване на планирани задачи.

2. Изпълнител

Той е отговорен за изпълнението на дадена задача и съхранява данни в кеш. На първия етап изпълнителите се регистрират при водачите. Този изпълнител има редица времеви интервали за едновременно изпълнение на приложението. Изпълнителите извършват процес на четене / запис на външни източници. Изпълнителят изпълнява задачата, когато е заредил данни и те са премахнати в режим на празен ход. Изпълнителят се активира чрез динамично разпределение и те постоянно се включват и изключват в зависимост от продължителността. По време на изпълнението на задачите, изпълнителите се наблюдават от програма за водачи. Изпълнителите изпълняват задачата на потребителите в java процес.

3. Мениджър на клъстери

Помага при управлението на клъстерите, които имат един главен и брой роби. Има два типа мениджъри на клъстери като YARN и самостоятелни, като и двата се управляват от Resource Manager и Node. работата на клъстери в самостоятелен режим изисква Spark Master и възел на работниците като техни роли. Отговорността на мениджъра на клъстерите е да разпределя ресурси и да изпълнява задачата,

4. Работни възли

Те са робските възли; основната отговорност е да се изпълнят задачите и изходът от тях се връща обратно в контекста на искрата. Те комуникират с главния възел относно наличието на ресурсите. Искровият контекст го изпълнява и издава на работните възли. На всеки работен възел се назначава по един искрови работник за наблюдение. Те правят изчисленията много просто, като увеличават работните възли (от 1 до n няма работници), така че всички задачи да се изпълняват паралелно чрез разделяне на заданието на дялове на множество системи. Другата задача на елемент се счита за единица работа и се възлага на един изпълнител, като за всяка искра на дяла се изпълнява една задача.

заключение

Следователно, разбирането на Apache Spark Architecture, означава как да внедрите големи данни по лесен начин. В крайна сметка ние научихме тяхната достъпност и техните компоненти, което е много полезно за клъстерните изчисления и технологиите за големи данни. Искрите изчисляват желаните резултати по по-лесен начин и се предпочитат при пакетната обработка.

Отличителните функции на Spark като набори от данни и рамки от данни спомагат за оптимизиране на кода на потребителите. Важна функция като SQL двигател насърчава скоростта на изпълнение и прави този софтуер универсален. Следователно видяхме приложения за искра, работещи локално или разпространени в клъстер. Apache Spark се счита за чудесно допълнение в широк спектър от индустрии като големи данни. В обобщение, искрата помага при решаването на високи изчислителни задачи.

Препоръчителни статии

Това е ръководство за Apache Spark Architecture. Тук обсъждаме Въведение в Apache Spark Architecture заедно с Компонентите и блок-схемата на Apache Spark. Можете също да прегледате и другите ни предложени статии, за да научите повече -

Spark Shell Commands
Екосистема Apache Hadoop
Архитектура на големи данни
Какво е Apache

Apache Spark Architecture - Архитектурна диаграма и 4 компонента

Съдържание:

Въведение в архитектурата на искра Apache