Инсталиране на Spark - Пълно ръководство за инсталиране на искра

Съдържание:

Anonim

Как да инсталирате Spark?

Spark е рамка с отворен код за стартиране на аналитични приложения. Това е двигател за обработка на данни, домакин на доставчика - независима софтуерна фондация Apache, който работи върху големи масиви данни или големи данни. Това е клъстерна изчислителна система с общо предназначение, която осигурява API на високо ниво в Scala, Python, Java и R. Тя е разработена за преодоляване на ограниченията в парадигмата MapReduce на Hadoop. Учените по данни смятат, че Spark изпълнява 100 пъти по-бързо от MapReduce, тъй като може да кешира данни в паметта, докато MapReduce работи повече, като чете и пише на дискове. Той извършва обработка в паметта, което го прави по-мощен и бърз.

Spark няма своя собствена файлова система. Той обработва данни от различни източници на данни като Hadoop разпределена файлова система (HDFS), S3 система на Amazon, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Може да работи на Hadoop YARN (още един преговарящ ресурс), на Mesos, на EC2, на Kubernetes или използвайки самостоятелен клъстер режим. Той използва RDD (Resilient Distributed Dataset), за да делегира натоварванията на отделни възли, които поддържат в итеративни приложения. Поради RDD, програмирането е лесно в сравнение с Hadoop.

Spark се състои от различни компоненти, наречени компоненти на Spark Ecosystem.

  • Spark Core: Това е основата на приложението Spark, от което други компоненти са пряко зависими. Той осигурява платформа за голямо разнообразие от приложения като планиране, разпределено изпращане на задачи, при обработка на паметта и препращане на данни.
  • Искрово предаване: Това е компонентът, който работи върху поточни данни на живо, за да предостави анализи в реално време. Данните на живо се приемат в отделни единици, наречени партиди, които се изпълняват на Spark Core.
  • Spark SQL: Това е компонентът, който работи върху ядрото Spark за изпълнение на SQL заявки върху структурирани или полуструктурирани данни. Data Frame е начинът за взаимодействие с Spark SQL.
  • GraphX: Графичният механизъм за изчисляване или рамката позволява обработката на графичните данни. Той предоставя различни графични алгоритми за работа на Spark.
  • MLlib: Съдържа алгоритми за машинно обучение, които осигуряват рамка за машинно обучение в разпределена среда, базирана на паметта. Той изпълнява итеративни алгоритми ефективно поради способността за обработка на данни в паметта.
  • SparkR: Spark осигурява R пакет за стартиране или анализ на набори от данни, използвайки R shell.

Има три начина за инсталиране или внедряване на искра във вашите системи:

  1. Самостоятелен режим в Apache Spark
  2. Hadoop ПРЪЖДА / Mesos
  3. SIMR (Искри в MapReduce)

Нека видим внедряването в самостоятелен режим.

Искрен самостоятелен режим на внедряване:

Стъпка 1: Актуализирайте индекса на пакета

Това е необходимо, за да актуализирате всички налични пакети във вашата машина.

Използвайте командата : $ sudo apt-get update

Стъпка 2: Инсталирайте Java Development Kit (JDK)

Това ще инсталира JDK във вашата машина и ще ви помогне да стартирате Java приложения.

Стъпка 3: Проверете дали Java се е инсталирала правилно

Java е задължително условие за използване или стартиране на Apache Spark приложения.

Използвайте командата : $ java –версия

Този екран показва версията на java и гарантира наличието на java на машината.

Стъпка 4: Инсталирайте Scala на вашето устройство

Както Spark е написан в скала, така трябва да се инсталира мащаб, който да пуска искра на вашата машина.

Използвайте командата: $ sudo apt-get install scala

Стъпка 5: Проверете дали Scala е инсталирана правилно

Това ще гарантира успешното инсталиране на мащаб на вашата система.

Използвайте Command : $ scala -version

Стъпка 6: Изтеглете Apache Spark

Изтеглете Apache Spark според вашата версия на Hadoop от https://spark.apache.org/downloads.html

Когато отидете на горната връзка, ще се появи прозорец.

Стъпка 7: Изберете подходящата версия според вашата Hadoop версия и щракнете върху маркираната връзка.

Ще се появи друг прозорец.

Стъпка 8: Щракнете върху маркираната връзка и Apache искра ще бъде изтеглена във вашата система.

Проверете дали .tar.gz файлът е наличен в папката за изтегляне.

Стъпка 9: Инсталирайте Apache Spark

За инсталиране на Spark, файлът с катран трябва да бъде извлечен.

Използвайте командата: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz

Трябва да промените посочената в командата версия според изтеглената версия. В това изтеглихме версия на искрата 2.4.0-bin-hadoop2.7.

Стъпка 10: Променлива среда за настройка на Apache Spark

Използвайте командата: $ source ~ / .bashrc

Добавете ред : експортиране на PATH = $ PATH: / usr / local / spark / bin

Стъпка 11: Проверете инсталацията на Apache Spark

Използвайте командата : $ spark-shell

Ако инсталацията е била успешна, ще се получи следният изход.

Това означава успешната инсталация на Apache Spark на вашата машина и Apache Spark ще стартира в Scala.

Разгръщане на искрата на Hadoop Прежда:

Има два режима за разгръщане на Apache Spark на Hadoop YARN.

  1. Режим на клъстери: В този режим YARN на клъстера управлява драйвера Spark, който работи в основния процес на приложение. След стартиране на приложението клиентът може да премине.
  2. Клиентски режим: В този режим ресурсите се искат от YARN от главното приложение и драйверът Spark работи в клиентския процес.

За да внедрите приложението Spark в режим на клъстер използвайте командата:

$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar

Горната команда ще стартира клиентска програма на YARN, която ще стартира основния Application Master.

За да разгърнете приложението Spark в клиентски режим, използвайте командата:

$ spark-submit –master yarn –deploy –mode client mySparkApp.jar

Можете да стартирате искровата обвивка в клиентски режим, като използвате командата:

$ spark-shell –master yarn –deploy-mode client

Съвети и трикове за използване на искрата за инсталиране:

  1. Уверете се, че на вашата машина е инсталирана Java, преди да инсталирате искра.
  2. Ако използвате скала език, след това се уверете, че мащабът е вече инсталиран, преди да използвате Apache Spark.
  3. Можете да използвате Python също вместо Scala за програмиране в Spark, но той също трябва да бъде предварително инсталиран като Scala.
  4. Можете също да стартирате Apache Spark и в Windows, но се препоръчва да създадете виртуална машина и да инсталирате Ubuntu с помощта на Oracle Virtual Box или VMWare Player .
  5. Spark може да работи без Hadoop (т.е. самостоятелен режим), но ако е необходима мулти-възлова настройка, тогава са необходими мениджъри на ресурси като YARN или Mesos.
  6. Докато използвате YARN, не е необходимо да инсталирате Spark на трите възли. Трябва да инсталирате Apache Spark само на един възел.
  7. Докато използвате YARN, ако сте в една и съща локална мрежа с клъстера, тогава можете да използвате клиентски режим, докато ако сте далеч, тогава можете да използвате клъстер режим.

Препоръчителни статии - инсталиране на искри

Това е ръководство за това как да инсталирате Spark. Тук видяхме как да разгърнем Apache Spark в самостоятелен режим и отгоре на ресурсния мениджър YARN, а също така се споменават и някои съвети и трикове за плавна инсталация на Spark. Можете също да разгледате следната статия, за да научите повече -

  1. Как да използвате Spark Commands
  2. Кариера в Spark - Трябва да опитате
  3. Разликите на Splunk срещу Spark
  4. Въпроси и отговори за интервю
  5. Предимства на искровото стрийминг
  6. Видове съединения в Spark SQL (Примери)