Въведение в искрови въпроси за интервю и отговори

Apache Spark е рамка с отворен код. Spark, тъй като е платформа с отворен код, можем да използваме множество езици за програмиране като java, python, Scala, R. В сравнение с производителността на процеса на Map-Reducer искрата помага за подобряване на производителността на изпълнението. Той също така осигурява 100 пъти по-бързо изпълнение в паметта от Map-Reduce. Поради силата на преработката на искрата в днешно време индустриите предпочитат искрата.

Така че най-накрая сте намерили вашата мечтана работа в Spark, но се чудите как да разбиете Spark Interview и какви биха могли да бъдат вероятните въпроси за интервю за Spark за 2018 г. Всяко интервю е различно и обхватът на работата също е различен. Имайки това предвид, ние сме проектирали най-често срещаните въпроси за искрови интервюта и отговори за 2018 г., за да ви помогнем да постигнете успех в интервюто си.

Тези въпроси са разделени на две части

Част 1 - Искрови въпроси за интервю (основни)

Тази първа част обхваща основните въпроси и отговори на Spark за интервю

1. Какво е Spark?

Отговор:
Apache Spark е рамка с отворен код. Подобрява ефективността на изпълнението от процеса на намаляване на картата. Това е отворена платформа, където можем да използваме множество езици за програмиране като Java, Python, Scala, R. Spark осигурява изпълнение в паметта, което е 100 пъти по-бързо от Map-Reduce. Той използва концепцията за RDD. RDD е еластичен разпределен набор от данни, който му позволява прозрачно да съхранява данни в паметта и да я запазва, за да диска само това, което е необходимо. Тук ще се намали времето за достъп до данните от паметта, вместо от диска. Днес индустрията предпочита Spark заради своята преработвателна мощ.

2.Разлика между Hadoop и Spark?

Отговор:

Критерии за характеристикиApache SparkHadoop
скорост10 до 100 пъти по-бързи от HadoopНормална скорост
обработванеОбработка в реално време и пакет, In-memory, КеширанеСамо пакетна обработка, зависи от диска
затруднениеЛесно, защото на високо ниво модулиТрудно се учи
възстановяванеПозволява възстановяване на дялове с помощта на RDDУстойчиви на отказ
ИнтерактивностИма интерактивни, интерактивни режимиБез интерактивен режим, освен Pig & Hive, Без повторен режим

Нормалната Hadoop архитектура следва основното намаление на картата. За същия процес искрата осигурява изпълнение в паметта. Вместо четене и запис от твърдия диск за Map-Reduce, искрата осигурява четене-запис от виртуална памет.

Нека преминем към следващите въпроси за интервю за Spark

3. Какви са характеристиките на Spark?

Отговор:

  1. Осигурете интеграция с Hadoop и Files на HDFS. Spark може да работи на върха на Hadoop, използвайки групиране на YARN ресурси. Spark има капацитет да замени двигателя на Hadoop Map-Reduce.
  2. Polyglot: Spark Осигурявайте API на високо ниво за Java, Python, Scala и R. Spark Code може да бъде написан на всеки от тези четири езика. IT предоставя независима обвивка за мащаб (езикът, на който е написана Spark) и интерпретатор на python. Кое ще ви помогне да взаимодействате с двигателя с искра? Скалата черупка може да бъде достъпна чрез ./bin/spark-shell и Python черупка чрез ./bin/pyspark от инсталираната директория.
  3. Скорост: Spark engine е 100 пъти по-бърз от Hadoop Map-Reduce за мащабна обработка на данни. Скоростта ще бъде постигната чрез дял за паралелизиране на разпределената обработка на данни с минимален мрежов трафик. Spark Provide RDD's (Устойчиви разпределени набори от данни), които могат да се кешират в изчислителни възли в клъстер
  4. Множество формати: Spark има API на източник на данни. Той ще осигури механизъм за достъп до структурирани данни чрез искра SQL. Източниците на данни могат да бъдат всякакви, Spark просто ще създаде механизъм за преобразуване на данните и ще го издърпа към искрата. Spark поддържа множество източници на данни като Hive, HBase, Cassandra, JSON, Parquet, ORC.
  5. Spark предоставя някои вградени библиотеки за изпълнение на множество задачи от едно и също ядро ​​като пакетна обработка, Steaming, машинно обучение, интерактивни SQL заявки. Hadoop обаче поддържа само пакетна обработка. Spark Предоставете MLIb (библиотеки за машинно обучение), което ще бъде полезно за Big-Data Developer за обработка на данните. Това помага да се премахнат зависимостите от множество инструменти за различни цели. Spark предоставя обща мощна платформа на инженерите на данни и учени по данни, както с бърза производителност, така и лесна за използване.
  6. Apache Spark забавя изпълнението на процеса, докато действието е необходимо. Това е една от основните характеристики на искрата. Spark ще добави всяка трансформация към DAG (Direct Acyclic Graph) за изпълнение и когато действието иска да се изпълни, всъщност ще задейства DAG за обработка.
  7. Поток в реално време: Apache Spark Осигурява изчисления в реално време и ниска латентност, поради изпълнение в паметта. Spark е проектиран за големи мащабируемости като хиляда възела на клъстера и няколко модела за изчисления.

4. Какво е ПРЕЖДА?

Отговор:
Това са основните въпроси за интервю за Spark, зададени в интервю. ПРЕЖДА (още един преговарящ ресурс) е мениджърът на ресурсите. Spark е платформа, която осигурява бързо изпълнение. Spark ще използва YARN за изпълнение на задачата към клъстера, а не на собствения си вграден мениджър. Има някои конфигурации за стартиране на Прежда. Те включват главен, режим на разполагане, памет на драйвери, памет на изпълнител, ядра на изпълнител и опашка. Това е често срещаните Spark Interview Въпроси, които се задават в интервю по-долу е предимствата на искрата:

Предимства на Spark over Map-Reduce

Spark има предимства пред намаляването на картата, както следва: -
Поради способността на процеса в паметта, Spark успява да изпълни 10 до 100 пъти по-бързо от Map-Reduce. Където Map-Reduce може да се използва за устойчивост на данните на етап Map and Reduce.

Apache Spark осигурява високо ниво на вградени библиотеки за обработка на множество задачи едновременно с пакетна обработка, поточно предаване в реално време, Spark-SQL, Structured Streaming, MLib и др. По същото време Hadoop осигурява само пакетна обработка.
Процесът на Hadoop Map-Reduce ще зависи от диска, където Spark осигурява Caching и In-Memory.

Spark има както итеративен, изпълнява изчисления множество на един и същ набор от данни, така и интерактивни, извършва изчисления между различни набори от данни, където Hadoop не поддържа итеративни изчисления.

5. Какъв е езикът, поддържан от Spark?

Отговор:
Spark support scala, Python, R и Java. На пазара разработчиците на големи данни най-вече предпочитат скала и питон. За мащаб за компилиране на кода ни трябва Set Path of scale / bin директория или да направим jar файл.

6. Какво е RDD?

Отговор:
RDD е абстракция на устойчив разпределен набор от данни, който предоставя колекция от елементи, разпределени във всички възли на клъстера, които ще помогнат да се изпълняват множество процеси паралелно. Използването на разработчика на RDD може да съхранява данните в паметта или кеширането, за да се използва повторно ефективно за паралелно изпълнение на операции. RDD може да бъде възстановен лесно от повреда на възела.

Част 2 - Искрови въпроси за интервю (разширено)

Нека сега да разгледаме разширените въпроси за интервю за Spark.

7. Кои са факторите, отговорни за изпълнението на Spark?

Отговор:
1. Spark осигурява изпълнение в паметта вместо диск, зависим от Hadoop Map-Reduce.
2.RDD Устойчив разпределен набор от данни, който е отговорно паралелно изпълнение на множество операции на всички възли на клъстер.
3. Spark осигурява споделена функция за променлива за паралелно изпълнение. Тези променливи помагат за намаляване на преноса на данни между възлите и споделяне на копие на всички възли. Има две променливи.
4.Broadcast променлива: Тази променлива може да се използва за кеширане на стойност в паметта на всички възли
5.Акумулатори Променлива: Тази променлива се добавя само към броячи и суми.

8. Какво е паметта на изпълнителя?

Отговор:
Това са често задаваните въпроси за Spark Interview в едно интервю. Това е размер на купчината, разпределен за изпълнителя на искра. Това свойство може да бъде контролирано от spark.executor.memory свойство на флага -executor-memory. Всяко приложение за Spark има по един изпълнител за всеки възел на работника. Това свойство се отнася до това колко памет на работните възли ще бъдат разпределени за приложение.

9. Как използвате Spark Stream? Обяснете един случай на употреба?

Отговор:
Искровият поток е една от характеристиките, които са полезни за случая в реално време. За целта можем да използваме flume, Kafka с искра. Flume ще задейства данните от източник. Kafka ще запази данните в Topic. От Kafka Spark ще изтеглят данните, използвайки потока и той ще D-потоцира данни и ще извърши трансформацията.

Можем да използваме този процес за подозрителна транзакция в реално време, оферти в реално време и т.н.

Нека преминем към следващите въпроси за интервю за Spark

10. Можем ли да използваме Spark за ETL процеса?

Отговор:
Да, можем да използваме искра платформа за ETL процеса.

11. Какво е Spark SQL?

Отговор:
Това е един специален компонент на искрата, който ще поддържа SQL заявки.

12. Какво мързеливо оценяване?

Отговор:
Когато работим с искра, Трансформациите не се оценяват, докато не извършите действие. Това помага за оптимизиране на цялостния работен процес за обработка на данни. При определяне на трансформацията тя ще добави към DAG (Direct Acyclic Graph). И в момент на действие ще започне да изпълнява поетапни трансформации. Това е полезният въпрос за интервю Spark, зададен в интервю.

Препоръчителен член

Това е ръководство за списъка с въпроси за искрови интервюта и отговори, така че кандидатът да може да разруши лесно тези въпроси за интервю. Можете също да разгледате следните статии, за да научите повече-

  1. Java срещу Node JS опростяване на разликите
  2. Въпроси за интервю за базата данни на Монго | Полезни и най-питани
  3. 15 най-успешни R интервюта въпроси и отговори
  4. Въпроси и отговори за интервю Perl
  5. Въпроси за интервю на системата SAS - Топ 10 полезни въпроса