Въведение в Sqoop Интервю въпроси и отговори

Sqoop е инструмент за трансфер на данни с отворен код, Sqoop инструмент прехвърля данните между Hadoop Ecosystem и релационни сървъри на бази данни (RDBMS). Импортира данните във файловата система на Hadoop (HDFS), от релационни бази данни като Oracle, MySQL и т.н., също така експортира данни от файловата система Hadoop в RDMS.

По-долу са 15-те важни въпроса и отговори за интервю за Sqoop за 2019 г.:

Така че най-накрая сте намерили вашата мечтана работа в Sqoop, но се чудите как да пропуснете интервюто на Sqoop и какво би могло да бъде вероятните въпроси за интервю за Sqoop 2019. Всяко интервю е различно и обхватът на работата също е различен. Имайки това предвид, ние разработихме най-често срещаните въпроси и отговори за интервю за Sqoop, за да ви помогнем да постигнете успех в интервюто си.

Тези въпроси са разделени на две части, както следва:

Част 1 - Sqoop Въпроси за интервю (основни)

Тази първа част обхваща основните въпроси и отговори за интервю от Sqoop.

1. Дефинирайте Sqoop и защо използваме Sqoop?

Отговор:
Sqoop е инструмент за трансфер на данни с отворен код, който е предназначен за прехвърляне на данни между Hadoop Ecosystem и релационни сървъри на бази данни (RDBMS). Sqoop се използва за импортиране на данни от релационни бази данни като Oracle, MySQL и т.н., в файловата система на Hadoop (HDFS), а също така и за експортиране на данни от файловата система Hadoop в релационни бази данни.

2. Какви са различните характеристики на Sqoop?

Отговор:
По-долу са описани различните функции, поддържани от Sqoop -

  1. Товароносимост
  2. Пълно зареждане и постепенно зареждане
  3. Техники за компресиране на данни
  4. Импортиране на резултатите от SQL заявки
  5. Съединители за данни за всички основни бази данни
  6. Поддръжка за директно зареждане на данни във файлови системи Hadoop
  7. Конфигурации за сигурност като Kerberos
  8. Паралелни функции за внос или износ

Нека преминем към следващите въпроси за интервю на Sqoop.

3. Назовете релационните бази данни и източниците на екосистема Hadoop, поддържани в Sqoop?

Отговор:
Понастоящем Sqoop поддържа MySQL, PostgreSQL, Oracle, MSSQL, Teradata и IBM Netezza като част от бази данни за взаимоотношения.

Понастоящем поддържаните услуги на Hadoop Eco-system дестинации са HDFC, Hive, HBase, H Catalogue и Accumulo.

Sqoop използва MySQL като база данни по подразбиране.

4. Как работи Sqoop?

Отговор:
Това са често срещаните въпроси за интервю Sqoop, зададени в интервю. За да извърши пренос на данни, Sqoop използва команди за експортиране и импортиране. Програмата за намаляване на картата ще бъде използвана в Sqoop вътрешно за съхранение на набора от данни към HDFS. Командите ще бъдат свързани с задачите на картата за извличане на данни от релационни бази данни; Задачата за намаляване ще поеме отговорността за поставянето на получените данни в дестинациите (HDFS / HBase / Hive)

Sqoop също използва различни API конектори за свързване с няколко бази данни. Sqoop също така предоставя възможност за създаване на персонализирани конектори за изпълнение на конкретни изисквания.

Нека видим примерните команди по-долу за импортиране и експортиране

Команда за свързване към MySQL база данни за импортиране на данни от таблицата 'Log'

импортиране на sqoop –connect jdbc: mysql: // localhost / –username –password –table –m 1
импортиране на sqoop - свържете jdbc: mysql: // localhost / mytestdb –користово име root_password admin123 –мен лог –m 1

Команда за експортиране на данни от HDFS към релационна база данни

експортиране на sqoop - свържете jdbc: mysql: // localhost / sqoop_export –table export-dir / sqoop / emp_last / част-m-00000 - идентификатор на актуализирания ключ
експортиране на sqoop - свържете jdbc: mysql: // localhost / sqoop_export –table log_table – export-dir / sqoop / data / foler1 / part-m-00000

5. Какво е Sqoop Metastore? Обясни го?

Отговор:
Sqoop Metastore е инструмент, наличен в Sqoop, който ще се използва за конфигуриране на приложението Sqoop, за да се даде възможност за хостинг на споделено хранилище под формата на метаданни. Тази Metastore може да се използва за изпълнение на задачите и управление на редица потребители въз основа на ролите и дейностите на потребителите. Всички множество потребители могат да изпълняват множество задачи или операции едновременно, за да постигнат задачите ефективно. Sqoop Metastore ще бъде реализиран като представяне в паметта по подразбиране. Когато задача е създадена в Sqoop, дефиницията на заданието се съхранява в Metastore и ще бъде изброена, използвайки задания на Sqoop, ако е необходимо.

6. Какви файлови формати поддържа Sqoop, докато импортира данните?

Отговор:
Sqoop използва два файлови формата за импортиране на данни. Те са: - Разделен формат на тестовия файл и последователност на файла.

Разметен формат на текстовия файл : Форматът на разделителния текст е форматът по подразбиране за импортиране. Все още можем изрично да уточним, използвайки аргумента –as- tekstil. По същия начин преминаването на аргумента ще зададе знаците на разделителя между редове и колони.

Пореден формат на файла : Този файлов формат можем да кажем, че е двоичен файлов формат. Този тип файлови формати се съхраняват в специфични типове данни, които са изложени като Java класове.

Нека преминем към следващите въпроси за интервю на Sqoop.

7. Можем ли да контролираме няколко картографи в sqoop? Ако да, как?

Отговор:
Да, можем да контролираме броя на картографите в Sqoop, като посочим параметъра „-num-mappers“ в командата sqoop. Този параметър може да контролира броя на задачите на картата, това не е нищо друго, освен степента на паралелизъм ще се използва от sqoop. Броят ще бъде определен въз основа на изискването.

Синтаксис: Използвайте тези флагове, за да контролирате броя на картографите: m, -num- mappers

Част 2 - Sqoop Въпроси за интервю (Разширено)

Нека сега да разгледаме разширените въпроси за интервю Sqoop.

8. Какво е Sqoop-сливане и обяснете използването му?

Отговор:
Sqoop merge е инструмент, който комбинира два различни набора от данни, които поддържат единствената версия, като презапишат записите в по-стара версия на набор от данни с нови файлове, за да я направят най-новата версия на версията. Случва се процес на изравняване, докато се обединят двата различни набора от данни, което запазва данните без загуба и с ефективност и безопасност. За да извършите тази операция, ще бъде използвана команда за обединяване на ключ като „–Merge-ключ“

9. Какви са разликите между Sqoop, flume и distcp?

Отговор:
Както Distcp, така и Sqoop се използват за прехвърляне на данните. Sqoop се използва за прехвърляне на всякакъв тип данни от един клъстер Hadoop в друг клъстер, докато Sqoop прехвърля данни между релационните бази данни и Hadoop екосистема като Hive, HDFS и HBase и т.н. Но и двата метода използват един и същ подход за копиране на данните, което е дърпане / прехвърляне.

Flume е разпространил инструмент, следващ базирана на агенти архитектура, за поточно извеждане на трупите в екосистемата Hadoop. Докато Sqoop е архитектура, базирана на конектор.

Flume събира и агрегира огромно количество лог данни. Flume може да събира данните от различен тип ресурси; не взема предвид схемата или структурираните / неструктурирани данни. Flume може да изтегля всякакъв тип данни. Докато Sqoop може да импортира само данните за релационната база данни, така че схемата е задължителна за обработката на sqoop. Като цяло, за преместване на насипни натоварвания, флумът е най-добрият вариант.

Нека преминем към следващите въпроси за интервю на Sqoop.

10. Какви източници на данни се поддържат от Apache Sqoop?

Отговор:
Различните източници на данни от различни приложения, поддържани от Apache Sqoop, са по-долу:

  1. кошер
  2. HBase
  3. Hadoop разпределена файлова система (HDFS)
  4. HCatalog
  5. Accumulo

11. Кои са най-използваните команди / функции в Sqoop?

Отговор:

Това са разширените въпроси за интервю Sqoop, зададени в интервю. Списък на основните команди, използвани в Sqoop, са както следва:

Codegen -Codegen се използва за генериране на код за комуникация със записи в базата данни.

Eval -Sqoop Eval помага при изпълнение на примерни SQL заявки срещу базите данни и предоставя резултатите на конзолата.

Помощ - Помощ списък на наличните команди

Import -Импортиране ще импортира таблицата в Hadoop Ecosystem

Export -Export се използва за експортиране на HDFS данни в релационни бази данни.

Create-hive-table -This командата е полезна за импортиране на дефиниция на таблица в Hive

Импортиране на всички таблици -Импортиране на всички таблици ще импортират таблиците за формиране на релационни бази данни в HDFS.

Списък-бази данни - Той ще изброява всички бази данни, присъстващи на сървър.

Списък-таблици - Ще изброява всички таблици, присъстващи в база данни.

Версии - Ще се покаже информацията за версията.

Функции- Паралелен импорт / експорт, пълно натоварване, постепенно натоварване, пълно натоварване, сравнение, конектори за бази данни RDBMS, интеграция на Kerberos за сигурност, зареждане на данни директно в HDFS (Hive / HBase)

12. Обяснете най-добрите практики, докато импортирате таблици от MySQL или други бази данни, използвайки Sqoop?

Отговор:
Докато импортирате таблиците от MySQL, трябва да се уверим в няколко неща като удостоверяване и оторизация на целевия сървър и бази данни. Трябва да сме сигурни, че сме предоставили необходимите привилегии в базите данни, които трябва да бъдат достъпни, а също така да се уверим в разделителната способност на името на хоста, когато се свързваме с имената на източника и местоназначението. Ако нямаме необходимото разрешение, ще получим изключение за неуспех на връзката, докато се свържем с базата данни.

13. Как актуализирате вече изнесените данни или редове?

Отговор:
За да актуализираме редовете, които вече са експортирани за местоназначението, можем да използваме параметъра „–актуализация-ключ“. В това се използва списък със колони, разделен със запетая, който еднозначно идентифицира ред и всички тези колони се използват в клаузата WHERE на генерираната UPDATE заявка. SET част от заявката ще се грижи за всички останали колони на таблицата.

Нека преминем към следващите въпроси за интервю на Sqoop.

14. Как да конфигурирате и инсталирате драйвера на JDBC в Apache Sqoop?

Отговор:
Драйверите на JDB в Apache Sqoop могат да бъдат конфигурирани въз основа на доставчика на Hadoop, като Cloudera или Hortonworks, където той леко се различава в конфигурацията си въз основа на доставчика на Hadoop. JDBC в Cloudera може да бъде конфигуриран като създаване на библиотека папка като / var / lib /. Това може да се направи за всяка библиотека на трети страни, която трябва да бъде конфигурирана според изискването. По този начин всеки тип база данни може да бъде конфигуриран с помощта на своя JDBC драйвер. Освен драйвера на JDBC, Apache Sqoop се нуждае от конектор за установяване на връзка между различни релационни бази данни. Основните компоненти, необходими за установяване на връзка с базите данни, са чрез Driver and Connector на конкретния доставчик на база данни.

15. Какво представлява клаузата за разделяне по раздели и кога да я използваме?

Отговор:
Параметърът за разделяне е за нарязване на данните, които ще бъдат импортирани в множество паралелни задачи. Използвайки този параметър, можем да определим имената на колоната, това са имена на колони, въз основа на които sqoop ще дели данните, които ще бъдат импортирани на няколко парчета и те ще се изпълняват паралелно. Това е една от техниките за настройване на изпълнението в Sqoop.

Препоръчителни статии

Това е ръководство за списък с въпроси и отговори за интервю за Sqoop, така че кандидатът да може лесно да разруши тези въпроси за интервю за Sqoop. Можете също да разгледате следните статии, за да научите повече -

  1. Хадоп срещу Терадата -Кой е полезен
  2. 13 невероятни въпроси за тестване на базата данни за интервю
  3. Топ 10 най-полезни въпроса за интервю за HBase
  4. 10 най-страхотни въпроси за интервю за PHP за опитни
  5. Познайте топ 5 полезни въпроса за интервю за DBA