Въведение в Интервю въпроси и отговори

Инженерингът на данни е термин, в който всички го знаят и е доста популярен в областта на Big Data. Инженерингът на данни се отнася до инфраструктура на данни или архитектура на данни. Суровите данни, генерирани от различни източници като социални медии, мобилни телефони, www (интернет), трябва да бъдат трансформирани, изчистени, профилирани и обобщени за нуждите на бизнеса. Тези сурови данни се наричат ​​също като Dark Data. Практиката за проектиране, архитектиране и внедряване на системата за обработка на данни помага при преобразуването на данните в част от подходяща информация или набор от данни, като такава информация или набор от данни се нарича Data Engineering.

По-долу е списъкът с най-добрите въпроси за интервю на Data Engineer за 2019 г.:

Ако търсите работа, която е свързана с Data Engineer, трябва да се подготвите за въпросите за интервю през 2019 г. Data Engineer. Въпреки че всеки въпрос за интервю на Data Engineer е различен и обхватът на работата също е различен, можем да ви помогнем с най-добрите въпроси за интервю с Data Engineer с отговори, които ще ви помогнат да направите скока и да постигнете успеха си в интервюто с Data Engineer.

1. Какво е инженеринг на данни?

Отговор:
Инженерингът на данни е термин, който е доста популярен в областта на големите данни и се отнася главно до инфраструктура на данни или архитектура на данни.
Данните, генерирани от много източници като социални медии, мобилни телефони, www (интернет), са сурови данни. Тя трябва да бъде трансформирана, изчистена, профилирана и обобщена за нуждите на бизнеса. Можем да наречем тези сурови данни като Dark Data, които ще светим светлината, за да направим тази Dark Data полезна. Практиката за проектиране, архитектиране и внедряване на системата за обработка на данни, която ще помогне за превръщането на данните в полезна информация, се нарича Data Engineering.

2. Обяснете ежедневната работа на информационен инженер?

Отговор:
Ежедневната работа на инженера по данни се състои от:
а. боравене с управлението на данни в организацията
б. боравене и поддържане на източници на данни и зони за поставяне
° С. извършване на ETL или ELT и трансформация на данни
д. опростяване на изчистването на данните и подобряване на дедублирането и изграждането на данни
д. правим изграждане и извличане на специални заявки за данни
Вижте по-долу визуализация, информираща нещата, върху които работи инженерът на данни: -

3. Имате ли опит с моделирането на данни?

Отговор:
Може да се каже, че той / тя е работил по проект за клиент за финансиране / здравно осигуряване, където те са използвали ETL инструменти като Informatica / Talend / Pentaho и т.н., за да трансформират и обработват данните, извлечени от MySQL / RDS / SQL база данни и изпращат изпратете тази информация на доставчици, която може да помогне за увеличаване на приходите им. Може да се покаже по-долу архитектура на модела на данни от високо ниво. Състои се от първичен ключ, субект, атрибути, връзка, ограничения и т.н.

4. Какви са различните видове дизайнерски схеми в моделирането на данни? Обяснете с пример?

Отговор:
Има два типа схеми при моделиране на данни:
а. Звездна схема
Тази схема е разделена на две: една е таблица с факти, а друга е таблица с измерения, където всички таблици за измерения са свързани с таблица с факти. Всъщност таблицата с чуждестранен ключ се отнася до първичните ключове, присъстващи в таблиците с размерите. Вижте по-долу архитектура на звездна схема:

б. Снежинка схема
В тази схема нивото на нормализиране се увеличава, тук таблицата с факти ще остане същата като на звездна схема, тук таблиците с размерите се нормализират. Поради много слоеве на таблици с размерите, тя изглежда като снежинка, като по този начин се нарича схема на снежинка. Вижте по-долу архитектура: -

5. Кой ETL инструмент използвате и как това най-добре се сравнява с другите?

Отговор:
Може да се каже, че той / тя е използвал Informatica като инструмент на ETL поради много точки, на първо място е, че според Gartner Magic Quadrant за инструменти за интегриране на данни Informatica се позиционира като лидер за десета поредна година. Той е лесен за използване и обучение и има функции за свързване с различно разнообразие от изходни данни и типове данни, компоненти за многократна употреба и функции, които го правят най-любим за разработчиците на ETL. Той също има свой собствен планировчик, което е още едно предимство, когато другите инструменти на ETL трябва да използват външен планировчик, за да планират задачите.

6. Кои технологии / език за програмиране трябва да има / Научете се да бъдете инженер на данни?

Отговор:
Математика (линейна алгебра и вероятност)
Статистика (обобщена статистика)
Техники за машинно обучение
R и SAS езици
SQL бази данни, Hive QL
Python (използва се предимно)
Освен тях, трябва да има знания за решаване на проблеми, аналитични и архитектурни бази данни.

7. Какви са някои често срещани проблеми, с които се сблъскват инженерите на данни?

Отговор:
1. Интеграция в реално време / Непрекъсната интеграция
2. Съхраняването на огромно количество данни е един проблем, информацията от тях е друг.
3. Кои инструменти могат да се използват, които ще дадат най-добра производителност, съхранение, ефективност и резултати.
4. Скалата за съхранение ли е? Да предположим как да разбера, че за обработката на целия набор от данни колко време ще отнеме?
5. Имайки предвид процесорите и конфигурацията на RAM
6. Как да се справим с повреди, има ли отказ на отказ там или не?

8. По какво се различава архитектът на данни от Data Engineer?

Отговор:
Архитектът на данни е човекът за управление на данните, особено когато човек се занимава с различен брой различни източници на данни. Човек трябва да има задълбочени познания за това как работи база данни, как данните се отнасят до бизнес проблемите и как промените ще нарушат използването на данните на организацията и тогава архитектът на данни ще манипулира / трансформира архитектурата на данните според тях.
Основната отговорност на Data architect работи върху съхранението на данни, разработването на архитектура на данни или корпоративен център / склад на данни.
Като има предвид, че инженер на данни помага при инсталирането на решения за съхранение на данни, моделиране на данни, разработка и тестване на архитектура на база данни.

9. Опишете време, когато открихте нов случай на използване на съществуваща база данни, който оказа положително влияние върху бизнеса?

Отговор:
Докато в ерата на Big Data, SQL ще липсват по-долу функции:
а. RDBMS са схематично ориентирани DB, така че е по-добре за структурирани данни, а не за полуструктурирани или неструктурирани данни.
б. Не може да обработва непредсказуеми и неструктурирани данни.
° С. Това не е мащабируемо хоризонтално, т.е. паралелното изпълнение и съхраняването не е възможно в SQL.
д. Той страда от проблем с производителността, след като се увеличи броя на потребителите.
д. Използва се главно за онлайн транзакционна обработка.

За да преодолеем тези недостатъци, можем да използваме NoSQL DB, т.е. не само SQL.
Така че в проекта човек може да използва различни видове NoSQL DB като Cassandra, Mongo DB, Graph DB, HBase и т.н.

10. Имате ли опит да работите в среда в компютърни изчисления? Какви ползи виждате да работите в едно?

Отговор:
Може да се каже, че Cloud Computing Environment е готова да премести средата за производство, разработка и тестване, без да мисли за интегриране на много инстанции / Linux / Windows сървъри заедно. На пазара има различни услуги за изчислителни облаци като AWS (уеб услуги на Amazon), Azure (Microsoft), GCP (Google Cloud Platform). Услугата за изчисляване в облак предоставя по-долу функции като гъвкавост, т.е. средата ще се увеличава според изискванията, възстановяване при бедствия чрез правене на резервни копия и моментни снимки, работа отвсякъде с VPN, безопасна среда и екологично чист, тъй като работи на стоков хардуер, т.е. компютри с общо предназначение, които са с ниска цена.

заключение

В горния блог запазихме най-често задаваните въпроси за интервю на Data Engineer и как човек може да отговори на това, като даде характеристики на точките.

Препоръчителен член:

Това беше изчерпателно ръководство за въпросите и отговорите на Инженер за данни, така че кандидатът да може лесно да разруши тези въпроси за интервю на Data Engineer. тази статия се състои от всички най-важни въпроси и отговори за интервю на Data Engineer. Можете също да разгледате следните статии, за да научите повече -

  1. Най-важният Azure Paas срещу Iaas
  2. Въпроси за интервю с големи данни
  3. 5 най-важни въпроси за интервю за Elasticsearch
  4. PIG Интервю въпроси и отговор
  5. Топ 5 най-ценни въпроса за интервю за наука за данни