Въведение в ETL Интервю въпроси и отговори

ETL означава Екстракт-трансформация-натоварване. Това е системна основа на хранилището на данни, където данните се извличат от различни източници и след това данните се трансформират там, където данните се налагат или обработват така, че да се постигне качество, съгласуваност на данните в подходящ формат за представяне и накрая данните се зареждат в Data Warehouse във формат за представяне, така че да помогне на крайния потребител да получи лесно информацията и да вземе решение.

По-долу е горният въпрос за интервю за ETL за 2019 г., който се задава често в интервю

Ако търсите работа, свързана с ETL, трябва да се подготвите за въпроси за интервю за ETL за 2019 г. Въпреки че всяко интервю е различно и обхватът на работата също е различен, ние можем да ви помогнем с топ въпроси и отговори за интервю за ETL, които ще ви помогнат да направите скока и да постигнете успеха си в интервюто.

Част 1 - Въпроси за интервю за ETL (основни)

Тази първа част обхваща основните въпроси и отговори за интервю за ETL

1. Разширете системата ETL в хранилището на данни? обяснявам

Отговор:
Системата Extract-Transform-Load (ETL) е основата на склада за данни. Правилно проектирана система ETL извлича данни от изходните системи, налага стандартите за качество и съгласуваност на данните, потвърждава данните, така че отделните източници да могат да се използват заедно и накрая доставя данни във формат, готов за представяне, така че разработчиците на приложения да могат да изграждат приложения и крайни потребители може да взема решения.

2. Значението на системата ETL в хранилището на данни?

Отговор :
Премахва грешките и коригира липсващите данни. Той предоставя документирани мерки за доверие в данните. Записва потока от транснационални данни за съхраняване. Коригира данни от множество източници, които да се използват заедно. Структурира данните, които могат да се използват от инструменти за крайни потребители.

3. Какъв е ежедневният процес в системата ETL?

Отговор :
Изградете набор от разработки / тестове / производство на ETL процеси. Разберете компромисите на различни структури от данни в задната стая, включително плоски файлове, нормализирани схеми, XML схеми и схеми за присъединяване към звезди (размерни). Анализирайте и извлечете изходни данни. Изградете цялостна подсистема за почистване на данни. Структурирайте данни в размерни схеми за най-ефективната доставка до крайни потребители, инструменти за бизнес разузнаване, инструменти за извличане на данни, OLAP кубчета и аналитични приложения. Доставяйте данни ефективно както до силно централизирани и дълбоко разпределени хранилища на данни, използвайки едни и същи техники. Настройте цялостния процес на ETL за оптимална производителност.

Нека преминем към следващите въпроси за интервю на ETL.

4. Формати на данни в системата ETL?

Отговор :
Има различни формати на данни в ETL, някои от тях са плоски файлове, XML набори от данни, независими работни таблици на СУБД, нормализирани схеми за субект / връзка (E / R) и модели за размерни данни.

5. Профилиране на данни в ETL система?

Отговор :
Профилирането на данни е систематично изследване на качеството, обхвата и контекста на източника на данни, за да се позволи изграждането на система ETL. В най-крайния случай, много чистият източник на данни, който е добре поддържан преди да пристигне в склада с данни, изисква минимална трансформация и човешка намеса, за да се зареди директно в таблици с крайни размери и таблици с факти.

6. Какво е валидатор на ETL?

Отговор :
ETL Validator е инструмент за тестване на данни, който значително опростява тестването на проекти за интеграция на данни, хранилище на данни и миграция на данни. Използва патентованата ни ELV архитектура за извличане, зареждане и валидиране на данни от източници на данни като бази данни, плоски файлове, XML, Hadoop и BI системи.

Част 2 - Въпроси за интервю за ETL (разширено)

Нека сега да разгледаме разширените въпроси за интервю за ETL.

7. Какви са операциите в системата ETL?

Отговор :
Следните три операции: Екстрахира данните от вашата транснационална система, която може да бъде Oracle, Microsoft или друга релационна база данни, Трансформира данните чрез извършване на операции за почистване на данни. Зареждането е процес на записване на данните в целевата база данни.

8. Назовете някои от инструментите ETL, използвани най-вече на пазара?

Отговор:
Има различни ETL инструменти, използвани на пазара, но някои от силно предпочитаните ETL инструменти
• Oracle Warehouse Builder (OWB)
• SAP услуги за данни.
• IBM Infosphere Information Server.
• Управление на данните на SAS.
• Power Center Informatica.
• Elixir Repertoire за данни ETL.
• Мигратор на данни (IBI)
• SQL Server интеграционни услуги (SSIS)

9. Какви са ролите и отговорностите на екипа на ETL?

Отговор:
Ролите на екипа на ETL на най-високо ниво са да изгради задната стая на хранилището с данни.
• Предоставяйте най-ефективно данните на инструментите за крайни потребители
• Добавете стойност към данните в етапите на почистване и съответствие
• Защитете и документирайте родовите данни
• Извличане на данни от първоначалните източници
• Данни за осигуряване на качество и почистване
• Съответствие на етикетите и мерките в данните за постигане
• последователност в оригиналните източници
• Предоставяне на данни във физически формат, които могат да бъдат използвани от инструменти за заявки,
• Отчитане на писатели и табла за управление.

Нека преминем към следващите въпроси за интервю на ETL.

10. Каква е ролята на анализа на въздействието в системата ETL?

Отговор:
Анализът на въздействието изследва метаданните, свързани с даден обект (в този случай таблица или колона) и определя какво е повлияно от промяна в неговата структура или съдържание. Промяната на обектите за поставяне на данни може да наруши процесите, които са от решаващо значение за правилното зареждане на хранилището на данни. Разрешаването на ad-hoc промени в обектите за поставяне на данни е вредно за успеха на вашия проект. След като се създаде таблица в зоната за поставяне, трябва да извършите анализ на въздействието, преди да се направят промени в нея. Много доставчици на инструменти на ETL осигуряват функционалност за анализ на въздействието, но тази функционалност често се пренебрегва по време на доказателството за концепцията на продукта на ETL, тъй като е функция на заден план и
Всъщност не е важно, докато хранилището на данните не работи и започне да се развива.

11. Как обработвате плоския файл с фиксирана дължина?

Отговор:
Оформлението на файла с фиксирана дължина трябва да включва името на файла, откъдето започва полето; дължината му; и неговия тип данни (обикновено текст или число). Понякога се доставя крайната позиция. Ако не е, трябва да изчислите крайната позиция на всяко поле въз основа на началната му позиция и дължина, ако това се изисква от вашия ETL инструмент. В повечето ETL инструменти най-вероятно трябва да въведете ръчно оформлението на плоския файл веднъж. След въвеждането на оформлението инструментът запомня оформлението и очаква същото оформление всеки път, когато взаимодейства с действителния плосък файл. Ако оформлението на файла се промени или данните се изместват от определените му позиции, процесът на ETL трябва да бъде програмиран да се провали. Когато обработвате плоски файлове с фиксирана дължина, опитайте се да проверите дали позициите на данните във файла са точни. Бърза проверка за валидиране на позициите е да тествате всяко поле (дата или час), за да се уверите, че е валидна дата. Ако позициите са изместени, полето за дата най-вероятно съдържа алфа букви или нелогични числа. Други полета с много специфични домейни могат да бъдат тествани по същия начин. XML предлага по-конкретни способности за валидиране. Ако валидирането или съгласуваността на данните е проблем, опитайте се да убедите доставчика на данни да достави данните във XML формат.

12.Защо ETL в хранилището на данни в реално време?

Отговор:
Склад за данни, необходим за осигуряване на непоколебим набор от данни за лицата, вземащи решения, предоставящи надежден информационен етаж, на който да застанат. За да се отчитат актуализираните данни в момента на мигаща база данни, бизнес потребителите бяха насочени към производствените приложения, които управляват бизнеса. Следователно потребителите трябваше да отидат в склада за данни за историческа картина на случилото се в бизнеса от вчера и трябваше да потърсят много OLTP системи за картина на случващото се днес. Бизнес потребителите никога не са приели напълно това разделение. Разполага се, че хранилищата на данни абсолютно се нуждаят от постоянни потоци от информация на клиента от дадена операция, но все по-често операционните системи разчитат и на обогатяването на информацията от клиентите. Следователно е предвидимо организациите да започнат да проучват архитектурни алтернативи, които могат да поддържат по-обобщени сценарии за интеграция, премествайки оперативни данни между приложенията и едновременно в и извън склада с непрекъснато нарастваща спешност.

Препоръчителни статии

Това е ръководство за списък с въпроси и отговори на интервю за ETL, така че кандидатът да може лесно да разруши тези въпроси за интервю за ETL. Можете също да разгледате следните статии, за да научите повече -

  1. Azure Paas срещу Iaas - Характеристики
  2. 9 Невероятни въпроси и отговори за интервю на MapReduce
  3. Топ 11 най-полезни въпроси за интервю за RDBMS
  4. 10 най-страхотни въпроси за интервю за PHP за опитни
  5. Познайте топ 5 полезни въпроса и отговор за интервю за DBA

Категория: