10 основни въпроса за интервю за основни данни (Актуализирано за 2019 г.)

Съдържание:

Anonim

Въведение в въпросите и отговорите на интервюта за анализ на данни

Така че най-накрая сте намерили мечтаната си работа в Data Analytics, но се чудите как да пропуснете интервюто за анализ на данни от 2019 г. и какви биха могли да бъдат вероятните въпроси за интервю на Data Analytics. Всяко интервю за Data Analytics е различно и обхватът на работата също е различен. Имайки това предвид, ние създадохме най-често срещаните въпроси за интервю за анализи на данни и отговори, за да ви помогнем да постигнете успех в интервюто си за анализ на данни.

По-долу са най-добрите въпроси за интервю за данни за 2019 г., които се задават най-вече в интервю

1. Каква е разликата между извличане на данни и анализ на данни?

Отговор:

Извличане на данниАнализ на данни
За обработката на данни не е необходима хипотезаАнализът на данните започва с хипотеза.
Data Mining изисква чисти и добре документирани данни.Анализът на данните включва почистване на данни.
Резултатите от извличането на данни не винаги са лесни за интерпретиране.Анализаторите на данни интерпретират резултатите и ги представят на заинтересованите страни.
Алгоритмите за извличане на данни автоматично разработват уравнения.Анализаторите на данни трябва да разработят свои собствени уравнения.

2. Споменете кои са различните стъпки в аналитичния проект?

Отговор:
Анализът на данни се занимава със събиране, изчистване, преобразуване и моделиране на данни за получаване на ценна представа и подпомагане на по-доброто вземане на решения в една организация. Стъпките, участващи в процеса на анализ на данни, са следните:

Изследване на данни - След като проучи бизнес проблема, анализаторът на данни трябва да анализира първопричината за проблема.
Подготовка на данните - В този етап от процеса на анализ на данни откриваме аномалии на данни като липсващи стойности в данните.
Моделиране на данни - Етапът на моделиране започва след подготовката на данните. Моделирането е итеративен процес, при който моделът се изпълнява многократно за подобрения. Моделирането на данни гарантира най-добрия възможен резултат за бизнес проблем.
Валидиране - В тази стъпка предоставеният от клиента модел и моделът, разработен от анализатора на данни, са валидирани един срещу друг, за да разберете дали разработеният модел ще отговаря на бизнес изискванията.
Внедряване на модела и проследяване - В тази последна стъпка от прилагането на модела за анализ на данни се извършва и след това проследяване се извършва, за да се гарантира, че моделът се прилага правилно или не?

3.Каква е отговорността на анализатора на данни?

Отговор:
• Решаване на проблеми, свързани с бизнеса, за клиенти и извършване на операции за одит на данни.
• Интерпретирайте данните, използвайки статистически техники.
• Определете области за възможности за подобряване.
• Анализирайте, идентифицирайте и интерпретирайте тенденции или модели в сложни набори от данни.
• Придобиване на данни от първични или вторични източници на данни.
• Поддържайте бази данни / системи за данни.
• Намерете и коригирайте проблемите с кода, като използвате индикатори за производителност.
• Осигуряване на база данни чрез разработване на система за достъп.

4.Какви са сблъсъците на масата на хеш? Как се избягва?

Отговор:
Сблъсък на хеш таблица се случва, когато два различни клавиша имат еднаква стойност. Има много техники за избягване на сблъсък на хеш таблица, тук изброяваме две:
Отделно веригиране: Използва структурата на данните, която се хешира към един и същ слот, за да съхранява няколко елемента.
Отворено адресиране: Търси други слотове с помощта на втора функция и съхранява елемент в първия празен слот.

5. Списък на някои от най-добрите инструменти, които могат да бъдат полезни за анализ на данни?

Отговор:
• Tableau
• RapidMiner
• OpenRefine
• KNIME
• Оператори за търсене с Google
• Solver
• NodeXL
• IO
• Волфрам Алфа
• Google Fusion Tables

6.Каква е разликата между извличане на данни и профилиране на данни?

Отговор:
Разликата между извличане на данни и профилиране на данни е следната -
• Профилиране на данни: Тя е насочена към моменталния анализ на отделни атрибути като разликата в цената, различната цена и тяхната честота, честотата на нулевите стойности, вида на данните, дължината и т.н.
• Извличане на данни: Фокусира се върху зависимости, откриване на последователност, задържане на връзки между няколко атрибута, клъстер анализ, откриване на необичайни записи и т.н.

7. Обяснете K-средния алгоритъм и йерархичен кластеризиращ алгоритъм?

Отговор:
K-Среден алгоритъм - K означава е известен метод на разделяне. В K-средния алгоритъм клъстерите са сферични, т.е. точките от данни в клъстер са центрирани върху този клъстер. Също така, дисперсията на клъстерите е подобна, т.е. всяка точка от данни принадлежи към най-близкия клъстер
Йерархичен алгоритъм на клъстериране - Алгоритъмът за йерархична клъстеризация комбинира и разделя съществуващите групи и създава йерархична структура за тях, за да покаже реда, в който групите са разделени.

8.Какво е почистване на данни? Споменете няколко най-добри практики, които трябва да следвате, докато правите почистване на данни?

Отговор:
От даден набор от данни е изключително важно да се сортира информацията, необходима за анализ на данните. Почистването на данни е решаваща стъпка, при която данните се проверяват за откриване на аномалии, премахване на повтаряща се и неточна информация и т.н. Почистването на данни не включва премахване на съществуваща информация от базата данни, а само повишава качеството на данните, така че да може да се използва за анализ,
Някои от най-добрите практики за изчистване на данни включват -
• Разработване на план за качество на данните, за да се определи къде се появяват грешки с максимално качество на данните, така че да можете да оцените първопричината и да планирате в съответствие с това.
• Следвайте обичайния метод за обосноваване на необходимата информация, преди да я въведете.
• Идентифицирайте дублиращите се данни и потвърдете точността на данните, тъй като това ще спести много време по време на анализа.
• Проследяването на всички операции за подобряване, извършени върху информацията, е изключително необходимо, за да повторите или отнемете всички операции, ако е необходимо.

9. Какви са някои от статистическите методи, които са полезни за анализатора на данни?

Отговор:
Статистическите методи, които са полезни за учените от данни, са
• Байесов метод
• Марков процес
• Пространствени и клъстерни процеси
• Статистика за ранг, проценти, откриване на външни лица
• Техники на импутация и др.
• Simplex алгоритъм
• Математическа оптимизация

10. Обяснете какво е импутацията? Избройте различни видове техники за импутиране? Кой метод на импутация е по-благоприятен?

Отговор:
По време на импутацията имаме тенденция да заместваме липсващата информация със заместени стойности. Видовете техники за импутация включват:
• Single Imputation: Single imputation означава, че липсващата стойност се заменя със стойност. При този метод се извлича размера на извадката.
• Импутация на гореща палуба: Липсваща стойност се изписва от произволно избран подобен запис с помощта на перфокарта
• Импутация на студена палуба: Работи същото като импутацията с гореща палуба, но малко по-напреднала и избира донори от други набори от данни
• Средно импутиране: включва заместване на липсваща стойност с прогнозираните стойности на други променливи.
• Импутация на регресия: включва заместване на липсваща стойност с прогнозираните стойности на определена стойност в зависимост от други променливи.
• Стохастична регресия: Тя е същата като регресионна импутация, но тя добавя общата регресионна дисперсия към регресионната импутация
• Множество импутации: За разлика от единичната импутация, многобройните импутации оценяват стойностите многократно

Въпреки че единичната импутация се използва широко, тя не отразява несигурността, създадена от произволни липсващи данни. Така че многократните импутации са по-благоприятни от единичната импулация в случай на липса на данни на случаен принцип.

Препоръчителни статии

Това беше изчерпателно ръководство за въпросите и отговорите на интервюта за анализ на данни, така че кандидатът да може лесно да преодолее тези въпроси за интервю за анализи на данни. Можете също да разгледате следните статии, за да научите повече -

  1. 10 полезни въпроса и отговори за бързи интервюта
  2. 8 Въпроси за интервю за страхотен алгоритъм
  3. 25 най-важни въпроса за интервю за компютърни науки
  4. 10 удивителни въпроса и отговори за интервю на Data Engineer