Разлика между науката за данни и машинното обучение

Науката за данните е еволюционно разширение на статистиката, способна да се справи с огромните количества от с помощта на компютърни технологии. Машинното обучение е поле за изучаване, което дава възможност на компютрите да учат, без да са изрично програмирани. Науката за данни обхваща широк спектър от технологии за данни, включително SQL, Python, R и Hadoop, Spark и др. Машинното обучение се разглежда като процес, може да бъде определен като процес, чрез който компютърът може да работи по-точно, тъй като събира и се учи от данните, които му се дават.

Сравнение между главата на науката за данни и машинното обучение (Инфографика)

По-долу е топ 5 сравнението между Data Science срещу машинно обучение

Ключова разлика между Data Science спрямо машинно обучение

По-долу е разликата между Data Science и машинно обучение, както следва

  • Компоненти - Както бе споменато по-рано, системите за Data Science обхващат целия жизнен цикъл на данните и обикновено имат компоненти, които да покриват следното:
    • Събиране и профилиране на данни - ETL (Extract Transform Load) тръбопроводи и работни места за профилиране
    • Разпределени изчисления - Хоризонтално мащабируемо разпределение и обработка на данни
    • Автоматизиране на интелигентността - Автоматизирани ML модели за онлайн отговори (прогнози, препоръки) и откриване на измами.
    • Визуализация на данни - Визуално проучване на данни, за да получите по-добра интуиция на данните. Неразделна част от ML моделирането.
    • Табла за управление и BI - Предварително дефинирани табла с възможност за срезове и зарове за заинтересовани страни от по-високо ниво.
    • Инженеринг на данни - Уверете се, че данните от горещо и студено са винаги достъпни. Обхваща архивиране на данни, сигурност, възстановяване след бедствия
    • Внедряване в производствен режим - Миграционна система в производство с стандартни отраслови практики.
    • Автоматизирани решения - Това включва работа на бизнес логика върху данни или сложен математически модел, обучен с използване на всеки ML алгоритъм.

Моделирането на машинно обучение започва с наличните данни и типичните компоненти са както следва:

  • Разберете проблема - Уверете се, че ефикасният начин за решаване на проблема е ML. Обърнете внимание, че не всички проблеми са разрешими при използване на ML.
  • Разгледайте данни - За да получите интуиция на функциите, които да се използват в модела на ML.Това може да се нуждае от повече от една итерация. Визуализацията на данните играе критична роля тук.
  • Подгответе данни - Това е важен етап с голямо въздействие върху точността на ML модела. Той третира проблем с данни като какво да правим с липсващи данни за функция? Заменете с манекен стойност като нула, или средна стойност на други стойности или пуснете функцията от модела ?. Функциите за мащабиране, което гарантира, че стойностите на всички функции са в един и същ диапазон, са от решаващо значение за много модели ML. Много други техники харесват генерирането на полиномни функции също се използват тук за получаване на нови функции.
  • Изберете модел и обучете - Моделът се избира въз основа на тип проблем (прогноза или класификация и т.н.) и тип набор от функции (някои алгоритми работят с малък брой екземпляри с голям брой характеристики, а други в други случаи),
  • Измерване на ефективността - В Data Science мерките за ефективност не се стандартизират, ще се променят за всеки отделен случай. Обикновено това ще бъде индикация за актуалност на данните, качество на данните, възможност за запитвания, ограничения на съвместимост в достъпа до данни, възможност за интерактивна визуализация и т.н.

В ML модели мерките за ефективност са кристално чисти. Всеки алгоритъм ще има мярка, която показва колко добре или лошо моделът описва дадените данни за обучение. Например, RME (Root Mean Square Error) се използва в Linear Regression като индикация за грешка в модела.

  • Методология на разработка - Проектите за научни данни са приведени по-скоро като инженерни проекти с ясно дефинирани етапи. Но проектите за МЛ са по-скоро от изследвания, които започват с хипотеза и се опитват да го докажат с налични данни.
  • Визуализация - Визуализацията като цяло Data Science представлява данни директно с помощта на всякакви популярни графики като лента, пай и др. Но в ML, използваните визуализации също представляват математически модел на данни за обучение. Например, визуализирането на матрица на объркване на класификация в многокласност помага бързо да се идентифицират фалшиви позитиви и негативи.
  • Езици - SQL и SQL като синтаксисни езици (HiveQL, Spark SQL и т.н.) са най-използваният език в света на науката за данни. Популярни скриптови езици за обработка на данни като Perl, awk, sed също се използват. Специфичните добре поддържани езици са специфични за рамката широко използвана категория (Java за Hadoop, Scala for Spark и т.н.).

Python и R са най-използваният език в света на машинното обучение. В днешно време Python набира все по-голяма скорост, тъй като новите изследователи на задълбочено обучение се преобразуват предимно в python.SQL също играе важна роля във фазата на изследване на данните на ML

Таблица за сравнение на Data Science спрямо машинно обучение

Основа за сравнениеData ScienceМашинно обучение
ОбхватСъздайте представа от данни, занимаващи се с всички сложности в реалния свят. Това включва задачи като разбиране на изискването, извличане на данни и т.н.Точно класифицирайте или прогнозирайте резултата за нова точка от данни, като изучавате модели от исторически данни, като използвате математически модели.
Входни данниПовечето от входните данни се генерират като консумативи за хора, които трябва да се четат или анализират от хора като таблични данни или изображения.Входните данни за ML ще бъдат трансформирани специално за използваните алгоритми. Мащабиране на функции, вграждане на Word или добавяне на полиномни функции са някои примери
Сложност на системата● Компоненти за работа с неструктурирани необработени данни, които идват.

● Много движещи се компоненти, обикновено планирани от оркестрационен слой за синхронизиране на независими задания

● Основната сложност е с алгоритмите и математическите концепции зад това

● Моделът на ансамбъла ще има повече от един модел ML и всеки ще има претеглено принос за крайния резултат

Предпочитан набор от умения● Експертиза в областта на домейна

● ETL и профилиране на данни

● Силен SQL

● NoSQL системи

● Стандартно отчитане / визуализация

● Силно разбиране по математика

● Python / R програмиране

● Свързване на данни със SQL

● Визуализация, специфична за модела

Спецификация на хардуер● Хоризонтално мащабируеми системи, предпочитани да обработват масивни данни

● Висока RAm и SSD дискове, използвани за преодоляване на препятствието на I / O

● GPU са предпочитани за интензивни векторни операции

● По-мощни версии като TPU (link) са на път

Заключение - Data Science vs Machine Learning

И в науката за данни, и в машинното обучение се опитваме да извлечем информация и прозрения от данни. Машинно обучение, опитващо се да направи алгоритмите да учат самостоятелно. В момента напредналите модели на ML се прилагат към Data Science за автоматично откриване и профилиране на данни. Cloud Dataprep в Google е най-добрият пример за това.

Препоръчителен член:

Това е ръководство за Data Science спрямо машинно обучение, тяхното значение, сравнение между главата, ключови разлики, таблица на сравнението и заключение. Можете също да разгледате следните статии, за да научите повече -

  1. Въпроси за интервю за разработчика на Hadoop
  2. Big Data vs Data Science - как са различни?
  3. Науката за данните и нейното нарастващо значение
  4. Статистика срещу машинно обучение - разлики между
  5. Как да разбиете интервюто за разработчици на Hadoop?

Категория: