4 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Как стать аналитиком данных

Содержание

Кто такой Data Analyst в Big Data: что нужно знать аналитику данных

Продолжая разговор про то, с чего начать вход в большие данные, и какие бывают ИТ-специальности, сегодня мы расскажем, чем именно занимается аналитик Big Data, что он должен знать и уметь, а также где и как получить необходимые профессиональные компетенции.

Что делает аналитик данных

Как правило, Data Analyst работает с информационными массивами, самостоятельно выполняя при этом целый набор операций:

  • сбор данных;
  • подготовка данных к анализу (выборка, очистка, сортировка);
  • поиск закономерностей в информационных наборах;
  • визуализация данных для быстрого понимания имеющихся результатов и будущих тенденций;
  • формулирование гипотез по улучшению конкретных бизнес-метрик за счет изменения других показателей.

Все эти задачи необходимы для достижения главной цели аналитика данных – извлечение из массивов информации сведений, ценных бизнесу для принятия оптимальных управленческих решений.

В некоторых компаниях в обязанности аналитика данных также входит их моделирование, т.е. разработка и тестирование моделей машинного обучения (Machine Learning). Однако, в большинстве случаев, Machine Learning является областью ответственности исследователя или ученого по данным (Data Scientist). При более детальном разделении труда машинным обучением занимается отдельный специалист. О работе Data Scientist’а и его профессиональных компетенциях мы рассказываем здесь.

Также стоит отметить, что иногда Data Analyst занимается анализом бизнес-процессов и очень плотно работает с другими ИТ-специалистами при описании потоков и хранилищ корпоративной информации. Таким образом, в область ответственности аналитика данных также входят задачи Business Intelligence (BI) и оптимизации производственных процессов.

Профессиональный портрет аналитика данных

Профессиональные компетенции аналитика данных: что должен знать Data Analyst

Исходя из вышеописанных задач, можно определить следующие области знаний, необходимые для аналитика данных:

  • информационные технологии – методы и средства интеллектуального анализа данных (Data Mining) – языки программирования (R, Python и пр.) и SQL-подобные языки для написания запросов к нереляционным и реляционным базам данных, а также BI-системы, ETL-хранилища и витрины данных типа Tableau, Power BI, QlikView и т.д., а также основы инфраструктуры Apache Hadoop;
  • математика (статистика, теория вероятностей, дискретная математика);
  • системный анализ, управление качеством, проектный менеджмент и методы анализа бизнес-процессов (подходы бережливого производства, SWOT, ABC, PDCA, IDEF, EPC, BPMN, ССП и пр.).

Кроме того, весьма полезны будут прикладные знания и практический опыт, специфичные для предметной области, в которой работает Data Analyst. Например, основы бухучета пригодятся для аналитика данных в банке, а методы маркетинга помогут при анализе информации о потребностях клиентов или оценке новых рынков.

Области знаний для аналитика данных

Специфика Big Data добавляет к этим базовым компетенциям Data Analyst еще навыки работы с озерами данных (Data Lakes), понимание вопросов информационной безопасности и управления данными (Data Governance), а также владение типовыми сценариями цифровизации (цифровой трансформации) и применения технологий больших данных в различных предметных областях (use-cases). Все это и множество других практических знаний для аналитика данных мы рассматриваем на наших курсах обучения и повышения квалификации ИТ-специалистов в лицензированном учебном центре для руководителей, аналитиков, архитекторов, инженеров и исследователей Big Data в Москве:

Подборка курсов для аналитиков данных.

Кто такие дата-аналитики

Специалисты по работе с большими данными умеют извлекать полезную информацию из всевозможных источников и анализировать её для принятия бизнес-решений. Как правило, аналитики сталкиваются с разрозненной информацией, поэтому важно уметь извлекать нужные данные.

Сейчас профессия дата-аналитика считается одной из самых привлекательных и перспективных в мире. Чтобы стать хорошим аналитиком, нужно больше разбираться в статистике, чем в программировании. Потому что во время работы приходится строить математические модели, которые опишут проблему и фактические данные.

Дата-аналитик работает со случайными величинами и вероятностными моделями, его задача — найти неожиданные закономерности. Поэтому знание теории вероятностей и математической статистики — одно из главных требований к соискателям.

Также необходимо знать языки программирования R или Python и иметь представление о технологиях обработки больших данных. Этих знаний достаточно, чтобы претендовать на начальную позицию дата-аналитика.

Чтобы стать хорошим аналитиком, надо не только разбираться в программировании или статистике, но и отлично знать продукт, а главное, уметь проверять и предлагать гипотезы. Большие данные при правильном применении содержат огромное количество классных инсайтов и идей, как улучшить продукт или определить, что важно.

Читать еще:  Что везти из Болгарии

Но у большинства задач нет однозначного решения или алгоритма: в этом плане анализ данных — работа очень творческая. Важно и умение выбрать правильную визуализацию. Одни и те же данные могут выглядеть случайным набором точек или же рассказать много интересного при правильном подходе.

Знание Python и R

Курс «Изучение Python»

Онлайн-платформа Codecademy предлагает интерактивное изучение Python: на одной странице объясняется краткая теоретическая информация и интерпретатор кода. Курс рассчитан на начинающих пользователей и рассказывает о базовых командах языка программирования.

Курс предоставляется условно-бесплатно: получить доступ к контрольным заданиям и работе над проектами можно только по платной подписке. Бесплатные уроки подойдут, чтобы изучить простые конструкции и разобраться в синтаксисе языка.

Самоучитель «Python 3 для начинающих»

Автор: Дмитрий Мусин.

Самоучитель Мусина — одна из крупных баз знаний про Python на русском языке. На сайте находится информация о модулях, материалы про анализ данных с помощью библиотеки Pandas, теоретическая информация, примеры задач и полезные ссылки. Также на основе опубликованных статей подготовлен самоучитель в PDF-формате.

Курс «Программирование на Python»

Автор: Институт биоинформатики.

На курсе преподаватели знакомят с базовыми понятиями программирования. В качестве домашних заданий предлагается большой объём практических задач — все решения проверяет автоматическая система. При этом преподаватели не дают индивидуальные консультации. В курс также вошли задачи повышенной сложности, которые необязательно решать, чтобы пройти курс.

Курс «Python: основы и применение»

Автор: Институт биоинформатики.

Требования: базовые навыки программирования на Python или других языках программирования.

Студенты курса изучают фундаментальные основы языка: как интерпретатор исполняет код, где он хранит переменные и данные, как определяются собственные типы данных и функции. Курс рассчитан на пользователей, которые знакомы с базовыми навыками программирования.

Проверочные задачи в курсе разделены на два типа: на закрепление материала и поиск способов для применения изученных навыков. Решения проверяются системой.

Курс «Основы программирования на Python»

Слушатели изучают три базовые темы: использование функций, создание и использование классов. Последний урок посвящён созданию собственных проектов. Обучение строится на работе над мини-проектами и изучении важных концепций. Курс нацелен на тех, кто хочет стать программистом или планирует с ними работать.

Курс «Основы программирования на R»

Автор: Институт биоинформатики.

В этом курсе преподаватели рассматривают R как язык программирования, а не как инструмент решения конкретных задач. Слушатели изучают основные типы данных и универсальные семантические правила, а также темы, связанные с анализом и обработкой данных.

Курс «Анализ данных в R»

Автор: Институт биоинформатики.

Требования: базовые знания в области статистики.

Курс «Программирование на R в науке о данных»

Требования: курс ориентирован на аналитиков, которым необходимо знание R для работы над статистическими проектами.

Курс разработан Microsoft вместе с Техническим университетом Дании. В курсе рассказывают про основы R, учат читать и записывать данные, работать с ними и получать результаты. Также преподаватели объясняют, как выполнять интеллектуальную аналитику с помощью R и визуализировать данные.

Проект DataCamp

DataCamp предлагает интерактивные курсы изучения R и Python по темам в области науки, статистики и машинного обучения. Проект делает упор на работу с данными. DataCamp сотрудничает с RStudio, Continuum Analytics, Microsoft, привлекает преподавателей из компаний-лидеров Pfizer, Liberty Mutual, H2O, DataRobot и других.

Бесплатная подписка открывает доступ к базовым курсам и первой главе платных. Чтобы получить неограниченный доступ, нужно купить подписку за $29 в месяц или за $300 в год.

Знания в области статистики и машинного обучения

Курс «Основы статистики»

Автор: Институт биоинформатики.

На курсе изучают подходы к описанию данных, полученных в ходе исследований, базовые понятия статистического анализа, интерпретацию и визуализацию полученных данных. Основной акцент делается на математических идеях, интуиции и логике, которые обуславливают методы и расчётные формулы.

Курс «Алгоритмы: теория и практика. Методы»

Автор: Computer Science Center.

Требования: знания в области одного из языков программирования: циклы, массивы, списки, очереди.

В курсе разбираются базовые алгоритмические методы: «жадные» алгоритмы, метод «разделяй и властвуй», динамическое программирование. Для всех методов преподаватели показывают математическое доказательство корректности и оценки времени работы.

Также на курсе рассказывают об особенностях реализации алгоритмов на C++, Java и Python. Большинство алгоритмов, которые рассматриваются на курсе, необходимо запрограммировать в рамках выполнения заданий.

Курс «Введение в описательную статистику»

Слушатели курса познакомятся с основными понятиями, используемыми для описания данных. Преподаватели расскажут о методах исследований, научат вычислять и интерпретировать статистические значения, вычислять простые вероятности. Студенты изучат законы распределения и научатся управлять ими для создания вероятностных прогнозов данных.

Курс «Введение в статистический вывод»

Требования: прохождение курса «Введение в описательную статистику».

Курс посвящён изучению вывода неочевидных данных. Студенты изучат оценку параметров с использованием выборочной статистики, научатся тестировать гипотезы и доверительные интервалы. Преподаватели объяснят работу t-критерия и дисперсионный анализ, корреляцию и регрессию, а также другие методы проверки статистических гипотез.

Курс «Введение в науку о данных»

Требования: базовые навыки программирования на Python.

Слушатели курса изучат основные понятия науки о данных: управление данными, анализ данных с помощью методов статистики и машинного обучения, передача и визуализация информации, работа с большими данными.

Курс «Введение в машинное обучение»

Автор: Высшая школа экономики, Школа анализа данных.

Требования: знание основ математики (функции, производные, векторы, матрицы), навыки программирования на Python.

На курсе рассматриваются основные типы задач, решаемых с помощью машинного обучения: классификация, регрессия и кластеризация. Слушатели научатся оценивать качество моделей и решать, подходит ли модель для решения конкретной задачи. Преподаватели расскажут о современных библиотеках, в которых реализованы изучаемые модели и методы оценки их качества.

Курс «Науки о данных: визуализация»

Автор: Гарвардский университет.

В курсе изучаются основы визуализации данных и анализа поисковых данных. Слушатели научатся использовать пакет R ggplot2 для создания пользовательских графиков. Также преподаватель расскажет об основных ошибках, которые допускаются при работе с данными.

Читать еще:  Как восстановить удаленные файлы с компьютера

Курс «Введение в искусственный интеллект»

Требования: практические задания основаны на Microsoft Azure и требуют подписки Azure.

Слушатели курса узнают, как использовать машинное обучение для построения прогностических моделей. Преподаватели курса расскажут, какое программное обеспечение необходимо для обработки и анализа естественного языка, изображений и видео. Также студенты научатся создавать интеллектуальных чат-ботов.

Курс «Машинное обучение»

Автор: Стэнфордский университет.

Слушатели курса узнают об эффективных методах машинного обучения и получат практические навыки их реализации. Также преподаватели расскажут о лучших практиках Кремниевой долины в области машинного обучения и искусственного интеллекта.

Курс даёт широкое введение в машинное обучение, интеллектуальный анализ данных и распознавание статистических моделей. Курс основывается на тематических исследованиях и практическом опыте — студенты узнают, как использовать алгоритмы обучения для построения «умных» роботов, анализировать текст, получат навыки в области компьютерного зрения, медицинской информатики, аудио, интеллектуального анализа баз данных и других областей.

Обработка больших данных

Курс «Hadoop. Система для обработки больших объёмов данных»

Автор: Mail.Ru Group.

Требования: желательно уметь читать и писать код, в курсе используются Java и Python.

Hadoop — одна из популярных open-source систем для обработки больших объёмов данных. Среди пользователей системы — Facebook, Twitter, Yahoo!, Bing, Mail.ru. Слушатели изучат основные способы хранения и методы обработки больших объёмов данных. Также студенты курса научатся разрабатывать приложения, используя программную модель MapReduce.

Курс «Введение в Hadoop и MapReduce»

Особые требования: базовые навыки программирования в Python.

Слушатели курса изучат основы работы с Hadoop и узнают, как его использовать для работы с большими данными. Преподаватели расскажут, какие проблемы решает Hadoop, объяснят концепции HDFS и MapReduce. По итогам курса студенты научатся писать программы с использованием MapReduce и получат опыт самостоятельного решения проблем.

Курс «Преобразование данных с помощью MongoDB»

Особые требования: базовые навыки программирования в Python.

Преобразование данных — это процесс очистки данных для облегчения дальнейшей работы с ними. До сих пор некоторые учёные тратят на это большую часть времени. Студенты курса узнают, как собирать и извлекать данные из широко используемых форматов. Слушатели научатся оценивать качество данных и изучат лучшие методы очистки данных с помощью MongoDB — одной из ведущих баз данных NoSQL.

Работа с большими данными

UCI Machine Learning

Ресурс поддерживает 425 наборов данных для сообщества по машинному обучению. Сервис предлагает качественные, реальные и понятные наборы данных машинного обучения, которые можно использовать для практического изучения методов машинного обучения.

Kaggle

Платформа предлагает соревнования для исследователей разного уровня подготовки, где они могут опробовать свои модели на серьёзных и актуальных данных. Kaggle предусматривает денежное вознаграждение за лучшее решение.

Список KDnuggets

KDnuggets — один из ведущих сайтов по бизнес-аналитике, большим данным, интеллектуальному анализу, науке о данных и машинному обучению. Авторы проекта собрали на одной странице 78 источников открытых данных для обработки.

Список Джо Рикерта

Джо Рикер — один из постоянных участников R-сообщества. Он собрал список сайтов, на которых можно найти открытые данные для анализа в системе R.

Комментарий от Эксперта (ИТ-инженер Центра компетенций по супермассивам данных в «Сбербанк-Технологиях» Диана Борисова).

Самоучитель «Python 3 для начинающих» — отличные уроки. Материал разложен кратко и по теме. К этому сайту обращаются не только начинающие программисты, но также опытные ребята.

Курс «Программирование на Python» подойдёт людям, начинающим изучать Python. Имеет место, но не самый лучший. Основы рассказываются долго — лучше обратиться к самоучителю.

Из плюсов — задачи развивают алгоритмическое мышление, минус — не самое оптимальное решение некоторых задач (зная определённые функции можно решить в две строчки вместо 15).

О «Python: основы и применение» слышала много хороших отзывов. Для начинающих будет сложно. Поэтому он больше подойдёт тем, кто знаком с основами.

«Основы программирования на R» — неплохой курс для тех, кто начинает изучать R. Понятное и структурированное изложение, есть практические задания, обращают внимание на важные мелочи.

Курс «Анализ данных в R» ведёт крутой преподаватель, и курс тоже отличный. После изучения математической статистики и основ программирования на R этот курс нужно пройти обязательно

«Основы статистики» — отличный курс для начинающих. Теория изложена на простых и понятных примерах без погружения в доказательства и без огромного количества формул. Практика помогает закрепить теорию.

Курс «Алгоритмы: теория и практика. Методы» организован Computer Science Center, известным своим хорошим изложением теории программирования.

Курс подходит для тех, кто уже имеет какое-то представление об алгоритмах. Практические задания помогают закрепить материал, над некоторыми задачами придётся посидеть подольше.

1. Платформа Стэнфордского университета, на которой также можно найти неплохие курсы для разного уровня.

Лучше Андрея Райгородского — преподавателя курса — никто не объяснит эту тему. Разжёвывает всё, даёт понятные примеры. Курс однозначно стоит внимания.

После основ статистики можно продолжить углублять знания в данной теме и пройти второй курс. Анатолий Карпов излагает материал максимально понятно и просто.

Очередной отличный курс от Института биоинформатики. Для начинающих, возможно, будет немного сложно. Но курс в любом случае стоит внимания.

Сайт поможет изучить основы программирования на Python. Работа проходит прямо в браузере. Сначала читаешь статью, затем решаешь много практических задач от легкого уровня к сложному.

Курс с хорошими отзывами. Думаю, что для тех, у кого хромает математический аппарат, курс обязателен к изучению. Ничего лучше теории в сочетании с практикой придумать нельзя.

Data Science с нуля: языки, навыки и курсы для начинающих специалистов по данным

Если вы любите математику, статистику, умеете и любите программировать и хотите зарабатывать 300-600 тысяч рублей в месяц, идите в анализ больших данных и машинное обучение — Data Science.

Читать еще:  Как выбрать чехол для акустической гитары

В этой статье расскажем, какие навыки и знания вам понадобятся, где этому научиться и какие профессии есть сейчас в одном из самых востребованных IT-направлений.

Data Scientist — что за профессия?

Data Science занимается сбором и анализом данных. Разброс сфер, в котором она применяется, огромен: большие данные помогают определять вероятность развития заболеваний, находить опухоли на снимке, показывать персонализированную рекламу, находить мошеннические транзакции.

Сюда же входят машинное обучение, нейросети и искусственный интеллект — тот самый поиск по картинке, «умный дом» и Алиса, которая понимает шутки и отвечает почти как реальный человек.

Интернет вещей, промышленность, маркетинг и любая IT-компания генерируют петабайты данных, которые нужно где-то хранить и обрабатывать, а потом на основе анализа делать прогнозы и предлагать решения для оптимизации и роста бизнеса. В Data Science есть несколько специалистов, которые этим занимаются:

  1. Инженер данных (Data Engineer) – разрабатывает систему обработки данных, которая выдерживает большие нагрузки и не отключается от перегрузки. Собирает, хранит и управляет потоками данных в реальном времени, работает с кластерами серверов на Linux, с Hadoop, Spark и облачными системами.
  2. Разработчик BI (Business Intelligence Developer) — проектирует внутренние хранилища данных и создает аналитические отчеты в BI-системах. Знает SQL, инструменты ETL и умеет программировать.
  3. Аналитик данных (Data Analyst) — суммирует и интерпретирует полученные данные — переводит их на понятный бизнесу язык. Знает Excel, SQL и системы аналитики.
  4. Специалист по данным (Data Scientist) — имеет самый обширный список навыков: анализирует данные, программирует, разрабатывает новые алгоритмы, обрабатывает большие объемы информации. Но главное — именно он делает прогнозы и помогает компаниям решать бизнес-задачи на основе полученных данных.

Отдельно — инженер по машинному обучению и специалист по AI (искусственному интеллекту). Они занимаются программированием, администрированием и ускорением обучения нейронных сетей, владеют инструментами обработки естественного языка и методами глубокого обучения.

Сколько зарабатывают специалисты по большим данным

В Big Data глобальный дефицит кадров: уже сейчас в США не хватает больше 150 тысяч специалистов, а Amazon и Google инвестируют суммарно 357 млн долларов только в поиск сотрудников в отдел машинного обучения.

Благодаря высокому спросу зарплаты таких специалистов соответствующие: в США data scientist получает в среднем $9700 в месяц, что по нынешнему курсу превышает 600 тысяч рублей, аналитик — $5600 или 360 тысяч рублей.

В России ставки чуть ниже: максимальная зарплата специалиста по данным — 300 тысяч, а аналитика — 200 тысяч рублей в месяц. Впрочем, при таком дефиците профессионалу устроят релокейт и предоставят бесплатные языковые курсы — главное, чтобы он владел нужными навыками и опытом.

Какие навыки нужны для работы с Big Data и Machine Learning

Начнем с основ: для работы в любом направлении, связанном с большими данными, вам понадобятся знания математики, математической статистики и понятий науки о данных. Например, на собеседовании вам обязательно зададут вопросы о:

  • теории вероятности — проверят, насколько хорошо вы в этом разбираетесь и можете ли самостоятельно просчитать вероятность события. Примеры заданий здесь;
  • корреляции — если работаете со статистическими методами, освежите знания и потренируйтесь решать задачи на корреляцию;
  • линейной регрессии — этот метод часто используют, чтобы решать проблемы классификации, так что ловите вопросы, на которые точно нужно знать ответ любому специалисту по данным.

Что еще нужно изучить? Машинное обучение, его алгоритмы и методы, так как оно составляет основу работы с большими данными:

  • обработка естественного языка (NLP),
  • дерево решений,
  • метод опорных векторов,
  • метод снижения соразмерности,
  • кластерный анализ.

Дальше — больше, точнее, глубже: Deep Learning — глубокое обучение, алгоритмы обработки изображений, анализа текстов и распознавания речи.

Из технических навыков: специалист по большим данным должен знать языки программирования Python и R, работать с инструментами SQL и NoSQL, SAS, понимать Map Reduce Hadoop и Hive/Pig, уметь работать в xaaS-сервисах (один из таких — Amazon Web Services).

Не забываем и про soft skills: недостаточно уметь программировать и обрабатывать информацию, нужно еще понимать бизнес, уметь стратегически мыслить, быть креативным и работать в команде, а пойманные инсайты превращать в конкретные бизнес-решения.

Такой набор навыков встречается редко, специалисты — на вес золота, а спрос сейчас во много раз превышает предложение. Поэтому самое время учиться.

Где учиться на Data Scientist — специалиста по большим данным

В университетах такая специальность встречается редко — пока только в ВШЭ, СПбГУ, МГУ и МФТИ.

Чаще всего учат некоторым аспектам профессии, а не комплексно, поэтому на фоне государственного образования выигрывают онлайн-курсы: они короче, интенсивнее, дают больше практики и главное — больше актуальных знаний и навыков, потому что информация постоянно обновляется и не успевает устаревать.

Можно выбрать несколько курсов по разным направлениям и постепенно вырасти из аналитика данных до самого востребованного сейчас Data Scientist’а.

А можно пройти один: Data Science с нуля за 12 месяцев — программа комплексного изучения науки о данных: если вы ни разу в жизни не программировали, а математику учили только в школе, этот курс научит вас всему необходимому для работы с данными. Персональный ментор, множество практики на реальных бизнес-задачах, соревнования и хакатоны, а в конце — стажировка для лучших студентов курса и помощь с трудоустройством.

На курсе повторите математику и основы статистики, с нуля напишете свою первую программу на Python, обучите нейронную сеть и напишете умного чат-бота. Через 12 месяцев станете крутым специалистом, за которого IT-компании будут бороться и конкурировать.

Узнайте все о фрилансе в 5 письмах

Подпишитесь на бесплатный email-курс, который расскажет про поиск заказов, работу с клиентами и самопрезентацию фрилансера

Thank you!

You have successfully joined our subscriber list.

Источники:

http://www.bigdataschool.ru/bigdata/data-analyst-big-data.html
http://datascientist.one/25-courses-data-analytics/
http://digitalbroccoli.com/2019/04/29/data-science-how-to-become/

Ссылка на основную публикацию
Статьи c упоминанием слов:
Adblock
detector