Data science: лучшие учебные курсы и программы сертификации
Содержание:
- «Введение в Data Science и машинное обучение» от Института биоинформатики
- Требования к специалисту
- Где используется Data Science?
- Data Scientist: кто это и что он делает
- Необходимые инструменты для работы
- «Самая сексуальная профессия»
- Data Science – что это?
- Действия, увеличивающие ценность Data scientist
- Будущее Data Science
- Уровень 1. От стажёра к джуну
- Какие специалисты работают с данными
- Вакансии и зарплата, перспективы профессии
- От бизнес-метрик до sticky sessions
- Как стать Data scientist: лучшее обучение
- Основные термины
- Стоит ли становиться специалистом в области Data Science?
«Введение в Data Science и машинное обучение» от Института биоинформатики
Длительность курса: 30 уроков.
Формат обучения: видеоуроки + тесты + интерактивные задачи.
Программа обучения:
- О чём курс?
- Big Data, Deep Machine Learning — основные понятия.
- Модель, начнём с дерева.
- Pandas, Dataframes.
- Фильтрация данных
- Группировка и агрегация.
- Визуализация, seaborn.
- Практические задания: Pandas.
- Секретный гость.
- Stepik ML contest — это ещё что такое?
- Stepik ML contest — data preprocessing.
- Какого музыканта Beatles я загадал или entropy reduction.
- Немного теории и энтропии.
- Titanic: Machine Learning from Disaster.
- Обучение, переобучение, недообучение и кросс-валидация.
- Последний джедай или метрики качества модели.
- Подбор параметров и ROC and Roll.
- Практика, Scikit-learn, fit, predict, you are awesome.
- ML на практике — автокорректор ошибок правописания.
- Секретный гость.
- Stepik ML contest.
- Снова возвращаемся к деревьям.
- Random forest.
- Зачем знать что-то ещё, если есть Random Forest?
- Секретный гость.
- И на Марсе будут яблони цвести.
- Нейроэволюция.
- Трюки в Pandas.
- Вот и всё, а что дальше?
- Stepik ML contest.
Что освоите:
- Основные понятия Data Science и Machine Learning
- Наиболее популярные Python-библиотеки для анализа данных — Pandas и Scikit-learn
- Начать обучение можно сразу после регистрации
- Обучение проводят лучшие преподаватели Института биоинформатики
- Современная программа обучения
- Изложение материала простым языком
- Можно бесплатно получить сертификат по окончании обучения
Преподаватели:
Требования к специалисту
Специалист по данным неразрывно связан с Data Science – наукой о данных. Она находится на пересечении нескольких направлений: математики, статистики, информатики и экономики. Следовательно, специалисты должны понимать и интересоваться каждой из этих наук.
Кроме этого, Data Scientist должен знать:
- Языки программирования для того, чтобы писать на них код. Самые распространенные – это SAS, R, Java, C++ и Python.
- Базы данных MySQL и PostgreSQL.
- Технологии и инструменты для представления отчетов в графическом формате.
- Алгоритмы машинного и глубокого обучения, которые созданы для автоматизации повторяющихся процессов с помощью искусственного интеллекта.
- Как подготовить данные и сделать их перевод в удобный формат.
- Инструменты для работы с Big Data: Hadoop, MapReduce, Apache Hive, Apache Kafka, Apache Spark.
- Как установить закономерности и видеть логические связи в системе полученных сведений.
- Как разработать действенные бизнес-решения.
- Как извлекать нужную информацию из разных источников.
- Английский язык для чтения профессиональной литературы и общения с зарубежными клиентами.
- Как успешно внедрить программу.
- Область деятельности организации, на которую работает.
Помимо того, что специалист по данным должен обладать аналитическим и математическим складом ума, он также должен быть:
- трудолюбивым,
- настойчивым,
- скрупулезным,
- внимательным,
- усидчивым,
- целеустремленным,
- коммуникабельным.
Хочу отметить, что гуманитариям достичь высот в этой профессии будет крайне тяжело. Только при большом желании можно пробовать осваивать данную стезю.
Где используется Data Science?
- Как насчет того, сможете ли вы понять точные требования своих клиентов к существующим данным, таким как история просмотра посетителей, история покупок, возраст и доход. Без сомнения, у вас были все эти данные ранее, но теперь с огромным количеством и разнообразием их вы можете более эффективно обучать модели и рекомендовать продукт своим клиентам с большей точностью. Разве это не удивительно, поскольку это принесет больше преимуществ вашей организации?
- Давайте рассмотрим другой сценарий, чтобы понять роль Data Science в принятии решений. Как насчет того, если ваш автомобиль использовал элементы ИИ чтобы отвезти вас домой? Автопилот собирает данные от датчиков, радаров, камер и лазеров, чтобы создать карту окружения. Основываясь на этих данных, он принимает решения, например, когда ускоряться, когда нужно обгонять, где нужно сделать чередование с использованием передовых алгоритмов машинного обучения.
- Давайте посмотрим, как Data Science может использоваться в интеллектуальной аналитике. Рассмотрим пример прогнозирования погоды. Данные о кораблях, самолетах, радарах, спутниках могут собираться и анализироваться для создания моделей. Эти модели не только прогнозируют погоду, но также помогают прогнозировать возникновение любых стихийных бедствий. Это поможет вам заранее принять необходимые меры и спасти много драгоценных жизней.
Посмотрим на нижеприведенную инфографику, чтобы увидеть все области, где Data Science производит впечатляющие результаты.
В каких областях Data Science поражает воображение
Теперь, когда вы поняли необходимость в Data Science, давайте поймем, что это такое.
Data Scientist: кто это и что он делает
В переводе с английского Data Scientist – это специалист по данным. Он работает с Big Data или большими массивами данных.
Источники этих сведений зависят от сферы деятельности. Например, в промышленности ими могут быть датчики или измерительные приборы, которые показывают температуру, давление и т. д. В интернет-среде – запросы пользователей, время, проведенное на определенном сайте, количество кликов на иконку с товаром и т. п.
Данные могут быть любыми: как текстовыми документами и таблицами, так и аудио и видеороликами.
От области деятельности зависят и результаты работы Data Scientist. После извлечения нужной информации специалист устанавливает закономерности, подвергает их анализу, делает прогнозы и принимает бизнес-решения.
Человек этой профессии выполняет следующие задачи: оценивает эффективность и работоспособность предприятия, предлагает стратегию и инструменты для улучшения, показывает пути для развития, автоматизирует нудные задачи, помогает сэкономить на расходах и увеличить доход.
Его труд заканчивается созданием модели кода программы, сформировавшейся на основе работы с данными, которая предсказывает самый вероятный результат.
Профессия появилась относительно недавно. Лишь десятилетие назад она была официально зафиксирована. Но уже за такой короткий промежуток времени стала актуальной и очень перспективной.
Каждый год количество информации и данных увеличивается с геометрической прогрессией. В связи с этим информационные массивы уже не получается обрабатывать старыми стандартными средствами статистики. К тому же сведения быстро обновляются и собираются в неоднородном виде, что затрудняет их обработку и анализ.
Вот тут на сцене и появляется Data Scientist. Он является междисциплинарным специалистом, у которого есть знания статистики, системного и бизнес-анализа, математики, экономики и компьютерных систем.
Знать все на уровне профессора не обязательно, а достаточно лишь немного понимать суть этих дисциплин. К тому же в крупных компаниях работают группы таких специалистов, каждый из которых лучше других разбирается в своей области.
Более 100 крутых уроков, тестов и тренажеров для развития мозга
Начать развиваться
Эти знания помогают ему выполнять свои должностные обязанности:
- взаимодействовать с заказчиком: выяснять, что ему нужно, подбирать для него подходящий вариант решения проблемы;
- собирать, обрабатывать, анализировать, изучать, видоизменять Big Data;
- анализировать поведение потребителей;
- составлять отчеты и делать презентации по выполненной работе;
- решать бизнес-задачи и увеличивать прибыль за счет использования данных;
- работать с популярными языками программирования;
- моделировать клиентскую базу;
- заниматься персонализацией продуктов;
- анализировать эффективность деятельности внутренних процессов компании;
- выявлять и предотвращать риски;
- работать со статистическими данными;
- заниматься аналитикой и методами интеллектуального анализа;
- выявлять закономерности, которые помогают организации достигнуть конечной цели;
- программировать и тренировать модели машинного обучения;
внедрять разработанную модель в производство.
Четких границ требований к Data Scientist нет, поэтому работодатели часто ищут сказочное создание, которое может все и на превосходном уровне. Да, есть люди, которые отлично понимают статистику, математику, аналитику, машинное обучение, экономику, программирование. Но таких специалистов крайне мало.
Еще часто Data Scientist путают с аналитиком. Но их задачи несколько разные. Поясню, что такое аналитика и как она отличается от деятельности Data Scientist, на примере и простыми словами.
В банк пришел клиент, чтобы оформить кредит. Программа начинает обрабатывать данные этого человека, выясняет его кредитную историю и анализирует платежеспособность заемщика. А алгоритм, который решает выдавать кредит или нет, – продукт работы Data Scientist.
Аналитик же, который работает в этом банке, не интересуется отдельными клиентами и не создает технические коды и программы. Вместо этого он собирает и изучает сведения обо всех кредитах, что выдал банк за определенный период, например, квартал. И на основе этой статистики решает, увеличить ли объемы выдачи кредитов или, наоборот, сократить.
Аналитик предлагает действия для решения задачи, а Data Scientist создает инструменты.
Необходимые инструменты для работы
Когда выбрана одна конкретная стезя в аналитике, стоит разобрать в том, какие инструменты могут пригодиться для дальнейшей работы. Мало обладать теоретическими знаниями. Без комп. программ и утилит обрабатывать сведения в электронном виде невозможно. Особенно тогда, когда речь идет о больших ее объемах.
Многое зависит от того, какой именно специалист приступает к работе. Ориентироваться можно на следующие советы:
- Все «ученые по обработке и аналитике материалов» должны разбираться в таблицах, СУБД, хранилищах, SQL и ETL.
- BI-аналитик: инструментарий BI (Power BI, Tableau, OLAP, майнинг), SAS, R, Python, Knime, RapidMiner.
- Специалистам по данным и «ученым»: библиотеки визуализации и проведения досконального анализа в R и Python, углубленное изучение майнинга, Docker, Airflow.
- Инженерам: углубленные познания в ETL-процессах, а также в процессах выстраивания пайплайна.
Также предстоит задуматься над тем, чтобы углубиться в программирование. Обязательно знать SQL, а также Python. В идеале дополнить соответствующий багаж Scala и Java.
В аналитике часто задействуются облачные платформы. Если потенциальный «ученый» хорошо в них разбирается, добиться успехов в карьере ему будет не слишком трудно. А еще рекомендуется изучить технологии обработки сведений в огромных объемах (Kafka, Hadoop, Spark).
Навыки и умения
Комп – не единственное, что должен освоить будущий «ученый по информации». Такой специалист обладает определенными навыками и умениями.
Для более быстрого продвижения по карьерной лестнице, а также для того, чтобы стажировка не доставляла хлопот, человеку пригодятся следующие качества и навыки:
- абстрактность мышления;
- наблюдательность;
- наличие логики (чем больше она развита – тем лучше);
- высокий эмоциональный интеллект;
- умение работать в команде и конструктивно воспринимать критику;
- усидчивость;
- навыки программирования;
- способность быстро получать, преобразовывать, очищать и структурировать поступаемые сведения;
- умения создавать презентации, рисовать диаграммы;
- проведение исследований и A/B-тестов;
- спектр познаний в математических методах и основах статистики;
- способность создавать скетчи и разнообразные прототипы.
Также для работы потребуется мощный компьютер, но им обычно снабжает работодатель. В некоторых ситуациях Data Science предусматривает подключение суперкомпьютеров.
«Самая сексуальная профессия»
Как написал несколько лет назад журнал Harvard Business Review: «Data Scientist — самая сексуальная профессия XXI века».
В статье рассказывалось о Джонатане Голдмане, физике из Стэнфорда, который устроившись на работу в социальную сеть LinkedIn, занялся чем-то странным и непонятным. Пока команда разработчиков ломает голову над тем, как модернизировать сайт и справиться с наплывом посетителей, Голдман строит прогностическую модель, которая подсказывает владельцу аккаунта LinkedIn, кто еще из пользователей сайта может оказаться его знакомым.
С тех пор профессия Data Scientist не стала менее сексуальной, скорее наоборот. В 2016 году она возглавила кадровой компании Glassdoor. Не будем подробно останавливаться на том, почему сегодня эта профессия считается одной из самых высокооплачиваемых, привлекательных и перспективных в мире. Отметим лишь, что число вакансий в этом направлении продолжает расти по экспоненте. Согласно прогнозам McKinsey Global Institute, к 2018 году в одних только США понадобится дополнительно порядка 140-190 тысяч специалистов по работе с данными.
Неудивительно, что сегодня так много желающих освоить эту профессию. Давайте разберемся, кто же такой Data Scientist и какими навыками и знаниями он должен обладать.
Data Science – что это?
Data Science – это работа с неструктурированными данными, осуществляемая с помощью различных методик машинного обучения и математической статистики. Однако сегодня стало очевидным, что для получения полезной информации необходимо не только применять определенные алгоритмы, но и обладать нужным уровнем гибкости и понимания, чтобы выявить имеющиеся закономерности и связи.
Поэтому Data Science предлагает 5 уровней работы с данными:
- Объединение (сбор и ввод, прием сигнала, удаление ненужных сведений);
- Сопровождение (хранение, очистка, подготовка, обработка и архитектура);
- Процесс (интеллектуальный анализ, кластеризация /классификация, моделирование, обобщение);
- Анализ (исследовательский / подтверждающий, прогнозный, регрессивный, интеллектуальный, качественный);
- Коммуникация (отчетность, визуализация данных, бизнес-аналитика, принятие решений).
Действия, увеличивающие ценность Data scientist
Дата-сайентист может повысить стоимость своих услуг, соблюдая ряд простых правил.
5 шагов к повышению зарплаты:
- Следите за новостями в сфере аналитики данных, интересуйтесь трендовыми направлениями, восполняйте недостающие знания.
- Принимайте участие в семинарах, круглых столах, конференциях по профессиональной тематике. Не будьте пассивным слушателем. Озвучивайте новые идеи. Добивайтесь признания среди коллег.
- Повышайте квалификацию по своей узкой специализации. Эксперты в определенном направлении больше ценятся работодателями.
- Создавайте команду единомышленников. Опыт собственного стартапа приветствуется при приеме на работу.
- Учитесь говорить на языке, понятном для бизнеса.
Будущее Data Science
У Data Science большие перспективы, и вот почему:
Экспоненциальный рост объема данных в мире
Люди проводят все больше времени в интернете, бизнес диджитализируется, начинает развиваться интернет вещей (IoT). К 2025 году объем данных в мире увеличится почти в 3 раза, до 181 Зеттабайта (секстилиона байтов). Еще в 2010 году в мире было всего 2 Зб.
Рост рынка Data Science
Гигантские объемы данных ведут к росту количества Data Science-стартапов и вакансий специалистов по анализу данных. По прогнозам, до 2027 года рынок будет в среднем расти на 27% в год. Больше всего решений требуется в маркетинге и рекламе, логистике, финансах и поддержке пользователей.
Развитие технологий искусственного интеллекта
Эксперты утверждают, что в ближайшем будущем на улицах городов массово появятся беспилотные автомобили, а домашняя техника будет подключена к интернету вещей (IoT). Автономные автомобили используют машинное обучение для анализа дорожной ситуации и безопасного передвижения. IoT позволит получать данные миллиардов новых устройств и использовать искусственный интеллект в системах «умного дома».
Все это ведет к повышению спроса на дата-сайентистов. Так, количество вакансий в этой сфере в России за три года выросло на 433%. Спрос на специалистов превышает предложение, а это увеличивает их зарплату: junior data scientist после года обучения в среднем получает от 120 тыс. рублей, а после трех лет опыта — от 250 тыс. рублей.
Курс
Data Scientist
Специалисты Data Science нужны во всех сферах бизнеса — получите востребованную профессию и станьте одним из них. Дополнительная скидка 5% по промокоду BLOG.
Узнать больше
Уровень 1. От стажёра к джуну
Главное на этом уровне — научиться работать с датасетами в виде CSV-файлов, обрабатывать и визуализировать данные, понимать, что такое линейная регрессия.
Основы обработки данных
В первую очередь придётся манипулировать данными, чистить, структурировать и приводить их к единой размерности или шкале. От новичка ждут уверенной работы с библиотеками Pandas и NumPy и некоторых специальных навыков:
- импорт и экспорт данных в CSV-формате;
- очистка, предварительная подготовка, систематизация данных для анализа или построения модели;
- работа с пропущенными значениями в датасете;
- понимание принципов замены недостающих данных (импутации) и их реализация — например, замена средними или медианами;
- работа с категориальными признаками;
- разделение датасета на обучающую и тестовую части;
- нормировка данных с помощью нормализации и стандартизации;
- уменьшение объёма данных с помощью техник снижения размерности — например, метода главных компонент.
Визуализация данных
Новичок должен знать основные принципы хорошей визуализации и инструменты — в том числе Python-библиотеки matplotlib и seaborn (для R — ggplot2).
Какие компоненты нужны для правильной визуализации данных:
Данные. Прежде чем решить, как именно визуализировать данные, надо понять, к какому типу они относятся: категориальные, численные, дискретные, непрерывные, временной ряд.
Геометрия. То есть какой график вам подойдёт: диаграмма рассеяния, столбиковая диаграмма, линейный график, гистограмма, диаграмма плотности, «ящик с усами», тепловая карта.
Координаты. Нужно определить, какая из переменных будет отражена на оси x, а какая — на оси y
Это важно, особенно если у вас многомерный датасет с несколькими признаками.
Шкала. Решите, какую шкалу будете использовать: линейную, логарифмическую или другие.
Текст
Всё, что касается подписей, надписей, легенд, размера шрифта и так далее.
Этика. Убедитесь, что ваша визуализация излагает данные правдиво. Иными словами, что вы не вводите в заблуждение свою аудиторию, когда очищаете, обобщаете, преобразовываете и визуализируете данные.
Обучение с учителем: предсказание непрерывных переменных
Главное: стажёру придётся изучить методы регрессии, стать почти на ты с библиотеками scikit-learn и caret, чтобы строить модели линейной регрессии
Но чтобы стать полноценным джуниором, стажёр должен знать и уметь ещё кучу всего (осторожно — там сложные слова, но есть подсказки):
- проводить простой регрессионный анализ с помощью NumPy или Pylab;
- использовать библиотеку scikit-learn, чтобы решать задачи с множественной регрессией;
- понимать методы регуляризации: метод LASSO, метод упругой сети, метод регуляризации Тихонова;
- знать непараметрические методы регрессии: метод k-ближайших соседей и метод опорных векторов;
- понимать метрики оценок моделей регрессии: среднеквадратичная ошибка, средняя абсолютная ошибка и коэффициент детерминации R-квадрат;
- сравнивать разные модели регрессии.
Какие специалисты работают с данными
Аналитик данных (Data Analyst) — работает с данными в структурированном виде из внутренних систем аналитики, помогает бизнесу суммировать и интерпретировать эти данные. Работает с Excel, SQL и внутренними системами аналитики. В SkillFactory открыт курс «Специализация Аналитик Данных»
Разработчик BI (Business Intelligence Developer) — занимается проектированием внутренних хранилищ данных, связыванием данных из различных систем, а также созданием дэшбордов и аналитических отчетов. Использует BI-системы (Oracle, IBM и другие), SQL, инструменты ETL и языки программирования.
Инженер по данным (Data Engineer) — занимается созданием и поддержкой инфраструктурой данных, в частности Big Data. Занимается сбором, хранением и управлением потоками данных в реальном времени. IT-специалист высочайшего уровня, работающий с кластерами серверов на Linux, облачными системами, такими системами обработки больших данных, как Hadoop, Spark и другие. В SkillFactory открыт курс «Специализация Data Engineer»
Специалист по данным (Data Scientist) — занимается интеллектуальным анализом структурированных и неструктурированных данных. Использует статистику, машинное обучение и продвинутые методы предиктивной аналитики для решения ключевых бизнес-задач. По сравнению с аналитиком данных, специалист по данным должен не только уметь анализировать полученную информацию, но и обладать отличными навыками программирования, уметь разрабатывать новые алгоритмы, обрабатывать большие объемы информации и иметь хорошее представление о той сфере, в которой он применяет свои знания.
Вакансии и зарплата, перспективы профессии
Эта профессия достаточно молодая, но уже востребована на рынке. Количество данных растет в геометрической прогрессии и требует нестандартного подхода к обработке. Традиционное машинное обучение не срабатывает, нужен совершенно другой подход.
Специалистов разного уровня недостаточно, спрос на их услуги очень высок
Но важно понимать, что выйти на достойную оплату труда за несколько месяцев для Data scientist невозможно. Но для старта в профессии достаточно иметь отличную математическую базу, навыки программирование и знать алгоритмы
В зависимости от уровня знаний и опыта работы зарплата специалиста будет следующая:
Квалификация (уровень знаний) |
Опыт работы и зарплата |
Junior |
Опыт работы до 1 года. Специалисты этого уровня уже знают базовые модели и могут их адаптировать для решения конкретной задачи. Умеют визуализировать данные. Зарплата специалиста 60 000 – 120 000 рублей. |
Middle |
Опыт работы 1-3 года. Специалисты этого уровня уже могут обучать прототипы и подбирать модель под конкретную задачу. Они хорошо понимают потребности бизнеса и могут быстро решить задачу. Зарплата специалиста 150 000 – 180 000 рублей. |
Senior |
Опыт работы от 3-х лет. Специалист такого уровня уже может управлять командой, быть связующим звеном между исполнителями и бизнесом. Он хорошо разбирается в распределенных вычислениях, может быстро обучить прототип на незнакомых данных для оценки эффективности новой идеи. Зарплата специалиста 180 000 – 270 000 руб. |
Самые свежие вакансии с кратким описанием требований к кандидату
Итак, начинающий специалист может рассчитывать на зарплату от 60 000 рублей. Востребованность и высокую оплату подтверждают следующие вырезки только с одного сайта с вакансиями:
Направления развития в профессии
Data scientist всегда работает в команде, состоящей из аналитиков и инженеров данных. Каждый специалист занимается только одним направлением:
- Data engineer – инженер данных, отвечает за создание и поддержку инфраструктуры, обеспечивая сбор, хранение и управление потоками данных в реальном времени.
- Chief data officer – директор по данным, управляет жизненным циклом данных так, чтобы каждый специалист получал нужную информацию в подходящем виде и приемлемом качестве. Контролирует работу других специалистов.
- Data mining – аналитик данных, который обрабатывает исходные данные и предоставляет их в компактном виде.
- Text mining – аналитик текстов, который обрабатывает и разделяет тексты на категории, извлекая информацию и обрабатывая изменения.
Сферы применения Data scientist
В настоящее время формирование и обработка баз данных есть в любой сфере деятельности. В реальной жизни специалист может найти применение своих знаний в следующих отраслях:
Отрасль |
Пояснения |
Производство |
Необходимо мониторить текущие процессы и находить причины возникновения брака. Предлагать варианты оптимизации и улучшения качества продукции. Планировать различные эксперименты и предлагать новые виды продукции. |
Энергетика |
Основные задачи специалиста состоят в прогнозировании объемов потребления и цен на электроэнергию. Он может провести диагностику объектов и рассчитать оптимальные тарифы. Предложит оптимизировать режим потребления электроэнергии, подготовит заявки на почасовое потребление. |
Ритейл |
Необходимо прогнозировать спрос и цены, отток или увеличение количества клиентов. Анализировать предпочтения потребителей. Оптимизировать склады и логистику для увеличения эффективности. |
Финансы |
Оценивать риски и резервные фонды. Отслеживать мошенничество и возможные риски неисполненных кредитных обязательств. Построение инвестиционных моделей входит в задачи специалиста. |
От бизнес-метрик до sticky sessions
В силу этого разнообразия вопросы на интервью тоже иногда удивляют. Я не могу похвастаться большим количеством пройденных интервью, но дисперсия вопросов успела впечатлить. Спрашивают всякое: аксиоматику Колмогорова, как написать LRU-cache на салфетке, способы реализации sticky-сессий в распределенных приложениях, методы оценки экономического эффекта от внедрения ML модели в продукт, задачи про гномов и шапки…
Если позиция предполагает какой-то deep learning, то обязательно спросят, как устроен Adam и зачем нужен Batch Normalization. Тестовые задания, которые я видел, в основном двух типов: «выжми из этого датасета метрику получше» (здесь могут оценивать и саму метрику, и способ подачи результатов) и «напиши эту несложную функцию» (в этом случае обязательно будут смотреть на чистоту кода, тесты и прочие хорошие практики).
В целом, все те же проблемы, которые часто обсуждаются касательно найма разработчиков, касаются и DS с поправкой на общую незрелости роли (т.е. в среднем все еще хуже). Ситуации, в которых интервьюер что-то недавно узнал/опробовал, и теперь ожидает от кандидата ответ, совпадающий с его собственным опытом — не редкость даже в крупных компаниях.
Впрочем, все это дикое разнообразие в чем-то и хорошо: практически любой набор скиллов, от умения болтать и рисовать графики до опыта тренировки GAN-ов в итоге будет высоко оценен хоть кем-то из нанимателей. Как следствие, ответ на вопрос «так и что мне учить, чтобы легко найти работу в DS» очень расплывчатый — «зависит от твоих личных склонностей».
23 популярных курса по Data Science от Coursera
По теме
23 популярных курса по Data Science от Coursera
Как стать Data scientist: лучшее обучение
Следует помнить, что востребованным специалистом не получится стать при самостоятельном изучении всех дисциплин. В любом случае необходимо пройти профессиональные курсы.
Отличный курс для новичков с любым уровнем начальных знаний – «Data scientist» от Skillfaktory. Именно здесь обучение построено таким образом, что на каждом этапе погружения в профессию новичок работает с реальными задачами от партнеров. Каждый полученный кейс входит в портфолио выпускника.
Обучение длится 24 месяца, то есть два семестра по 6 месяцев. За это время новичок достигает уровень Junior с портфолио из 8-и кейсов различных тематик.
Следующие 2 семестра – специализация по выбору. За 12 месяцев студент наполняет свое портфолио еще пятью успешными кейсами. В результате обучения и работы над реальными задачами достигает уровня Middle.
После завершения обучения каждый выпускник обладает знаниями и навыками достигнутого уровня. Может претендовать на соответствующую оплату своего труда.
Особенность обучения на этом курсе в том, что каждый студент в ходе решения задачи может обратиться к куратору. Это помогает оперативно получить ответ на вопрос и поддержку.
За время обучения каждый студент получает 2 года стажа по специальности и профессиональное портфолио уровня Middle. Это значительно экономит время и дает быстрый старт в карьере.
Основные термины
Big Data (большие данные) — гигантские массивы информации, которую генерируют большие информационные системы, например соцсети и сотовая связь.
Математическое моделирование — использование математики и статистики для поиска закономерностей в данных. Например, временные ряды (графики изменения величин во времени) анализируют с помощью регрессионных моделей, которые помогают найти зависимости между переменными.
Data Mining (добыча или интеллектуальный анализ данных) — процесс поиска неизвестных ранее закономерностей (паттернов) и полезных знаний в больших базах «сырых» данных. Например, банк имеет базу данных о всех транзакциях клиентов, но ничего не знает о возможных преступниках среди них. Data Mining может помочь найти среди миллионов клиентов тех, кто получает переводы из сомнительных источников.
Tree-based-алгоритмы — использование метода «дерева решений» в Data Mining. Метод классифицирует данные по принадлежности к определенным признакам, пока у каждого блока данных не будет значения по каждому признаку. Например, всех клиентов банка можно классифицировать по полу, возрасту и среднему доходу. Это поможет найти мужчин 18–50 лет с высоким доходом, которым можно предложить скидку на элитный фитнес-центр от партнера.
Machine Learning (машинное обучение) — это наука, которая занимается изучением алгоритмов для работы с данными, чтобы автоматизировать в дальнейшем процесс обработки новых данных. Например, зная всех клиентов банка, которые выплатили кредиты и которые не смогли выплатить, мы можем построить такую модель, которая будет решать, каким клиентам стоит выдавать деньги. Такая задача называется задачей классификации.
Feature Engineering (конструирование признаков) — процесс подготовки необработанных данных для обучения ML-моделей. Чтобы модели было легче обучаться, нужно выделить из данных новые признаки, например добавить новый признак клиенту на основе усреднения суммы его покупок (средний чек).
Deep Learning (глубокое обучение) — метод машинного обучения с использованием сложных многослойных нейронных сетей.
Python — основной язык программирования в Data Science. Для удобства работы на Python применяют библиотеки, например NumPy, Scipy, Pandas. Для машинного обучения часто используют фреймворк sklearn.
Стоит ли становиться специалистом в области Data Science?
Это одна из наиболее востребованных профессий на текущий момент. Рынок продолжают расти, повышается количество данных, которые нужно обрабатывать, поэтому спада интереса к аналитикам не произойдет.
Зарплаты дата-сайентистов в России варьируются от 100 000 рублей до 500 000 рублей в зависимости от специфики работы и опыта соискателя.
Сотни открытых вакансий, внушительные бюджеты. Выглядит, как отличная карьера для всех, кто заинтересован в новом для себя направлении. К тому же обучиться Data Science сейчас можно на профильных курсах таких онлайн-школ, как GeekBrains, Skillbox и Coursera.