Data engineer и data scientist: какая вообще разница?

Содержание:

Робототехника

  • Роботы (робототехника)
  • Робототехника (мировой рынок)
  • Обзор: Российский рынок промышленной робототехники 2019
  • Карта российского рынка промышленной робототехники
  • Промышленные роботы в России
  • Каталог систем и проектов Роботы Промышленные
  • Топ-30 интеграторов промышленных роботов в России
  • Карта российского рынка промышленной робототехники: 4 ключевых сегмента, 170 компаний
  • Технологические тенденции развития промышленных роботов
  • В промышленности, медицине, боевые (Кибервойны)
  • Сервисные роботы
  • Каталог систем и проектов Роботы Сервисные
  • Collaborative robot, cobot (Коллаборативный робот, кобот)
  • IoT — IIoT — Цифровой двойник (Digital Twin)
  • Компьютерное зрение (машинное зрение)
  • Компьютерное зрение: технологии, рынок, перспективы
  • Как роботы заменяют людей
  • Секс-роботы
  • Роботы-пылесосы
  • Искусственный интеллект (ИИ, Artificial intelligence, AI)
  • Обзор: Искусственный интеллект 2018
  • Искусственный интеллект (рынок России)
  • Искусственный интеллект (мировой рынок)
  • Искусственный интеллект (рынок Украины)
  • В банках, медицине, радиологии, ритейле, ВПК, производственной сфере, образовании, Автопилот, транспорте, логистике, спорте, СМИ и литература, видео (DeepFake, FakeApp), музыке
  • Национальная стратегия развития искусственного интеллекта
  • Национальная Ассоциация участников рынка робототехники (НАУРР)
  • Российская ассоциация искусственного интеллекта
  • Национальный центр развития технологий и базовых элементов робототехники
  • Международный Центр по робототехнике (IRC) на базе НИТУ МИСиС

Robot Control Meta Language (RCML)

  • Машинное обучение, Вредоносное машинное обучение, Разметка данных (data labeling)
  • RPA — Роботизированная автоматизация процессов
  • Видеоаналитика (машинное зрение)
  • Машинный интеллект
  • Когнитивный компьютинг
  • Наука о данных (Data Science)
  • DataLake (Озеро данных)
  • BigData
  • Нейросети
  • Чатботы
  • Умные колонки Голосовые помощники
  • Безэкипажное судовождение (БЭС)
  • Автопилот (беспилотный автомобиль)
  • Беспилотные грузовики
  • В мире и России
  • Летающие автомобили
  • Электромобили
  • Подводные роботы
  • Беспилотный летательный аппарат (дрон, БПЛА)

Зарплата data scientist

Доходы зависят от опыта, объема работы и региона. Зарплата специалистов по обработке данных в России, согласно информации HeadHunter, достигает 8,5–9 тыс. долларов (543–575 тыс. рублей) в месяц с учетом бонусов.

Data scientist должен иметь обширные знания в разных областях

В США такие сотрудники зарабатывают 110–140 тыс. долларов (7–9 млн рублей) в год, то есть в месяц около 9–11 тыс. долларов (575–703 тыс. рублей).

Сколько получает junior data scientist

Исследовательский центр HR-портала SuperJob приводит более приземленные цифры. Начинающий специалист в Москве, согласно статистике, может рассчитывать на стартовый оклад от 70 тыс. рублей, в Санкт-Петербурге — 57 тыс. рублей. По мере накопления опыта (до 3-х лет) зарплата увеличивается до 110 тыс. рублей в столице и 90 тыс. рублей в Питере.

Зарплаты опытных специалистов

Эксперты SuperJob выяснили, что профессиональный эксперт-аналитик с научными публикациями в Москве зарабатывает около 220 тыс. рублей в месяц, в Санкт-Петербурге — 180 тыс. рублей. По информации JetBrains, ведущего мирового производителя инструментов для работы с современными технологиями, старший специалист по анализу данных в среднем получает 186 тыс. рублей в месяц.

Что нужно знать о data scientist — рассказывает специалист:

В основе data science лежат простые идеи, но на практике обнаруживается множество тонкостей. Поэтому квалифицированные специалисты — это ценные кадры. Но реальная потребность имеется в сотрудниках уровня middle и выше.

Большие данные

Начнём с простого — big data, или «большие данные». Это модный термин, обозначающий огромные массивы данных, которые накапливаются в каких-то больших системах.

Например, человек в Москве совершает 5-6 покупок по карте в день, это около 2 тысяч покупок в год. В стране таких людей, допустим, 80 миллионов. За год это 160 миллиардов покупок. Данные об этих покупках — биг дата.

В банках какой-то страны каждый день совершаются сотни тысяч операций: платежи, переводы, возвраты и так далее. Данные о них хранятся в центральном банке страны — это биг дата.

Ещё биг дата: данные о звонках и смс у мобильного оператора; данные о пассажиропотоке на общественном транспорте; связи между людьми в соцсетях, их лайки и предпочтения; посещённые сайты; данные о покупках в конкретном магазине (которые хранятся в их кассе); данные с шагомеров и тайм-трекеров; скачанные приложения; открытые вами файлы и программы… Короче, любой большой массив данных.

Почему появился такой термин: в конце девяностых компании в США стали понимать, что сидят на довольно больших массивах данных, с которыми непонятно что делать. И чем дальше — тем этих данных больше.

Раньше данные были, условно говоря, по кредитным картам, телефонным счетам и из профильных государственных ведомств; а теперь чем дальше — тем больше всего считается. Супермаркеты научились вести сверхточный учёт склада и продаж. Полиция научилась с высокой точностью следить за машинами на дороге. Появились смартфоны, и вообще вся человеческая жизнь стала оцифровываться.

И вот — данные вроде есть, а что с ними делать? Тут на сцену выходит дата-сайенс — дисциплина о больших данных.

Минутка занудства. Все знают, что правильно говорить «биг дэйта», потому что именно так произносят носители языка. Но в русском языке этот термин прижился с побуквенной транслитерацией — как написано, так и читаем. Поэтому — дата. Кстати, с сайентистами такого не произошло — они звучат так же, как в оригинале.

Кто такой Data Scientist и чем он занимается?

Говоря простыми словами, это специалист по анализу данных. Он собирает их, объединяет в базы, ищет и анализирует закономерности и на этой основе создает модели, которые помогают принимать те или иные решения. Чаще всего они востребованы в следующих сферах: ИТ, телеком, банки и финансы, консалтинг, маркетинг, научные исследования.

Какие задачи они решают:

  • Создание рекомендательных систем.
  • Формирование прогнозов, например, на рынках акций.
  • Создание скоринговых систем, которые принимают решения на основе анализа большого объема данных. Например, выдать кредит клиенту или нет.
  • Выявление аномалий в различных системах. Например, для автоматической блокировки подозрительных банковских операций.
  • Персонализированный маркетинг. Формирование уникальных предложений для клиентов, акций, скидок.

Чтобы проще понять, чем занимается Data Scientist, разберем пример рекомендательного алгоритма. Многие музыкальные сервисы на основе статистики прослушиваний могут предлагать пользователям другие треки, которые им понравятся. Алгоритм, по которому работает эта программа, создает специалист по анализу больших данных.

Все больше компаний собирают различные базы данных, которые используются для разных целей. Поэтому востребованность специалистов растет. Им предлагают хорошие зарплаты, о чем расскажем ниже.

Мы разобрались, кто такой Data Scientist и что это за профессия. Пора поговорить о преимуществах и недостатках данной работы.

Оплата труда

Зарплата data scientists зависит от ряда факторов, включая опыт, квалификацию, местоположение и сектор, в котором сотрудник работает. Условия бывают разными, в зависимости от организации, но весьма распространены гибкий или удаленный график работы, бонусы по результатам работы и частное медицинское страхование.

Заработная плата сайентистов в России обычно начинается от 70 000 до 85 000 рублей и может возрасти до 100 000 рублей, в зависимости от опыта и навыков. В Москве и Санкт-Петербурге можно рассчитывать на заработок от 100 000 до 160 000 рублей.

Ведущие и главные специалисты по данным способны зарабатывать более 200 000 – 250 000 рублей, а в некоторых случаях – и более.

Кто такой аналитик-разработчик?

Я работаю аналитиком-разработчиком, занимаюсь системой автоматического мониторинга данных компании «Тинькофф» с помощью машинного обучения. Банковские продукты компании генерируют много данных: они помогают отслеживать эффективность бизнес-процессов, например изменения доходности по вкладам или продаж страховок. Обычно за каждым из процессов следят аналитики. Моя задача — помочь им автоматизировать этот процесс, чтобы они могли получать своевременные оповещения, если в их данных что-то пошло не так. Так аналитики могут увидеть нестандартное поведение своих параметров и изменить свои процессы.

Моя специализация — временные ряды. По сути, это зависимости разных величин во времени. Эти данные можно анализировать с помощью математических моделей, чтобы спрогнозировать будущие значения. Например, так прогнозируют спрос на товары в супермаркетах. Если знать статистику продаж творога в прошлые годы, этой весной можно выложить на полки нужное покупателям количество пачек с высокой точностью. В «Тинькофф» по тому же принципу мы предсказываем продажи продуктов экосистемы.

Робототехника

  • Роботы (робототехника)
  • Робототехника (мировой рынок)
  • Обзор: Российский рынок промышленной робототехники 2019
  • Карта российского рынка промышленной робототехники
  • Промышленные роботы в России
  • Каталог систем и проектов Роботы Промышленные
  • Топ-30 интеграторов промышленных роботов в России
  • Карта российского рынка промышленной робототехники: 4 ключевых сегмента, 170 компаний
  • Технологические тенденции развития промышленных роботов
  • В промышленности, медицине, боевые (Кибервойны)
  • Сервисные роботы
  • Каталог систем и проектов Роботы Сервисные
  • Collaborative robot, cobot (Коллаборативный робот, кобот)
  • IoT — IIoT — Цифровой двойник (Digital Twin)
  • Компьютерное зрение (машинное зрение)
  • Компьютерное зрение: технологии, рынок, перспективы
  • Как роботы заменяют людей
  • Секс-роботы
  • Роботы-пылесосы
  • Искусственный интеллект (ИИ, Artificial intelligence, AI)
  • Обзор: Искусственный интеллект 2018
  • Искусственный интеллект (рынок России)
  • Искусственный интеллект (мировой рынок)
  • Искусственный интеллект (рынок Украины)
  • В банках, медицине, радиологии, ритейле, ВПК, производственной сфере, образовании, Автопилот, транспорте, логистике, спорте, СМИ и литература, видео (DeepFake, FakeApp), музыке
  • Национальная стратегия развития искусственного интеллекта
  • Национальная Ассоциация участников рынка робототехники (НАУРР)
  • Российская ассоциация искусственного интеллекта
  • Национальный центр развития технологий и базовых элементов робототехники
  • Международный Центр по робототехнике (IRC) на базе НИТУ МИСиС

Robot Control Meta Language (RCML)

  • Машинное обучение, Вредоносное машинное обучение, Разметка данных (data labeling)
  • RPA — Роботизированная автоматизация процессов
  • Видеоаналитика (машинное зрение)
  • Машинный интеллект
  • Когнитивный компьютинг
  • Наука о данных (Data Science)
  • DataLake (Озеро данных)
  • BigData
  • Нейросети
  • Чатботы
  • Умные колонки Голосовые помощники
  • Безэкипажное судовождение (БЭС)
  • Автопилот (беспилотный автомобиль)
  • Беспилотные грузовики
  • В мире и России
  • Летающие автомобили
  • Электромобили
  • Подводные роботы
  • Беспилотный летательный аппарат (дрон, БПЛА)

Где искать работу?

  1. Много вакансий можно найти на сайтах HH.ru, Яндекс.Работа, Career.habr.com. В ряде случаев компании готовы нанимать специалистов удаленно, то есть с возможностью работать из дома. Как правило, это указывают в вакансиях. Также встречаются предложения по трудоустройству с релокацией (переездом к работодателю).
  2. Если вы новичок и не имеете опыта работы, то можете посмотреть в сторону стажировок. Они проводятся во многих ИТ-компаниях, после чего успешные кандидаты могут получить предложение о работе.
  3. Часто вакансии размещаются на сайтах работодателей. Например, вакансии в Яндексе можно посмотреть здесь.

Чем я занимаюсь

Я оцениваю эффективность рекламных кампаний в Mail.ru Group. У компании много разных продуктов: поисковик, почта, игры, соцсети — и это далеко не все. У каждого проекта много рекламы в разных форматах, где-то они пересекаются. Я определяю, как использование рекламы повлияло, например, на увеличение установок приложений Mail.ru Group.

Для этого мы собираем данные: заходим в отчетные системы, вытаскиваем исторические данные по охватам, кликам, показам, учитываем, в каких регионах прошла реклама. Потом строим модель, которая пытается предсказать поведение проекта: на сколько увеличится количество загрузок продукта после рекламы. Для этого подставляем разные активности (рекламу на ТВ, в интернете, учитываем, как влияют праздники, другие релевантные факторы) и оцениваем, какой вклад внесла та или другая реклама. Затем делаем презентацию с результатами.

Построение моделей — основная задача исследователя данных. Модель — это программа, которая может адаптироваться под входные данные. Сначала мы подаем модели немного данных и какой-то факт. Потом она строит дерево решений: сверяет с фактом эти данные и понимает закономерность перехода от данных к факту. Чем чаще какой-то показатель учитывается, тем больший вес он имеет. Если модель хорошо отражает действительность, ее можно использовать.

Чаще всего мы используем линейные регрессии. В них легко выбрать конкретную переменную и определить, каков ее вклад. Для работы с линейными регрессиями я использую Statsmodels — пакет для Python, который содержит много полезных инструментов.

Иногда приходится искать другие варианты, например градиентные бустинги. Это большое количество деревьев решений, которые обучаются на результатах друг друга. Если одно дерево обучалось и дало ошибку, мы берем следующее, чтобы ее скомпенсировать, тогда ошибка станет незначительной. Это часто точнее линейной регрессии, но складно объяснить в презентации выводы вряд ли получится, потому что бустинги громоздкие и сложные. Популярные библиотеки для бустинга — XGBoost, LightGBM, CatBoost.

Курс 

Data Scientist с нуля

Изучите набор инструментов, необходимый для уровня Middle. Наш карьерный центр поможет вам оформить резюме и начать проходить собеседования уже во время учебы. Дополнительная скидка 5% по промокоду BLOG.

Узнать больше

Кроме этого, для работы я использую Pandas. С этой библиотекой специалист взаимодействует чаще всего, если работает на Python. Если нет, то есть альтернативные библиотеки на языке R, например h2o.

Еще использую Prophet от Facebook для прогнозирования временных рядов. В некоторых задачах он может превосходить градиентный бустинг.

Временные ряды — это упорядоченные по времени значения, например температура воздуха по дням. В основном они нужны для предсказания будущего.

Это Marketing Mix — влияние различных факторов (маркетинговых и других) на целевую метрику. В данном случае — на активность пользователей

Специалист по изучению данных (data scientist)

Основная статья — здесь

Почему Data Scientist сексуальнее, чем BI-аналитик

В связи с ростом популярности data science (DS) возникает два совершенно очевидных вопроса. Первый – в чем состоит качественное отличие этого недавно сформировавшегося научного направления от существующего несколько десятков лет и активно используемого в индустрии направления business intelligence (BI)? Второй — возможно более важный с практической точки зрения — чем различаются функции специалистов двух родственных специальностей data scientist и BI analyst? В материале, подготовленном специально для TAdviser, на эти вопросы отвечает журналист Леонид Черняк.

Цель — учиться эффективнее и бесплатно

Мне помогло то, что до этого я сформировал привычки к самообразованию, а экономность не позволила мне пойти по самому простому пути: найти онлайн курс с именитыми преподами, заплатить им много денег и довериться, что они всему научат лучше всего. В итоге я перебирал много бесплатно доступных книг и курсов (книги часто были найдены на b-ok.org). Из всех курсов и книг отбирал самые лучшие, забрасывая то, что казалось слишком теоретизированными или плохо структурированным.

На основе этих десятков книг и курсов я и сформировал то мнение, которым хочу поделить. Вероятно, существует еще более эффективный и быстрый способ научится этому всему. То, как учился я, было всего-лишь быстрее большинства платных программ, которые я видел, и заодно бесплатным (на многие лучшие англоязычные курсы всегда можно записаться бесплатно; покупал я только книги русских авторов и пару книг, которые иначе не смог найти).

Кто такой Data Scientist и чем занимается?

Данные — основной объект исследования в Big Data. Вопреки стереотипам, аналитики Data Scientist работают не только в крупных компаниях. В молодой индустрии Big Data инженеры, математики, программисты и трейдеры создают визуальные модели, формируют бизнес-сценарии и тестируют их. Прогнозы экспертов интересны широкому кругу лиц — компаниям, частным предпринимателям, государственным учреждениям. Анализ Big Data — это не только статистические обзоры, но и предвидение будущих событий, вероятность которых можно вывести с математической точностью. Курс Data Scientist от Skillbox отличается насыщенной программой. Слушателей знакомят с нейронными сетями, инфографикой, работой в библиотеках.

Этап 4. Набор базовых навыков решения задач

Цель данного этапа — получение навыков применения всех ранее изученных методов машинного обучения с помощью scikit-learn, pandas (numpy).

По сути, это практика по теоретическим знания предыдущего этапа. Имеет смысл отвести на это 100-300ч. И важнее уметь хотя бы как-то применять все указанные выше методы, чем дотошно разобраться в одном из них.

Тут же следует инвестировать время в изучение разных приёмов и трюков feature engineering

По завершению данного этапа есть шанс устроиться на позицию junior data scientist. ЗП будет низкая. Но главное будет продолжать учиться. До достижения уровня senior возможность учиться у коллег ценнее, чем текущая зарплата.

Знакомство с основами нейронных сетей

На данном этапе может быть полезно знание основ нейронных сетей, CNN, RNN/LSTM слоев, vector embeddings. Но не обязательно уметь тренировать их самому, на данном этапе

Пока это важно для «общего развития» и чтобы вы не хотели применять нейронные сети там, где без можно обойтись, и, наоборот, понимали где они могут быть полезны и когда имеет смысл или обращаться к коллеге уже их знающему, или браться за глубокое изучение и практику

Также данный этап должен позволить примерно оченить сколько ресурсов от вас это потребует, если вы решите в это нырнуть.

Рекомендую ограничить это объемом в 20-40ч, необходимым только для общего понимания концепций.

Data Scientist – в чём нужно разбираться

Требования к подготовке и уровню профессиональных навыков зависят от того, в какой компании предстоит работать специалисту

Например, в крупных корпорациях аналитику данных важно разбираться в математике и статистике. Маркетплейсам и медиакомпаниям нужны эксперты в разработке рекомендательных систем, а в крупном ритейле — в разработке машинного зрения

Такие навыки востребованы на HeadHunter. Цифра означает количество вакансий

Преподаватели школы SkillBox изучили вакансии в области Data Science на российском и зарубежном рынке и составили список навыков и областей знаний, которые понадобятся успешному специалисту:

  • Программирование.
  • Анализ.
  • Математика и статистика.
  • Машинное обучение и глубокое обучение.
  • Data Engeneering.
  • Data Science в продакшн.

Будущее Data Science

У Data Science большие перспективы, и вот почему:

Экспоненциальный рост объема данных в мире

Люди проводят все больше времени в интернете, бизнес диджитализируется, начинает развиваться интернет вещей (IoT). К 2025 году объем данных в мире увеличится почти в 3 раза, до 181 Зеттабайта (секстилиона байтов). Еще в 2010 году в мире было всего 2 Зб.

Рост рынка Data Science

Гигантские объемы данных ведут к росту количества Data Science-стартапов и вакансий специалистов по анализу данных. По прогнозам, до 2027 года рынок будет в среднем расти на 27% в год. Больше всего решений требуется в маркетинге и рекламе, логистике, финансах и поддержке пользователей.

Развитие технологий искусственного интеллекта

Эксперты утверждают, что в ближайшем будущем на улицах городов массово появятся беспилотные автомобили, а домашняя техника будет подключена к интернету вещей (IoT). Автономные автомобили используют машинное обучение для анализа дорожной ситуации и безопасного передвижения. IoT позволит получать данные миллиардов новых устройств и использовать искусственный интеллект в системах «умного дома».

Все это ведет к повышению спроса на дата-сайентистов. Так, количество вакансий в этой сфере в России за три года выросло на 433%. Спрос на специалистов превышает предложение, а это увеличивает их зарплату: junior data scientist после года обучения в среднем получает от 120 тыс. рублей, а после трех лет опыта — от 250 тыс. рублей.

Курс

Data Scientist

Специалисты Data Science нужны во всех сферах бизнеса — получите востребованную профессию и станьте одним из них. Дополнительная скидка 5% по промокоду BLOG.

Узнать больше

«Самая сексуальная профессия»

Как написал несколько лет назад журнал Harvard Business Review: «Data Scientist — самая сексуальная профессия XXI века».

В статье рассказывалось о Джонатане Голдмане, физике из Стэнфорда, который устроившись на работу в социальную сеть LinkedIn, занялся чем-то странным и непонятным. Пока команда разработчиков ломает голову над тем, как модернизировать сайт и справиться с наплывом посетителей, Голдман строит прогностическую модель, которая подсказывает владельцу аккаунта LinkedIn, кто еще из пользователей сайта может оказаться его знакомым.

С тех пор профессия Data Scientist не стала менее сексуальной, скорее наоборот. В 2016 году она возглавила кадровой компании Glassdoor. Не будем подробно останавливаться на том, почему сегодня эта профессия считается одной из самых высокооплачиваемых, привлекательных и перспективных в мире. Отметим лишь, что число вакансий в этом направлении продолжает расти по экспоненте. Согласно прогнозам McKinsey Global Institute, к 2018 году в одних только США понадобится дополнительно порядка 140-190 тысяч специалистов по работе с данными.

Неудивительно, что сегодня так много желающих  освоить эту профессию. Давайте разберемся, кто же такой Data Scientist и какими навыками и знаниями он должен обладать.

Какие специалисты работают с данными

Аналитик данных (Data Analyst) — работает с данными в структурированном виде из внутренних систем аналитики, помогает бизнесу суммировать и интерпретировать эти данные. Работает с Excel, SQL и внутренними системами аналитики. В SkillFactory открыт курс «Специализация Аналитик Данных»

Разработчик BI (Business Intelligence Developer) — занимается проектированием внутренних хранилищ данных, связыванием данных из различных систем, а также созданием дэшбордов и аналитических отчетов. Использует BI-системы (Oracle, IBM и другие), SQL, инструменты ETL и языки программирования.

Инженер по данным (Data Engineer) — занимается созданием и поддержкой инфраструктурой данных, в частности Big Data. Занимается сбором, хранением и управлением потоками данных в реальном времени. IT-специалист высочайшего уровня, работающий с кластерами серверов на Linux, облачными системами, такими системами обработки больших данных, как Hadoop, Spark и другие. В SkillFactory открыт курс «Специализация Data Engineer»

Специалист по данным (Data Scientist) — занимается интеллектуальным анализом структурированных и неструктурированных данных. Использует статистику, машинное обучение и продвинутые методы предиктивной аналитики для решения ключевых бизнес-задач. По сравнению с аналитиком данных, специалист по данным должен не только уметь анализировать полученную информацию, но и обладать отличными навыками программирования, уметь разрабатывать новые алгоритмы, обрабатывать большие объемы информации и иметь хорошее представление о той сфере, в которой он применяет свои знания.

2017: Высшая школа экономики будет обучать Data Culture на всех программах бакалавриата

НИУ ВШЭ первым из российских университетов начнет формировать компетенции по Data Science у всех студентов, обучающихся на программах бакалавриата. В рамках проекта Data Culture расширится набор дисциплин и появятся образовательные треки по анализу больших данных.

Data Culture – это общий термин для обозначения навыков и культуры работы с данными. Высшая школа экономики считает, что запуск проекта, направленного на воспитание у студентов таких навыков, сейчас актуален из-за огромного потенциала использования больших данных и трансформации профессий, которые, так или иначе, используют или могут использовать большие массивы информации. Потребность рынка в специалистах с компетенциями по анализу данных, перерастает в необходимость воспитания во всех предметных областях профессионалов, понимающих возможности и ограничения массивов данных, потенциал и особенности методов машинного обучения, а в ряде направлений и умеющих пользоваться этими технологиями и инструментами.

Проект Data Culture станет продолжением интеграции в образовательные программы НИУ ВШЭ элементов, направленных на воспитание у студентов культуры и умений работы с данными. Он расширит возможности студентов уже абсолютно всех образовательных программ по формированию компетенций, связанных с Data Science. Это позволит выпускникам в перспективе быстро и эффективно интегрироваться в решение профессиональных задач на стыке предметных областей и компьютерных технологий, которые сегодня являются передовыми, но уже в ближайшей перспективе станут привычной практикой.

Проект включает разработку отдельных курсов по Data Science так или иначе кастомизированных под специфику образовательных программ, а также формирование специализированных образовательных треков из таких курсов с разной степенью сложности: начального, базового, продвинутого, профессионального и экспертного уровней. Это связано с большим разнообразием образовательных программ, студенты которых дифференцированы по базовым компетенциям в сфере математики и информатики. Для программ или их блоков будет предложена система курсов Data Culture в определенной вилке «сквозного уровня продвинутости». Более того, эти системы курсов определятся спецификой предметных областей.

Внедрение дисциплин Data Culture будет происходить поэтапно. В 2017/2018 учебном году будут включены в учебные планы обязательные и элективные курсы по направлению Data Science для части образовательных программ, но таковых будет более половины. Например, у студентов-гуманитариев, юристов и дизайнеров появится вводный курс по цифровой грамотности, программы экономистов дополнятся дисциплиной по машинному обучению, политологов – анализу социальных сетей, у статистиков появится курс по программированию и извлечению и анализу интернет-данных. С 2018 года к проекту примкнут все образовательные программы.

Для реализации проекта Data Culture предполагается привлечение преподавательского состава как из академической среды (преподаватели факультета компьютерных наук, сотрудники департамента математики факультета экономических наук и общеуниверситетской кафедры высшей математики и т.д.), так и из индустрии (участники сообществ по анализу данных, участники тематических мероприятий по анализу данных, проводимых в IT-компаниях). Более того, преподаватели факультетов, которые уже погружены в работу с данными в рамках своей профессиональной деятельности, также будут разрабатывать курсы в рамках проекта Data Culture для студентов своих и смежных факультетов.

Требования к специалисту

Специалист по данным неразрывно связан с Data Science – наукой о данных. Она находится на пересечении нескольких направлений: математики, статистики, информатики и экономики. Следовательно, специалисты должны понимать и интересоваться каждой из этих наук.

Кроме этого, Data Scientist должен знать:

  1. Языки программирования для того, чтобы писать на них код. Самые распространенные – это SAS, R, Java, C++ и Python.
  2. Базы данных MySQL и PostgreSQL.
  3. Технологии и инструменты для представления отчетов в графическом формате.
  4. Алгоритмы машинного и глубокого обучения, которые созданы для автоматизации повторяющихся процессов с помощью искусственного интеллекта.
  5. Как подготовить данные и сделать их перевод в удобный формат.
  6. Инструменты для работы с Big Data: Hadoop, MapReduce, Apache Hive, Apache Kafka, Apache Spark.
  7. Как установить закономерности и видеть логические связи в системе полученных сведений.
  8. Как разработать действенные бизнес-решения.
  9. Как извлекать нужную информацию из разных источников.
  10. Английский язык для чтения профессиональной литературы и общения с зарубежными клиентами.
  11. Как успешно внедрить программу.
  12. Область деятельности организации, на которую работает.

Помимо того, что специалист по данным должен обладать аналитическим и математическим складом ума, он также должен быть:

  • трудолюбивым,
  • настойчивым,
  • скрупулезным,
  • внимательным,
  • усидчивым,
  • целеустремленным,
  • коммуникабельным.

Хочу отметить, что гуманитариям достичь высот в этой профессии будет крайне тяжело. Только при большом желании можно пробовать осваивать данную стезю.

Изолированность Data Science

Большинству компаний не нужно столько специалистов по данным, сколько программистов. Другие компании только еще нанимают своего первого data scientist’а прямо сейчас.

По этой причине многие специалисты по данным работают в одиночку, даже если они сидят за одним столом с разработчиками.

Тут возникают сложности с получением обратной связи и мнения со стороны. Программисты либо не разбираются в прогнозном моделировании, либо слишком заняты работой над совершенно другими проблемами. 

Напротив, одним из преимуществ наличия целой команды разработчиков является возможность сказать коллегам: «Я думаю, что мы должны внедрить ABC в XYZ. Что вы думаете на этот счет?»

Будьте готовы поговорить с самим собой … или с резиновой уткой (прим.пер. Метод тестирования ПО).

Вакансии data scientist

Количество вакансий для эксперта по аналитике увеличивается, поскольку данные — ценнейший ресурс. Сотрудников не хватает, особенно на руководящих должностях (Lead/Chief data scientist). Топовые позиции предполагают наличие у кандидата специальных качеств, необходимых в конкретной сфере. С практикантами и специалистами уровня junior проще: data science — модное направление, в котором многие хотят попробовать себя.

Как составить резюме data scientist

В резюме нужно сосредоточиться на технических навыках и кратко рассказать о своем опыте. На выходе документ должен получиться простым и лаконичным. Стоит перечислить навыки (начиная с тех, которыми кандидат владеет лучше всего), проекты и достижения.

Специалисту обязательно нужно портфолио. Желательно взять несколько проектов с реальными наборами данных — это может конкурсное или тестовое задание, собственный проект. Результаты можно разместить на GitHub.

Хорошее резюме и портфолио — не гарантия получения должности мечты. Собеседования часто состоят из нескольких этапов, кандидаты выполняют тестовые задания в условиях довольно жесткой конкуренции.

Что мне нравится в моей работе

Я работаю в «Тинькофф» уже три с половиной года. В нашей компании много задач для сайентистов и почти нет ограничений по развитию. Наука о данных — достаточно универсальная область

По сути тебе не важно какими данными ты занимаешься: о торговле продуктами или о поведении пользователей в интернете. Для всех задач есть одинаковая база: математика и программирование

Зная базовые вещи уже можно углубляться в конкретные области, например, компьютерное зрение или обработку естественного языка.

Большинство задач в индустрии довольно стандартные, они ориентированы прежде всего на бизнес-результат. Поэтому в какой-то момент каждому специалисту хочется начать делать что-то свое параллельно основной работе. Я, например, хотел бы привнести что-то новое в open-source (программы и технологии для разработчиков), но пока своих значимых кейсов нет.

Мне нравится создавать технологии, которые автоматизируют ручную работу. Например, известная в машинном обучении библиотека scikit-learn поделила профессию на «до» и «после»: у разработчиков появились инструменты для быстрой работы с алгоритмами ML.

Еще мне хотелось бы углубиться в другие области машинного обучения. Я занимаюсь временными рядами, обычно в этой специализации лучше работают классические модели. И хочу поглубже копнуть в Deep Learning — глубинное обучение, где нейросети способны решать очень сложные задачи. Именно в этой области сейчас происходят наиболее интересные в машинном обучении вещи.

Курс 

Полный курс по Data Science

Освойте востребованную профессию с нуля за 12 месяцев и станьте уверенным junior-специалистом.

  • Индивидуальная поддержка менторов
  • 10 проектов в портфолио
  • Помощь в трудоустройстве 

Получить скидку Промокод “BLOG10” +5% скидки

Итоги

Работа в середине процесса автоматизируется, а платформы для автоматизации невероятно полезны, но именно вы нужны, чтобы начать работу и закончить её. Я считаю, что должности в области науки о данных не будут сокращаться; напротив, со временем они будут обновляться.

Если вам интересно решать проблемы бизнеса с помощью данных, хотите научиться выявлять закономерности в них и создавать модели для решения конкретных задач в крупных технологических компаниях, обратите внимание на наш флагманский курс о Data Science. Или же узнайте, как прокачаться и в других востребованных специальностях:

Data и Machine Learning

Python, веб-разработка

Мобильная разработка

Java и C#

От основ — в глубину

А также:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector