Кто такой дата-сайентист и как им стать

Data Scientist: кто это и что он делает

В переводе с английского Data Scientist – это специалист по данным. Он работает с Big Data или большими массивами данных.

Источники этих сведений зависят от сферы деятельности. Например, в промышленности ими могут быть датчики или измерительные приборы, которые показывают температуру, давление и т. д. В интернет-среде – запросы пользователей, время, проведенное на определенном сайте, количество кликов на иконку с товаром и т. п.

Данные могут быть любыми: как текстовыми документами и таблицами, так и аудио и видеороликами.

От области деятельности зависят и результаты работы Data Scientist. После извлечения нужной информации специалист устанавливает закономерности, подвергает их анализу, делает прогнозы и принимает бизнес-решения.

Человек этой профессии выполняет следующие задачи: оценивает эффективность и работоспособность предприятия, предлагает стратегию и инструменты для улучшения, показывает пути для развития, автоматизирует нудные задачи, помогает сэкономить на расходах и увеличить доход.

Его труд заканчивается созданием модели кода программы, сформировавшейся на основе работы с данными, которая предсказывает самый вероятный результат.

Профессия появилась относительно недавно. Лишь десятилетие назад она была официально зафиксирована. Но уже за такой короткий промежуток времени стала актуальной и очень перспективной.

Каждый год количество информации и данных увеличивается с геометрической прогрессией. В связи с этим информационные массивы уже не получается обрабатывать старыми стандартными средствами статистики. К тому же сведения быстро обновляются и собираются в неоднородном виде, что затрудняет их обработку и анализ.

Вот тут на сцене и появляется Data Scientist. Он является междисциплинарным специалистом, у которого есть знания статистики, системного и бизнес-анализа, математики, экономики и компьютерных систем.

Знать все на уровне профессора не обязательно, а достаточно лишь немного понимать суть этих дисциплин. К тому же в крупных компаниях работают группы таких специалистов, каждый из которых лучше других разбирается в своей области.

Более 100 крутых уроков, тестов и тренажеров для развития мозга

Начать развиваться

Эти знания помогают ему выполнять свои должностные обязанности:

  • взаимодействовать с заказчиком: выяснять, что ему нужно, подбирать для него подходящий вариант решения проблемы;
  • собирать, обрабатывать, анализировать, изучать, видоизменять Big Data;
  • анализировать поведение потребителей;
  • составлять отчеты и делать презентации по выполненной работе;
  • решать бизнес-задачи и увеличивать прибыль за счет использования данных;
  • работать с популярными языками программирования;
  • моделировать клиентскую базу;
  • заниматься персонализацией продуктов;
  • анализировать эффективность деятельности внутренних процессов компании;
  • выявлять и предотвращать риски;
  • работать со статистическими данными;
  • заниматься аналитикой и методами интеллектуального анализа;
  • выявлять закономерности, которые помогают организации достигнуть конечной цели;
  • программировать и тренировать модели машинного обучения;

внедрять разработанную модель в производство.

Четких границ требований к Data Scientist нет, поэтому работодатели часто ищут сказочное создание, которое может все и на превосходном уровне. Да, есть люди, которые отлично понимают статистику, математику, аналитику, машинное обучение, экономику, программирование. Но таких специалистов крайне мало.

Еще часто Data Scientist путают с аналитиком. Но их задачи несколько разные. Поясню, что такое аналитика и как она отличается от деятельности Data Scientist, на примере и простыми словами.

В банк пришел клиент, чтобы оформить кредит. Программа начинает обрабатывать данные этого человека, выясняет его кредитную историю и анализирует платежеспособность заемщика. А алгоритм, который решает выдавать кредит или нет, – продукт работы Data Scientist.

Аналитик же, который работает в этом банке, не интересуется отдельными клиентами и не создает технические коды и программы. Вместо этого он собирает и изучает сведения обо всех кредитах, что выдал банк за определенный период, например, квартал. И на основе этой статистики решает, увеличить ли объемы выдачи кредитов или, наоборот, сократить.

Аналитик предлагает действия для решения задачи, а Data Scientist создает инструменты.

Что знает, умеет и сколько стоит Data Scientist

Специалисты в области Data Science называются учеными или исследователями по данным (Data Scientist’ами). В настоящее время это одна из самых востребованных и высокооплачиваемых ИТ-профессий. Например, в Москве на январь 2020 года месячный труд ученого по данным оценивается около 200 тысяч рублей (от 70 до 250 т.р.). В США оплата выше – $110 – $140 тысяч в год .

Основная практическая цель работы ученого по данным – это извлечение полезных для бизнеса сведений из больших массивов информации, выявление закономерностей, разработка и проверка гипотез путем моделирования и разработки нового программного обеспечения .

Для достижения этой цели Data Scientist использует следующие инструменты:

  • пакеты статистического моделирования (R-Studio, Matlab);
  • технологии больших данных (Apache Hadoop, HDFS, Spark, Kafka), NoSQL-СУБД (Cassandra, HBase, MongoDB, DynamoDB и прочие нереляционные решения);
  • SQL для работы с классическими реляционными базами данных и формирования структурированных запросов к NoSQL-решениям с помощью Apache Phoenix, Drill, Impala, Hive и пр.
  • языки программирования (Python, R, Java, Scala) для разработки моделей машинного обучения и прототипов программного обеспечения;
  • информационные системы класса Business Intelligence (дэшборды, витрины данных) для визуализации бизнес-показателей из информационных массивов.

Таким образом, можно сделать вывод, что Data Science включает следующие области знаний:

  • математика: математический анализ, матстатистика и матлогика;
  • информатика: разработка программного обеспечения, баз данных, моделей и алгоритмов машинного обучения (нейросети, байесовские алгоритмы, регрессионные ряды и пр.), Data Mining;
  • системный анализ (методы анализа предметной области, Business Intelligence).

Подробнее о профессии Data Scientist’a и его отличиях от инженера и аналитика данных (Data Engineer и Data Analyst) мы писали здесь.


Портрет профессиональных компетенций ученого по данным

Источники

  1. https://ru.wikipedia.org/wiki/Наука_о_данных
  2. https://www.profguide.io/professions/data_scientist.html
  3. https://chernobrovov.ru/articles/analitika-dannyh-i-data-science-shodstva-i-razlichiya.html

Требования к специалисту

За последнее десятилетие специалисты по обработке данных стали необходимым активом и присутствуют практически во всех организациях. Эти профессионалы – разносторонне образованные люди с техническими навыками высокого уровня, способные создавать сложные количественные алгоритмы для организации и синтеза больших объемов информации, используемых для ответа на вопросы и реализации стратегии в организации.

Указанные знания должны сочетаться с хорошими коммуникативными и лидерскими качествами, необходимыми для достижения полезных результатов для различных заинтересованных сторон внутри организации или бизнесе в целом.

Заинтересованность в своей работе в сочетании с высочайшими отраслевыми знаниями и хорошими навыками коммуникации позволяют data scientists легко объяснять высокотехнологичные результаты другим сотрудникам с нетехническим образованием.

Как правило, для работы в качестве специалиста по данным требуется высшее образование в области информатики, математики или естествознания, при этом высоко ценится специализация в сфере высшей математики, физики, статистики и инженерного дела. Ожидается, что сотрудник будет знать некоторые языки программирования (R, Python, SQL, C и/или Java) и особенности работы с базами данных.

Отдельные крупные работодатели предлагают самостоятельные программы подготовки специалистов, которые обычно занимают около двух лет. Некоторые из них принимают в качестве учеников выпускников ВУЗов с любой специальностью.

Квалификация последипломного образования (например, степень магистра или доктора наук) также может быть полезной для профессиональной карьеры. В некоторых учебных заведениях доступно обучение в магистратуре по специальности бизнес-аналитика или дата сайенс, однако для поступления требуется иметь диплом первой ступени ВУЗа по специальности в области математики, инженерии, информатики или естественных наук, в редких случаях допускаются бакалавры, окончившие факультеты бизнеса, экономики или психологии, при наличии математических способностей и базового опыта программирования.

Что мне нравится в моей работе

Я работаю в «Тинькофф» уже три с половиной года. В нашей компании много задач для сайентистов и почти нет ограничений по развитию. Наука о данных — достаточно универсальная область

По сути тебе не важно какими данными ты занимаешься: о торговле продуктами или о поведении пользователей в интернете. Для всех задач есть одинаковая база: математика и программирование

Зная базовые вещи уже можно углубляться в конкретные области, например, компьютерное зрение или обработку естественного языка.

Большинство задач в индустрии довольно стандартные, они ориентированы прежде всего на бизнес-результат. Поэтому в какой-то момент каждому специалисту хочется начать делать что-то свое параллельно основной работе. Я, например, хотел бы привнести что-то новое в open-source (программы и технологии для разработчиков), но пока своих значимых кейсов нет.

Мне нравится создавать технологии, которые автоматизируют ручную работу. Например, известная в машинном обучении библиотека scikit-learn поделила профессию на «до» и «после»: у разработчиков появились инструменты для быстрой работы с алгоритмами ML.

Еще мне хотелось бы углубиться в другие области машинного обучения. Я занимаюсь временными рядами, обычно в этой специализации лучше работают классические модели. И хочу поглубже копнуть в Deep Learning — глубинное обучение, где нейросети способны решать очень сложные задачи. Именно в этой области сейчас происходят наиболее интересные в машинном обучении вещи.

Курс 

Полный курс по Data Science

Освойте востребованную профессию с нуля за 12 месяцев и станьте уверенным junior-специалистом.

  • Индивидуальная поддержка менторов
  • 10 проектов в портфолио
  • Помощь в трудоустройстве 

Получить скидку Промокод “BLOG10” +5% скидки

Data Scientist – технические навыки

Советую начинать именно с них, чтобы вы сразу ориентировались на практику, а не уходили в математическую теорию. Самый популярный язык программирования в DS — Python. По опросу Kaggle, который площадка проводила внутри своего сообщества специалистов по обработке данных и машинному обучению в 2018 году, 83% респондентов используют Python ежедневно. Поэтому в первую очередь изучите его, но немного внимания нужно будет уделить кое-каким другим языкам. Например, R.

Драйверы профессии

  • автоматизация производственных и управ­ленческих процессов
  • рост объёмов данных, доступных для анализа
  • развитие концепции открытых данных

Какие задачи будет решать Data Scientist

  • сбор больших массивов структурированных и неструктурированных данных (количественных, текстовых, графических и др.) и их преобразование в удобный формат
  • анализ данных с помощью методов математической статистики, моделирования и других аналитических методов (машинное обучение, текстовая аналитика и др.) в целях повышения эффективности управленческих решений
  • превращение инсайтов (выявленных нео­чевидных закономерностей) в конкретные решения для бизнеса/науки/общества
  • сотрудничество с ИТ-подразделениями и управленцами
  • визуализация данных

Какие знания и навыки у него будут

  • умение структурировать и интегрировать разнородные источники данных
  • умение применять методы системного анализа при постановке задач
  • продвинутый уровень цифровых навыков
  • навыки программирования и работы с базами данных
  • знание методов дискретной математики, математической статистики, машинного обучения и компьютерной лингвистики
  • способность разрабатывать математические модели выявления зависимостей, распознавания образов, прогнозирования и принятия решений
  • презентационные навыки

Программирование

Наиболее востребованный и распространенный язык в Data Science сегодня — это Python. До него самым популярным языком был R, который продолжают использовать, например, для анализа данных, научного статистического анализа и в социологии.

По данным Towardsdatascience

Среди прочего Python хорош тем, что на его базе можно разработать практически любую библиотеку, заточенную под выполнение самых разнообразных задач. Базовый дистрибутив Python небольшой, удобен для установки и обновления. Любые дополнительные возможности можно «прикрутить» через специальные библиотеки.

У каждой библиотеки есть обширная документация, поэтому в них легко разобраться. Вокруг самых востребованных и популярных формируются сообщества, которые поддерживают библиотеку, разрабатывают для неё новые модули и функции.

Где нужен и какие задачи решает Data Scientist?

Дата-сайентисты работают везде, где есть большие объемы информации: чаще всего это крупный бизнес, стартапы и научные организации. Поскольку методы работы с данными универсальны, специалистам открыты любые сферы: от розничной торговли и банков до метеорологии и химии. В науке они помогают совершать важные открытия: проводят сложные исследования, например, строят и обучают нейронные сети для молекулярной биологии, изучают гамма-излучения или анализируют ДНК.

В крупных компаниях дата-сайентист — это человек, который нужен всем отделам:

  • маркетологам поможет проанализировать данные карт лояльности и понять, каким группам клиентов что рекламировать;
  • для логистов изучит данные с GPS-трекеров и оптимизирует маршрут перевозок;
  • HR-отделу поможет предсказать, кто из сотрудников скоро уволится, проанализировав их активность в течение рабочего дня;
  • с продажниками спрогнозирует спрос на товар с учетом сезонности;
  • юристам поможет распознать, что написано на документах, с помощью технологий оптического распознавания текстов;
  • на производстве спрогнозирует оборудования на основе данных с датчиков.

В стартапах они помогают разрабатывать технологии, которые выводят продукт на новый уровень: TikTok использует машинное обучение, чтобы рекомендовать контент, а MSQRD, который купил Facebook, — технологии по распознаванию лица и искусственный интеллект.

Пример задачи:

Если дата-сайентисту нужно спрогнозировать спрос на новую коллекцию кроссовок, то он:

  • готовит данные о продажах кроссовок за последние несколько лет;
  • выбирает модель машинного обучения, которая лучше всего подойдет для этого прогноза;
  • выбирает метрики, которые позволят оценить качество модели;
  • пишет код модели;
  • применяет алгоритм машинного обучения на данных о прошлых продажах;
  • получает прогнозные значения и предлагает их менеджерам для принятия решения об объемах производства кроссовок.

Подборка хороших курсов

  • Практический курс по машинному обучению с менторской поддержкой
  • Курс содержит полный обзор современных методов машинного обучения от простых моделей до работы с нейросетями и Big Data от опытного практика области
  • Специализация Яндекса и МФТИ на Coursera на русском языке
  • Полное введение в data science и машинное обучение на базе Python
  • Теорию можно смотреть бесплатно, задания и сертификат — платные
  • Интерактивное пошаговое изучение Data Science с фокусом на Python
  • Обучение через практику: с самого начала работа с реальными данными и кодом
  • 3 направления на выбор: Data Scientist, Data Analyst или Data Engineer
  • Интерактивный онлайн-курс по Data Science с фокусом на R
  • 66 курсов по машинному обучению, анализу данных и статистике
  • Курс построен на решении практических задач

«Специализация Аналитик Данных»

  • Специализация включает сквозной курс и тренажёры по инструментам для анализа данных.
  • Срок обучения: 6 месяцев
  • Онлайн-программа профессиональной переподготовки от Института биоинформатики и Санкт-Петербургского Академического университета РАН, не требующая специальной подготовки
  • Срок обучения: 1 год. С лета 2017 — ускоренная программа (полгода)
  • Стоимость: 1999 рублей в месяц

Курс по математике для Data Science

Курс содержит много практики, которая не ограничивается решением классических уравнений и абстрактных заданий.

Основы статистики

Бесплатное и ясное введение в математическую статистику для всех

  • Легендарный курс основателя Coursera и одного из лучших специалистов по искусственному интеллекту Эндрю Ын (Andrew Ng)
  • Этот курс можно считать индустриальным стандартом по введению в машинное обучение
  • Добрый человек “перевел” задания на Python (в оригинале нужно все делать на Octave)
  • Курс от NVIDIA и SkillFactrory
  • Комплексный курс по глубокому обучению на Python для начинающих
  • Видеозаписи занятий легендарной Школы анализа данных Яндекса
  • Курсы: машинное обучение, алгоритмы и структуры данных, параллельные вычисления, дискретный анализ и теория вероятности и др.

“10 онлайн-курсов по машинному обучению”

Подборка удаленных образовательных программ, составленная проектом “Теплица социальных технологий”

  • Любопытное введение в статистику на примере … котиков
  • Вы получите знания об основах описательной статистики, дисперсионном и корреляционном анализе
  • Фишка курса — наглядность (опять же картинки с котиками)
  • Учит извлекать данные из разных файлов, баз данных и API
  • Преобразовывать данные для удобного анализа
  • Интерпретировать и визуализировать результаты анализа

Курс по Python для анализа данных

Практический курс по Python для аналитиков с менторской поддержкой.

  • Курс от Высшей школы экономики
  • Онлайн-курс по самому популярному языку программирования для data scientist’ов

Как мы отбирали курсы?

При выборе мы руководствовались такими критериями:

Польза и актуальность знаний. Изучали программу курса, чтобы понять, насколько полные и актуальные знания по профессии она дает.
Ценовая политика

В этой сфере стоят достаточно дорого, поэтому нам было особенно важно выделить школы, которые предлагают рассрочку, скидки, программы лояльности.
Политика в отношении трудоустройства
Мы понимаем, что потратить несколько лет и большой бюджет на образование и потом не найти работу – это серьезное разочарование, поэтому уделяем внимание тому, как школы содействуют трудоустройству выпускников.
Отзывы студентов. Обязательно учитываем опыт предыдущих учеников.
Дополнительные возможности: бонусные курсы, работа над гибкими навыками.
Диплом
Насколько ценен документ об окончании курса, имеет ли он государственную лицензию.
Квалификация лекторов

Для нас важно, чтобы преподаватели не просто пересказывали теорию, а понимали, как работает индустрия изнутри и давали студентам реальные знания и навыки, которые пригодятся в профессии.

Как Data Scientist увеличить свою стоимость на рынке труда

  • Знание уникальной технологии. Когда специалист становится экспертом в узкой профессиональной области, например он крут в NLP — это увеличивает его стоимость на рынке.
  • Опыт работы в развитой, хайповой сфере: всё что связано с компьютерным зрением, робототехникой, беспилотниками и так далее. Стоимость специалиста зависит от пересечения спроса рынка, общих трендов и знаний специфического, узкого сегмента.
  • Разносторонний опыт. Некоторые работодатели рассматривают специалистов только из своей сферы, например, из банков. Но выигрывают те, кто смотрят шире и приглашают аналитиков из других областей. Потому что кандидат может привнести новое видение, применить неочевидные инструменты и подходы.
  • Опыт создания собственного стартапа. Для работодателя это значит, что специалист может понимать поставленные задачи на уровне бизнеса.
  • Участие в международных проектах. Можно получить грант или поучаствовать в конкурсе на Kaggle.
  • Опыт работы в зарубежных компаниях. В иностранных компаниях приняты другие стандарты и подходы к бизнесу, и это ценится в российских компаниях.

Постоянно обучаться и точечно развивать свою экспертизу

Для этого важно следить за трендами рынка, чтобы прокачивать востребованные компетенции.
Уметь разговаривать на языке бизнеса. Быть проактивным, понимать и доносить пользу своей работы руководителям.
Формировать вокруг себя команду

Можно стать руководителем или тим-лидом небольшой команды либо учебного проекта. Опыт менеджерства на любом уровне востребован.

Профессия Data Scientist от Skillbox

Для анализа больших и неоднородных массивов данных используется технология Big Data. Машинные технологии научились делать выводы и использовать инфографику для визуализации данных. На услуги Data Scientist предъявляют спрос банки, мобильные операторы, производители программных продуктов. Уровень оплаты в Big Data стабильно высок. Обучиться профессии с нуля могут новички, а опытные программисты прокачают свои навыки. Курс от Skillbox задействует разные инструменты — языки кода, фреймворки, библиотеки и базы данных.

Освоение новых знаний происходит в контакте с наставником. Сообщество профессионалов Skillbox даёт обратную связь при выполнении заданий и помогает выпускникам с трудоустройством.

Кто он, Data Scientist?

Вообще-то Data Scientist —  профессия, окруженная разными мифами. В глазах одних Data Scientists — это подобие шаманов, способных из «больших данных добывать нефть», причем знаний в области бизнеса от них не требуется. Другие причисляют к этой профессии вообще почти любого программиста: умеешь программировать —  умеешь работать с данными.

Мне ближе определение, которое дает специалист по биологической статистике Джеффри Лик из Университета Джонса Хопкинса. Data Scientist — это специалист, владеющий тремя группами навыков:

  1. IT-грамотность — программирование, придумывание и решение алгоритмических задач, владение софтом;
  2. Математические и статистические знания;
  3. Содержательный опыт в какой-то области — понимание бизнес-запросов своей организации или задач своей отрасли науки.

Причем вакансии, подразумевающие эту специализацию, могут называться по-разному. Среди самых популярных названий — аналитик Big Data, математик или математик-программист, менеджер по анализу систем, архитектор Big Data, бизнес-аналитик, BI-аналитик, информационный аналитик, специалист Data Mining, инженер по машинному обучению и многие другие.

🥇 №1. Профессия Data Scientist от Skillbox

После прохождения этого курса ты освоишь 2 специальности и получишь 1.5 года реального стажа в Data Science.

Кому подойдёт:

  • Новичкам в IT. Чтобы получить базовые навыки программирования, аналитики и математики. 
  • Программистам. Для улучшения своих знаний и навыков в Python и R. 
  • Аналитикам. После обучения ты научишься ставить гипотезы, кодить на Python и R, а также повысишь свою квалификацию. 

Чему научат:

  • Навыкам в аналитике.
  • Базовым знаниям по математике для DS.
  • Работе с языками Python и R.
  • Методам визуализации данных.
  • Взаимодействию с базами данных.
  • Использованию нейронных сетей и построению рекомендательных систем.

Сколько длится: 18 месяцев.

Цена: 232 500 рублей без скидки, 116 250 рублей со скидкой

Бизнес-аналитика (BI) и Data Science

  • В BI в основном анализируют предыдущие данные, чтобы найти ответ задним числом и используют интуицию для описания тенденций бизнеса. BI позволяет вам принимать данные из внешних и внутренних источников, обрабатывать их, делать запросы и создавать информационные панели для ответа на такие вопросы, как ежеквартальный анализ доходов или бизнес-проблем. BI может оценить влияние определенных событий в ближайшем будущем.
  • Что такое Data Science? это более перспективный подход, исследовательский подход с уделением особого внимания анализу прошлых или текущих данных и прогнозированию будущих результатов с целью принятия обоснованных решений. Он отвечает на открытые вопросы о событиях «что» и «как».
    Давайте посмотрим на некоторые различия.
Features Business Intelligence (BI) Data Science
Data Sources  Structured
(Usually SQL, often Data Warehouse)
 Both Structured and Unstructured( logs, cloud data, SQL, NoSQL, text)
Approach Statistics and Visualization Statistics, Machine Learning, Graph Analysis, Neuro- linguistic Programming (NLP)
Focus Past and Present Present and Future Tools Pentaho, Microsoft BI, QlikView, R RapidMiner, BigML, Weka, R

Это все о том, что такое Data Science, теперь давайте рассмотрим жизненный цикл Data Science.

Общая ошибка, допущенная в проектах Data Science, это работа над сбором и анализом данных, не понимая требований без правильного определения бизнес-проблемы

Поэтому для вас очень важно следить за всеми этапами жизненного цикла Data Science, чтобы обеспечить бесперебойную работу проекта

Образование в области Data Science: ничего невозможного нет

Сегодня для тех, кто хочет развиваться в сфере анализа больших данных, существует очень много возможностей: различные образовательные курсы, специализации и программы по data science на любой вкус и кошелек, найти подходящий для себя вариант не составит труда. С моими рекомендациями по курсам можно ознакомиться здесь.

Потому как Data Scientist — это человек, который знает математику. Анализ данных, технологии машинного обучения и Big Data – все эти технологии и области знаний используют базовую математику как свою основу.

Читайте по теме: 100 лучших онлайн-курсов от университетов Лиги плюща Многие считают, что математические дисциплины не особо нужны на практике. Но на самом деле это не так.

Приведу пример из нашего опыта. Мы в E-Contenta занимаемся рекомендательными системами. Программист может знать, что для решения задачи рекомендаций видео можно применить матричные разложения, знать библиотеку для любимого языка программирования, где это матричное разложение реализовано, но совершенно не понимать, как это работает и какие есть ограничения. Это приводит к тому, что метод применяется не оптимальным образом или вообще в тех местах, где он не должен применяться, снижая общее качество работы системы.

Хорошее понимание математических основ этих методов и знание их связи с реальными конкретными алгоритмами позволило бы избежать таких проблем.

Кстати, для обучения на различных профессиональных курсах и программах по Big Data зачастую требуется хорошая математическая подготовка. 

«А если я не изучал математику или изучал ее так давно, что уже ничего и не помню»? — спросите вы. «Это вовсе не повод ставить на карьере Data Scientist крест и опускать руки», — отвечу я.

Есть немало вводных курсов и инструментов для новичков, позволяющих освежить или подтянуть знания по одной из вышеперечисленных дисциплин. Например, специально для тех, кто хотел бы приобрести знания математики и алгоритмов или освежить их, мы с коллегами разработали специальный курс GoTo Course. Программа включает в себя базовый курс высшей математики, теории вероятностей, алгоритмов и структур данных — это лекции и семинары от опытных практиков

Особое внимание отведено разборам применения теории в практических задачах из реальной жизни. Курс поможет подготовиться к изучению анализа данных и машинного обучения на продвинутом уровне и решению задач на собеседованиях

15 сентября в Москве состоится конференция по большим данным Big Data Conference. В программе — бизнес-кейсы, технические решения и научные достижения лучших специалистов в этой области.

Приглашаем всех, кто заинтересован в работе с большими данными и хочет их применять в реальном бизнесе.
Следите за Big Data Conference в Telegram, на и .

Ну а если вы еще не определились, хотите ли заниматься анализом данных и хотели бы для начала оценить свои перспективы в этой профессии, попробуйте почитать специальную литературу, блоги о науке данных или посмотреть лекции. Например, рекомендую почитать хабы по темам Data Mining и Big Data на Habrahabr. Для тех, кто уже хоть немного в теме, со своей стороны порекомендую книгу «Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных» Петера Флаха — это одна из немногих книг по машинному обучению на русском языке.

Заниматься Data Science так же трудно, как заниматься наукой в целом. В этой профессии нужно уметь строить гипотезы, ставить вопросы и находить ответы на них. Само слово scientist подталкивает к выводу, что такой специалист должен, прежде всего, быть исследователем, человеком с аналитическим складом ума, способный делать обоснованные выводы из огромных массивов информации в достаточно сжатые строки. Скрупулезный, внимательный, точный — чаще всего он одновременно и программист, и математик.

Жизненный цикл Data Science

Ниже приведен краткий обзор основных этапов жизненного цикла, который позволяет ответить на вопрос о том, что такое Data Science?:

Жизненный цикл Data Science

Фаза 1 — Открытие: перед началом проекта важно понять различные спецификации, требования, приоритеты и необходимый бюджет. Вы должны обладать способностью задавать правильные вопросы

Здесь вы оцениваете, есть ли у вас необходимые ресурсы с точки зрения людей, технологии, времени и данных для поддержки проекта. На этом этапе вам также необходимо создать бизнес-задачу и сформулировать первоначальные гипотезы (IH) для тестирования.
Фаза 2 — Подготовка данных: на этом этапе вам нужна аналитическая «песочница», в которой вы можете выполнять аналитику на протяжении всего проекта. Перед моделированием вам необходимо исследовать и предварительно обработать данные. Кроме того, вы будете выполнять ETLT (extract, transform, load and transform), чтобы получить данные в песочнице. Давайте посмотрим на порядок статистического анализа ниже.

Статистический анализ

Вы можете использовать R для очистки, преобразования и визуализации данных. Это поможет вам выявить выбросы и установить связь между переменными. После того, как вы очистили и подготовили данные, пришло время сделать исследовательскую аналитику. Давайте посмотрим, как вы можете этого достичь.

Фаза 3 — Планирование модели: Здесь вы определяете методы и техники для выявления отношений между переменными. Эти отношения задают основу для алгоритмов, которые вы будете реализовывать на следующем этапе. Вы будете применять Explorative Data Analytics (EDA), используя различные статистические формулы и инструменты визуализации.

Давайте посмотрим на различные инструменты планирования модели.

Заключение:

Предполагая, что в момент «развилки» не все прочитали часть 5, поэтому поделю свои впечатления на две части.

Пройдена только Data Science Fundamentals:

Ну в целом достаточно, для того, чтобы в самых общих чертах понять, что такое Data Science. Подготовки никакой не требуется, ни мат. анализом ни статистикой, ни программированием можно не владеть, главное «шпрейхать по-аглицки».

Думаю, итак очевидно, что за один день вы ничего толком не выучите и на 1500000 млн. рублей зарплату рассчитывать не стоит (я надеюсь вы еще не успели открыть «Хантер» и создать резюме?)

По идее этот курс должен развить у вас интерес к предмету и не напугать, в принципе разработчикам это удалось.

Пройдена Data Science Fundamentals + Data Science for Business + Statistics 101:

Рушит все надежды, потому что по-настоящему толковая практика так и не попалась, а курсы Data Science for Business + Statistics 101 выполнены несколько хуже по качеству чем Data Science Fundamentals, да еще и требуют установки триал версий программ от IBM.

Примеры в задачках не абы какие и оторваны во многом от реальности.

Наверное, пройдя все это, вы возможно, сдлаете для себя вывод — Data Science это ваше или нет, было ли вам до ужаса скучно или вы в восторге от колдовства над данными.

Подводя итог: Представленные курсы по пользе напоминают ситуацию, как если бы вас не умеющего водить машину, посадили бы за руль нормального автомобиля с автоматической коробкой передач, показали бы вам где газ и тормоз, как заводить машину и заливать бензин, как включить фары и дворники, ну и в конце под контролем дали бы проехать пару километров по проселочной дороге. С одной стороны водителем вы точно после этого не станете, с другой стороны если вы будете спасаться от маньяка с бензопилой возможно эти знания сохранят вашу жизнь. Ровно также и с этими курсами.

В любом случае, всем кто потратил время на обучение по программе от Cognitive class, советую не останавливаться на достигнутом. В конце концов даже у них там еще много чего интересного (Big Data, Hadoop, Scala и т.п.)

Спасибо за внимание, всем удачной недели!

UPD: Последующие статьи цикла ниже под спойлером:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector