Data scientist решает задачу, другие отделы аплодируют: чем занимается специалист по данным

unsplash.com
В 2021 году рынок больших данных оценивался в 46 $ миллиардов (исследование МФТИ). Бюро статистики труда США сообщает, что к 2026 году сфера вырастет на 28%. Вероятно, и за ваш счёт. Присмотритесь, может, вам надо в data science? Редакция Synergy Times разобралась, чем занимается специалист по данным, сколько зарабатывает и где на него учат.
Из этой статьи вы узнаете
Кто такой data scientist
Что должен знать и уметь data scientist
Как выглядит рабочий день data scientist
Этапы карьеры в data science
Сколько зарабатывает data scientist
Где учиться на data scientist
Кто такой data scientist
Ежедневно пользователи интернета по всему миру генерируют множество информации — при каждом клике, опубликованном посте, просмотре видео или фото в соцсетях и на других сайтах. Если обработать и проанализировать огромный массив данных, то можно обнаружить много интересных закономерностей, полезных для бизнеса, науки и повседневной жизни.
Этим занимается data scientist. С помощью алгоритмов он создаёт инструменты для решения конкретных задач. Специалист может спрогнозировать дефолт в банке, предупредить о возможности террористической атаки, предсказать спрос на услуги такси и стоимость поездки в определённое время, сгенерировать подборку фильмов, книг или музыки в онлайн-сервисах, составить список возможных друзей в соцсетях, дать метеопрогноз, выявить мошеннические схемы.
Специалисты data science нужны практически во всех отраслях — маркетинге, продажах, разработке продуктов, банковской сфере, менеджменте.
«Алгоритм предложил ставить банкоматы на кладбищах»: как data scientist меняет нашу жизнь
Читать подробнее
Что должен знать и уметь data scientist
Специалист по большим данным должен обладать профессиональными навыками (hard skills):
-
Знание математики и статистики, чтобы находить в данных закономерности и прогнозировать их значения в будущем.
-
Программирование. Чтобы применять математические модели на практике, нужно уметь кодить на С, C++ или Python, владеть SQL, библиотеками и фреймворками для машинного обучения (NumPy, Scikit-learn).
-
Работа с базами данных. Например, нужно уметь производить сложные запросы в SQL.
-
Знание классических алгоритмов машинного обучения.
-
Знание английского языка. Существует много полезной литературы, периодики, блогов и других ресурсов, которые не переводят на русский.
Основные гибкие навыки (soft skills) для data scientist:
-
Умение действовать в команде. Профессия подразумевает коллективную работу над проектами. Надо слушать напарников и чётко понимать свою роль в группе.
-
Умение донести свои мысли. Заказчики проекта не всегда владеют техническими навыками и терминологией. Презентуя им продукт, лучше объяснять всё простыми словами.
Самые популярные языки программирования в 2022 году: какие учить уже сейчас
Читать подробнее
Как выглядит рабочий день data scientist
Работа непредсказуемая, её сложно назвать рутинной: проекты и задачи могут быть разными. Например, обычный день data scientist в компании пассажирских перевозок может выглядеть следующим образом.
Утро начинается с планёрки. Здесь команда обсуждает рабочие проблемы, делится результатами исследований, получает новые задания или проекты, намечает фронт работ. Сегодня перед data scientist стоит задача: на основе большого массива данных посоветовать отделу закупок оптимальную марку автомобиля для обновления парка такси. Чтобы работа шла активнее, десятиминутный кофе-брейк — и вперёд, погружаться в мир big data.

В первую очередь надо выполнить сбор, разметку и классификацию данных, на основе которых потом проводить исследования и искать закономерности. Это наиболее ответственный и трудоёмкий процесс: от того, какие данные анализирует специалист, зависит точность построения модели и корректность выводов. При выборе марки автомобиля нужны сведения о технических характеристиках, стоимости, данные технического отдела о поломках и ремонтах и т. д.
Для выборки нужных данных из имеющихся таблиц с характеристиками авто специалист использует язык запросов SQL. Если информации не хватает, то её нужно получить из сторонних источников. В дело вступает программирование. К примеру, с помощью Python или C++ можно написать скрипт, который будет собирать коммерческие предложения с интернет-сайтов дилеров и структурировать их в отдельную таблицу.
Далее data scientist должен учесть мнение клиентов о конкретных моделях — выявить закономерности заказов автомобилей разных марок и проанализировать отзывы на сайтах и в соцсетях. Здесь задачи не такие тривиальные. Проблема в том, что «живой» контент из соцсетей может отличаться из-за тонкости оттенков позитива и негатива. Ведь пользователи часто прибегают к иронии или сарказму, здесь сам чёрт ногу сломит, не то что искусственный интеллект. Чтобы решить задачу, дата-сайентист формирует большую обучающую выборку, которая позволяет научить алгоритм понимать особенности выражения мнений в социальных сетях.

Данные данными, а обед по расписанию. Хотя многие специалисты отмечают, что могут забыть про перерыв: творческий процесс затягивает. К середине дня опытный data scientist может сформировать data frame — таблицу, содержащую все необходимые сведения для исследования.
Следующий этап — Exploratory Data Analysis (EDA, разведочный анализ данных). Специалист на основе искусственного интеллекта и машинного обучения пытается найти закономерности и аномалии в данных. Он ищет скрытые связи, указывающие на качество автомобиля, старается понять, какие из технических характеристик модели влияют на её успешную работу в такси (например, наличие кондиционера в южных регионах важнее, чем размер багажника). Искусственный интеллект помогает сформировать численные значения для каждой характеристики. Далее математический анализ позволяет выбрать оптимальную модель.
К концу рабочего дня задача решена. Отдел закупок аплодирует.
Высшее образование
Получи профессию в сфере искусственного интеллекта
Узнать, как поступитьЭтапы карьеры в data science
Как правило, data scientist проходит несколько этапов карьерного роста:
-
Стажёр. На этой позиции можно работать после коротких курсов. Однако стажёры не очень востребованы (в декабре 2022 года на hh.ru около 30 вакансий, не требующих опыта). Новичкам стоит поискать возможность пройти практику в компаниях с опытными специалистами, чтобы быстрее изучить базу и перейти на новый уровень.
-
Junior. Начинающий специалист, который решает несложные задачи: подготавливает данные к обработке, ищет ошибки, строит таблицы.
-
Middle. Самостоятельно решает множество задач, разбирается в математике и программировании на Python, создаёт алгоритмы, проводит эксперименты.
-
Senior. Лидер команды — одновременно работает над несколькими крупными проектами, знает статистику и математику, умеет качественно визуализировать результаты, обучает младших специалистов.
Искусственный интеллект, машинное обучение и глубокое обучение: что это и в чём разница
Читать подробнее
Сколько зарабатывает data scientist
Начинающий специалист может рассчитывать на зарплату от 70 тысяч рублей. Мидл получает около 150–250 тысяч рублей.


Сотрудник с опытом пять-шесть лет зарабатывает от 250 тысяч рублей. Но есть исключения. Так, корпорация «Экосфера» предлагает руководителю команды от 750 000 рублей.

Где учиться на data scientist
Существуют краткосрочные курсы по работе с большими данными. Так, на платформе Synergy Academy программа длится шесть месяцев. Здесь учат понимать основы статистики, проектировать базы данных, программировать на Python, создавать и обучать модели, анализировать big data. Курс подходит даже новичкам и начинающим программистам.
Высшее образование в сфере data science можно получить на факультете искусственного интеллекта в университете «Синергия». На программе бакалавриата студенты изучают программирование на Python, методы машинного обучения, теорию информации и кодирования, работу с большими данными и углублённый анализ данных, компьютерное зрение, алгоритмы и структуры данных.
После выпуска, как правило, учёба не оканчивается. Data scientist должен быть всегда в тренде. Эксперты советуют читать блог на Medium и статьи на arxiv.org: в них публикуют свежие новости из сферы data science и machine learning. Полезно вступить в сообщество аналитиков данных: больше 12 тысяч юзеров общаются в slack-чате ODS (Open Data Science) и делятся советами.
Составить представление о принципах профессии можно, прочитав книги:
-
«Data Science. Наука о данных с нуля» Джоэла Граса.
-
«Много цифр. Анализ больших данных при помощи Excel» Джона Формана (да, чтобы применять big data в своём бизнесе, даже не надо кодить).
-
Data Science for Business Фостера Провоста и Тома Фоусетта (на английском языке).
-
Data Smart Джона Формана (на английском языке).
Высшее образование
Получи профессию в сфере искусственного интеллекта
На факультете искусственного интеллекта вы научитесь обрабатывать и анализировать большие объёмы данных, изучите архитектуру информационных систем и структуру нейронных сетей, создадите собственное приложение или даже робота, которые улучшат жизнь людей. Уже во время обучения сможете устроиться на работу и получать от 150 тысяч рублей.
Узнать, как поступить