Data scientist: чем занимается специалист по данным
unsplash.com
В 2021 году рынок больших данных оценивался в 46 $ миллиардов (исследование МФТИ). Бюро статистики труда США сообщает, что к 2026 году сфера вырастет на 28%. Вероятно, и за ваш счёт. Присмотритесь, может, вам надо в data science? Редакция Synergy Times разобралась, чем занимается специалист по данным, сколько зарабатывает и где на него учат.
Из этой статьи вы узнаете
Кто такой data scientist
Что должен знать и уметь data scientist
Как выглядит рабочий день data scientist
Этапы карьеры в data science
Сколько зарабатывает data scientist
Где учиться на data scientist
Кто такой data scientist
Ежедневно пользователи интернета по всему миру генерируют множество информации — при каждом клике, опубликованном посте, просмотре видео или фото в соцсетях и на других сайтах. Если обработать и проанализировать огромный массив данных, то можно обнаружить много интересных закономерностей, полезных для бизнеса, науки и повседневной жизни.
Этим занимается data scientist. С помощью алгоритмов он создаёт инструменты для решения конкретных задач. Специалист может спрогнозировать дефолт в банке, предупредить о возможности террористической атаки, предсказать спрос на услуги такси и стоимость поездки в определённое время, сгенерировать подборку фильмов, книг или музыки в онлайн-сервисах, составить список возможных друзей в соцсетях, дать метеопрогноз, выявить мошеннические схемы.
Специалисты data science нужны практически во всех отраслях — маркетинге, продажах, разработке продуктов, банковской сфере, менеджменте.
«Алгоритм предложил ставить банкоматы на кладбищах»: как data scientist меняет нашу жизнь
Читать подробнееЧто должен знать и уметь data scientist
Специалист по большим данным должен обладать профессиональными навыками (hard skills):
-
Знание математики и статистики, чтобы находить в данных закономерности и прогнозировать их значения в будущем.
-
Программирование. Чтобы применять математические модели на практике, нужно уметь кодить на С, C++ или Python, владеть SQL, библиотеками и фреймворками для машинного обучения (NumPy, Scikit-learn).
-
Работа с базами данных. Например, нужно уметь производить сложные запросы в SQL.
-
Знание классических алгоритмов машинного обучения.
-
Знание английского языка. Существует много полезной литературы, периодики, блогов и других ресурсов, которые не переводят на русский.
Основные гибкие навыки (soft skills) для data scientist:
-
Умение действовать в команде. Профессия подразумевает коллективную работу над проектами. Надо слушать напарников и чётко понимать свою роль в группе.
-
Умение донести свои мысли. Заказчики проекта не всегда владеют техническими навыками и терминологией. Презентуя им продукт, лучше объяснять всё простыми словами.
Самые популярные языки программирования в 2022 году: какие учить уже сейчас
Читать подробнееКак выглядит рабочий день data scientist
Работа непредсказуемая, её сложно назвать рутинной: проекты и задачи могут быть разными. Например, обычный день data scientist в компании пассажирских перевозок может выглядеть следующим образом.
Утро начинается с планёрки. Здесь команда обсуждает рабочие проблемы, делится результатами исследований, получает новые задания или проекты, намечает фронт работ. Сегодня перед data scientist стоит задача: на основе большого массива данных посоветовать отделу закупок оптимальную марку автомобиля для обновления парка такси. Чтобы работа шла активнее, десятиминутный кофе-брейк — и вперёд, погружаться в мир big data.
unsplash.comВ первую очередь надо выполнить сбор, разметку и классификацию данных, на основе которых потом проводить исследования и искать закономерности. Это наиболее ответственный и трудоёмкий процесс: от того, какие данные анализирует специалист, зависит точность построения модели и корректность выводов. При выборе марки автомобиля нужны сведения о технических характеристиках, стоимости, данные технического отдела о поломках и ремонтах и т. д.
Для выборки нужных данных из имеющихся таблиц с характеристиками авто специалист использует язык запросов SQL. Если информации не хватает, то её нужно получить из сторонних источников. В дело вступает программирование. К примеру, с помощью Python или C++ можно написать скрипт, который будет собирать коммерческие предложения с интернет-сайтов дилеров и структурировать их в отдельную таблицу.
Далее data scientist должен учесть мнение клиентов о конкретных моделях — выявить закономерности заказов автомобилей разных марок и проанализировать отзывы на сайтах и в соцсетях. Здесь задачи не такие тривиальные. Проблема в том, что «живой» контент из соцсетей может отличаться из-за тонкости оттенков позитива и негатива. Ведь пользователи часто прибегают к иронии или сарказму, здесь сам чёрт ногу сломит, не то что искусственный интеллект. Чтобы решить задачу, дата-сайентист формирует большую обучающую выборку, которая позволяет научить алгоритм понимать особенности выражения мнений в социальных сетях.
unsplash.comДанные данными, а обед по расписанию. Хотя многие специалисты отмечают, что могут забыть про перерыв: творческий процесс затягивает. К середине дня опытный data scientist может сформировать data frame — таблицу, содержащую все необходимые сведения для исследования.
Следующий этап — Exploratory Data Analysis (EDA, разведочный анализ данных). Специалист на основе искусственного интеллекта и машинного обучения пытается найти закономерности и аномалии в данных. Он ищет скрытые связи, указывающие на качество автомобиля, старается понять, какие из технических характеристик модели влияют на её успешную работу в такси (например, наличие кондиционера в южных регионах важнее, чем размер багажника). Искусственный интеллект помогает сформировать численные значения для каждой характеристики. Далее математический анализ позволяет выбрать оптимальную модель.
К концу рабочего дня задача решена. Отдел закупок аплодирует.
Высшее образование
Получи профессию в сфере искусственного интеллекта
Узнать подробнееЭтапы карьеры в data science
Наталья Берлатонова, руководитель Партнёрского направления Центра карьеры Корпорации «Синергия» , отмечает, что проще всего войти в профессию, если у вас есть образование (высшее или курсы), портфолио с практическими кейсами и опыт успешной стажировки.
Стажировки могут себе позволить компании, где есть выстроенные процессы и ресурс наставника, а также потребность решать практические задачи. Стажировками могут также похвастаться исследовательские отделы или целые НИИ на базе крупных корпораций. Если все сложится удачно, после прохождения можно закрепиться в организации.
Как правило, data scientist проходит несколько этапов карьерного роста:
-
Стажёр. На этой позиции можно работать после коротких курсов. Однако стажёры не очень востребованы (в декабре 2022 года на hh.ru около 30 вакансий, не требующих опыта). Новичкам стоит поискать возможность пройти практику в компаниях с опытными специалистами, чтобы быстрее изучить базу и перейти на новый уровень.
-
Junior. Начинающий специалист, который решает несложные задачи: подготавливает данные к обработке, ищет ошибки, строит таблицы.
-
Middle. Самостоятельно решает множество задач, разбирается в математике и программировании на Python, создаёт алгоритмы, проводит эксперименты.
-
Senior. Лидер команды — одновременно работает над несколькими крупными проектами, знает статистику и математику, умеет качественно визуализировать результаты, обучает младших специалистов.
Искусственный интеллект, машинное обучение и глубокое обучение: что это и в чём разница
Читать подробнееСколько зарабатывает data scientist
Начинающий специалист может рассчитывать на зарплату от 70 тысяч рублей. Мидл получает около 150–250 тысяч рублей.
hh.ru
Где учиться на data scientist
Существуют краткосрочные курсы по работе с большими данными. Так, на платформе Synergy Academy программа длится шесть месяцев. Здесь учат понимать основы статистики, проектировать базы данных, программировать на Python, создавать и обучать модели, анализировать big data. Курс подходит даже новичкам и начинающим программистам.
Высшее образование в сфере data science можно получить на факультете искусственного интеллекта в университете «Синергия». На программе бакалавриата студенты изучают программирование на Python, методы машинного обучения, теорию информации и кодирования, работу с большими данными и углублённый анализ данных, компьютерное зрение, алгоритмы и структуры данных.
После выпуска, как правило, учёба не оканчивается. Data scientist должен быть всегда в тренде. Эксперты советуют читать блог на Medium и статьи на arxiv.org: в них публикуют свежие новости из сферы data science и machine learning. Полезно вступить в сообщество аналитиков данных: больше 12 тысяч юзеров общаются в slack-чате ODS (Open Data Science) и делятся советами.
Составить представление о принципах профессии можно, прочитав книги:
-
«Data Science. Наука о данных с нуля» Джоэла Граса.
-
«Много цифр. Анализ больших данных при помощи Excel» Джона Формана (да, чтобы применять big data в своём бизнесе, даже не надо кодить).
-
Data Science for Business Фостера Провоста и Тома Фоусетта (на английском языке).
-
Data Smart Джона Формана (на английском языке).
Высшее образование
Получи профессию в сфере искусственного интеллекта
На факультете искусственного интеллекта вы научитесь обрабатывать и анализировать большие объёмы данных, изучите архитектуру информационных систем и структуру нейронных сетей, создадите собственное приложение или даже робота, которые улучшат жизнь людей. Уже во время обучения сможете устроиться на работу и получать от 150 тысяч рублей.
Узнать, как поступить