Ленинградский пр-т, д. 80, к. Г125190Москва, Россия
8 495 800-10-01stimes@synergy.ruhttps://synergytimes.ru/img/universal/logo-new.svg
18 июля 2023 г. Строй карьеру

Data scientist: чем занимается специалист по данным

Data scientist: чем занимается специалист по данным

unsplash.com

В 2021 году рынок больших данных оценивался в 46 $ миллиардов (исследование МФТИ). Бюро статистики труда США сообщает, что к 2026 году сфера вырастет на 28%. Вероятно, и за ваш счёт. Присмотритесь, может, вам надо в data science? Редакция Synergy Times разобралась, чем занимается специалист по данным, сколько зарабатывает и где на него учат.

Из этой статьи вы узнаете

Кто такой data scientist

Что должен знать и уметь data scientist

Как выглядит рабочий день data scientist

Этапы карьеры в data science

Сколько зарабатывает data scientist

Где учиться на data scientist

Кто такой data scientist

Ежедневно пользователи интернета по всему миру генерируют множество информации — при каждом клике, опубликованном посте, просмотре видео или фото в соцсетях и на других сайтах. Если обработать и проанализировать огромный массив данных, то можно обнаружить много интересных закономерностей, полезных для бизнеса, науки и повседневной жизни.

Этим занимается data scientist. С помощью алгоритмов он создаёт инструменты для решения конкретных задач. Специалист может спрогнозировать дефолт в банке, предупредить о возможности террористической атаки, предсказать спрос на услуги такси и стоимость поездки в определённое время, сгенерировать подборку фильмов, книг или музыки в онлайн-сервисах, составить список возможных друзей в соцсетях, дать метеопрогноз, выявить мошеннические схемы.

Специалисты data science нужны практически во всех отраслях — маркетинге, продажах, разработке продуктов, банковской сфере, менеджменте.

«Алгоритм предложил ставить банкоматы на кладбищах»: как data scientist меняет нашу жизнь

Читать подробнее

Что должен знать и уметь data scientist

Специалист по большим данным должен обладать профессиональными навыками (hard skills):

  • Знание математики и статистики, чтобы находить в данных закономерности и прогнозировать их значения в будущем.

  • Программирование. Чтобы применять математические модели на практике, нужно уметь кодить на С, C++ или Python, владеть SQL, библиотеками и фреймворками для машинного обучения (NumPy, Scikit-learn).

  • Работа с базами данных. Например, нужно уметь производить сложные запросы в SQL.

  • Знание классических алгоритмов машинного обучения.

  • Знание английского языка. Существует много полезной литературы, периодики, блогов и других ресурсов, которые не переводят на русский.

Основные гибкие навыки (soft skills) для data scientist:

  • Умение действовать в команде. Профессия подразумевает коллективную работу над проектами. Надо слушать напарников и чётко понимать свою роль в группе.

  • Умение донести свои мысли. Заказчики проекта не всегда владеют техническими навыками и терминологией. Презентуя им продукт, лучше объяснять всё простыми словами.

Самые популярные языки программирования в 2022 году: какие учить уже сейчас

Читать подробнее

Как выглядит рабочий день data scientist

Работа непредсказуемая, её сложно назвать рутинной: проекты и задачи могут быть разными. Например, обычный день data scientist в компании пассажирских перевозок может выглядеть следующим образом.

Утро начинается с планёрки. Здесь команда обсуждает рабочие проблемы, делится результатами исследований, получает новые задания или проекты, намечает фронт работ. Сегодня перед data scientist стоит задача: на основе большого массива данных посоветовать отделу закупок оптимальную марку автомобиля для обновления парка такси. Чтобы работа шла активнее, десятиминутный кофе-брейк — и вперёд, погружаться в мир big data.

unsplash.com

В первую очередь надо выполнить сбор, разметку и классификацию данных, на основе которых потом проводить исследования и искать закономерности. Это наиболее ответственный и трудоёмкий процесс: от того, какие данные анализирует специалист, зависит точность построения модели и корректность выводов. При выборе марки автомобиля нужны сведения о технических характеристиках, стоимости, данные технического отдела о поломках и ремонтах и т. д.

Для выборки нужных данных из имеющихся таблиц с характеристиками авто специалист использует язык запросов SQL. Если информации не хватает, то её нужно получить из сторонних источников. В дело вступает программирование. К примеру, с помощью Python или C++ можно написать скрипт, который будет собирать коммерческие предложения с интернет-сайтов дилеров и структурировать их в отдельную таблицу.

Далее data scientist должен учесть мнение клиентов о конкретных моделях — выявить закономерности заказов автомобилей разных марок и проанализировать отзывы на сайтах и в соцсетях. Здесь задачи не такие тривиальные. Проблема в том, что «живой» контент из соцсетей может отличаться из-за тонкости оттенков позитива и негатива. Ведь пользователи часто прибегают к иронии или сарказму, здесь сам чёрт ногу сломит, не то что искусственный интеллект. Чтобы решить задачу, дата-сайентист формирует большую обучающую выборку, которая позволяет научить алгоритм понимать особенности выражения мнений в социальных сетях.

unsplash.com

Данные данными, а обед по расписанию. Хотя многие специалисты отмечают, что могут забыть про перерыв: творческий процесс затягивает. К середине дня опытный data scientist может сформировать data frame — таблицу, содержащую все необходимые сведения для исследования.

Следующий этап — Exploratory Data Analysis (EDA, разведочный анализ данных). Специалист на основе искусственного интеллекта и машинного обучения пытается найти закономерности и аномалии в данных. Он ищет скрытые связи, указывающие на качество автомобиля, старается понять, какие из технических характеристик модели влияют на её успешную работу в такси (например, наличие кондиционера в южных регионах важнее, чем размер багажника). Искусственный интеллект помогает сформировать численные значения для каждой характеристики. Далее математический анализ позволяет выбрать оптимальную модель.

К концу рабочего дня задача решена. Отдел закупок аплодирует.

Высшее образование

Получи профессию в сфере искусственного интеллекта
Узнать подробнее

Этапы карьеры в data science

Наталья Берлатонова, руководитель Партнёрского направления Центра карьеры Корпорации «Синергия» , отмечает, что проще всего войти в профессию, если у вас есть образование (высшее или курсы), портфолио с практическими кейсами и опыт успешной стажировки.

Стажировки могут себе позволить компании, где есть выстроенные процессы и ресурс наставника, а также потребность решать практические задачи. Стажировками могут также похвастаться исследовательские отделы или целые НИИ на базе крупных корпораций. Если все сложится удачно, после прохождения можно закрепиться в организации.

Сложнее прийти на позицию без опыта. Профессия сама по себе новая и динамичная. Хорошей базой может стать образование в физико-математической сфере, инженерия, информатика. Присоединяйтесь к сообществам в дата сайенс, берите практические кейсы на специализированных сервисах, ищите актуальные.

Наталья Берлатонова, Центр карьеры Корпорации «Синергия»

Как правило, data scientist проходит несколько этапов карьерного роста:

  • Стажёр. На этой позиции можно работать после коротких курсов. Однако стажёры не очень востребованы (в декабре 2022 года на hh.ru около 30 вакансий, не требующих опыта). Новичкам стоит поискать возможность пройти практику в компаниях с опытными специалистами, чтобы быстрее изучить базу и перейти на новый уровень.

  • Junior. Начинающий специалист, который решает несложные задачи: подготавливает данные к обработке, ищет ошибки, строит таблицы.

  • Middle. Самостоятельно решает множество задач, разбирается в математике и программировании на Python, создаёт алгоритмы, проводит эксперименты.

  • Senior. Лидер команды — одновременно работает над несколькими крупными проектами, знает статистику и математику, умеет качественно визуализировать результаты, обучает младших специалистов.

Искусственный интеллект, машинное обучение и глубокое обучение: что это и в чём разница

Читать подробнее

Сколько зарабатывает data scientist

Начинающий специалист может рассчитывать на зарплату от 70 тысяч рублей. Мидл получает около 150–250 тысяч рублей.

datahh.ru

Где учиться на data scientist

Существуют краткосрочные курсы по работе с большими данными. Так, на платформе Synergy Academy программа длится шесть месяцев. Здесь учат понимать основы статистики, проектировать базы данных, программировать на Python, создавать и обучать модели, анализировать big data. Курс подходит даже новичкам и начинающим программистам.

У нас в Центре карьеры был интересный кейс, когда выпускник курса Data science с 25-летним опытом работы инженером трудоустроился в крупную компанию на российском рынке. Ещё до обучения он самостоятельно изучал SQL, ему нравилось оптимизировать свою работу инженера-проектировщика.

Наталья Берлатонова, Центр карьеры Корпорации «Синергия»

Высшее образование в сфере data science можно получить на факультете искусственного интеллекта в университете «Синергия». На программе бакалавриата студенты изучают программирование на Python, методы машинного обучения, теорию информации и кодирования, работу с большими данными и углублённый анализ данных, компьютерное зрение, алгоритмы и структуры данных.

После выпуска, как правило, учёба не оканчивается. Data scientist должен быть всегда в тренде. Эксперты советуют читать блог на Medium и статьи на arxiv.org: в них публикуют свежие новости из сферы data science и machine learning. Полезно вступить в сообщество аналитиков данных: больше 12 тысяч юзеров общаются в slack-чате ODS (Open Data Science) и делятся советами.

Составить представление о принципах профессии можно, прочитав книги:

  • «Data Science. Наука о данных с нуля» Джоэла Граса.

  • «Много цифр. Анализ больших данных при помощи Excel» Джона Формана (да, чтобы применять big data в своём бизнесе, даже не надо кодить).

  • Data Science for Business Фостера Провоста и Тома Фоусетта (на английском языке).

  • Data Smart Джона Формана (на английском языке).

Высшее образование

Получи профессию в сфере искусственного интеллекта

На факультете искусственного интеллекта вы научитесь обрабатывать и анализировать большие объёмы данных, изучите архитектуру информационных систем и структуру нейронных сетей, создадите собственное приложение или даже робота, которые улучшат жизнь людей. Уже во время обучения сможете устроиться на работу и получать от 150 тысяч рублей.

#data science #ии #it #программирование #профессии #абитуриенты #обзор профессии

Читайте также: