Зачем менеджеру Data Science

Зачем менеджеру Data Science

3 января 2024

  • Автор: Сергей Брандис

  • Сложность: не сложно

  • Время: 9 мин

Есть два распространенных заблуждения о Data Science: первое — воспринимать этот термин исключительно как сбор массивов данных. На самом деле, Data Science — это не столько о накоплении большого количества информации, сколько об умении выбрать лучшее решение, извлечь из всего этого объема пользу для бизнеса.

Второе заблуждение — считать DS «волшебной таблеткой», способной решить все проблемы. Действительно, когда менеджер или business owner добавляет к знанию доменной области понимание Data Science, то компания получает конкурентное преимущество и способность ускориться. Так что, хотя DS и не «волшебная пыль», зато вполне может быть топливом, благодаря которому, компания быстро пойдет вперед.

Что нужно запомнить

Зачем менеджеру Data Science 1

Первое, что приходит в голову как определение Data Science — это «наука о данных», и обычно, под этой фразой понимают просто большие объемы данных — Big Data.

Однако между двумя этими понятиями есть разница: Big Data говорит об умении собрать и пользоваться массивами данных, а Data Science — о том, как эту информацию проанализировать, чтобы из потока больших данных извлечь ценность для компании или проекта.

Сегодня Data Science — это одно из трех хайповых понятий в IT-сфере (и не только в IT!). Два других популярных слова — это AI (Artificial Intelligence) и ML (Machine Learning):

  • AI – Artificial Intelligence, или искусственный интеллект. У термина много официальных описаний: только на русской Википедии около 6-7 определений. Если же объяснять простыми словами, то AI — это область computer science, которая делает системы более разумными. Программы получают умения, еще 10-15 лет назад доступные только человеку, например: распознавание и обработка текстов, голоса, картинок.
  • ML — Machine Learning, или машинное обучение. Большая подгруппа AI, которая создает алгоритмы для самообучения разумных систем. Глобальная цель ML — научить систему решать сложные задачи: рекомендовать музыку, книги или фильмы, выполнять обязанности голосового ассистента, водить машину, решать, насколько рискованно выдавать кредит клиенту.
  • DS — Data Science, или наука об анализе данных. Наделяет смыслом собранные данные, выдвигает идеи и принимает решения на основе обработанной информации. Цель Data Science — получать объем данных, чтобы извлечь ценность для бизнеса. DS пересекается с ML и с AI, потому что у них могут быть одинаковые инструменты.
Зачем менеджеру Data Science 2

Индустрия развивается настолько быстро, что трудно четко разграничить Machine Learning и Data Science. Разница в том, что ML — это часть проекта, которая работает постоянно и одновременно с вашим сервисом, а DS — отдельный пласт работы по извлечению value из данных. 

Пример ML — когда пользователь заходит в интернет-магазин купить ноутбук, то система обязательно предлагает к покупке сумку для ноутбука.

Пример DS — менеджеры по продажам на основе анализа данных выяснили, какому сегменту рынка предлагать рекламу определенных товаров. 

Почему о Data Science столько говорят

Andrew Ng, сооснователь онлайн-платформы Coursera, защитивший диссертацию по проблематике машинного обучения, считает, что создание искусственного интеллекта можно приравнять к изобретению электричества. AI — это супер-инструмент, позволяющий сделать скачок вперед конкретным бизнесам и цивилизации в целом.

Зачем менеджеру Data Science 3

Действительно ли без Data Science не обойтись, и что в нем такого привлекательного:

  • Многих разработчиков увлекает создание приложений, выходящих за рамки привычного программирования и логики: «если — затем — тогда». В Machine Learning можно написать программу, которая будет не просто быстрее, а в каких-то аспектах даже «умнее» человека. 
  • Даже бизнес, далекий от IT-сферы, генерирует большой объем данных. С помощью Data Science, эти данные можно проанализировать — и получить конкурентное преимущество. 
  • Компании готовы платить менеджерам и программистам с пониманием ML и DS больше, чем обычным специалистам. 
  • Data Scientist должен быть не столько инженером, сколько специалистом по анализу данных, поэтому на эту роль может претендовать Business Analyst с базовой экспертизой в DS. 

Статистика от IT-гигантов

Зачем менеджеру Data Science 4

График демонстрирует, насколько масштабно Google за последние несколько лет, внедрил ML в свои продукты. На принципах машинного обучения построена контекстная реклама Google AdWords, работа поисковой системы, услуги картографического сервиса, просмотр и трансляция роликов на YouTube.

Цифры по американскому рынку тоже показывают тенденцию к интенсивному развитию машинного обучения:

  • В 2019 году 33 % американцев пользовались голосовым ассистентом по типу Siri, Alexa, Alisa, Google assistant.
  • В 2020 году 85% жителей Америки покупали что-либо в интернет-магазинах через чат-ботов.
  • К 2021 году, по прогнозам американских маркетологов, более 87 % контактов потребителей будут проходить без взаимодействия с людьми. Пандемия ускорила развитие IT-сферы, поэтому реальная цифра, скорее всего, будет больше, чем прогноз. 
Зачем менеджеру Data Science 5

Музыкальный сервис Spotify успешно внедряет ML для подбора плейлистов, умная система Google Self-Driving Car умеет водить автомобиль, а компания Amazon рекомендует товары, в зависимости от интересов пользователя.

И если большие IT-компании задают такой тренд, и внедряют во все свои проекты машинное обучение, то и остальные должны двигаться в том же направлении. Тенденция такова, что скоро все в той или иной мере будут использовать DS и ML просто потому, что без этого бизнес станет неконкурентоспособным. 

Области применения Data Science:

  • E-Commerce: как посчитать доходность, как удержать людей на сайте, какие товары предлагать посетителям и покупателям. 
  • AdTech (Advertising technology): рекламные технологии, персонализированный маркетинг, оценка качества рекламных кампаний.
  • Чат-боты на основе Machine Learning: базовая коммуникация с пользователями (классификация запросов, ответы в чатах, распознавание речи, обработка текста). 
  • Scoring системы для банковской оценки клиента: обработка множества данных, помощь в принятии решения, например, о кредите, об­на­ру­же­ние аномального поведения кли­ен­та, выявление мо­шен­ни­че­ства. 

На самом деле, 95, если не 99 % людей уже сталкивались с Machine Learning или Data Science, например, когда заказывали что-то на Rozetka, выбирали фильм на Netflix или пользовались службами Google. 

Как нетехническому специалисту принести пользу в DS-проекте

Успешный менеджер или владелец бизнеса — уже эксперт в своей отрасли. Когда к доменной экспертизе подключается AI, на пересечении двух областей создается возможность для интенсивного развития: менеджер ускоряет и улучшает проект, создавая новые value. 

Data Science — это почти всегда inhouse, потому что происходит работа с внутренними данными. Есть шаблон, по которому надо действовать, но понимать специфику нужно на месте, в конкретной компании, работая «под кейс».

Когда компания решает освоить DS, обычно начинают с второстепенного или небольшого проекта, чтобы проверить value внедрения. Руководство, в таких случаях, пытается сэкономить на специалистах, поэтому справляться с AI-проектом придется менеджеру. 

Чтобы принести пользу, не нужно защищать диссертацию по линейной алгебре или с головой уходить в нюансы анализа данных, а вот практическое понимание принципов Data Science понадобится обязательно. 

Что нужно знать PM`у

Зачем менеджеру Data Science 6

В AI-проекте к базовым менеджерским навыкам и пониманию доменной области, нужно добавить дополнительные скилы:

  • Данные — как их правильно собирать, и какие из них чувствительные. 
  • Подходы — какие подходы использовать, например, для распознавания текста и классификации.
  • Фреймворки — условно, фреймворк похож на готовую библиотеку, которую создал, например, Facebook или Google. Если менеджер знает, какую «черную коробку» взять из библиотеки и как ею пользоваться, — остается правильно вложить нужные данные и настроить параметры. PM также отвечает за то, какую «коробку» взять в определенный момент. Когда участники команды не смогут договориться, какую «коробку» выбрать, окончательное решение принимает PM.
  • Модели — как правильно собирать ту или иную модель, какие параметры есть для каждой.
  • Команда какие специалисты понадобятся под конкретный кейс.

Когда PM понимает базовые принципы DS-практик, увеличивается его ценность как сотрудника и участника команды. Учитывая тенденции рынка, компании чаще привлекают в команду DS-специалистов, а для управления ими выбирают менеджера с технической экспертизой либо базовыми знаниями в области Data Science.

Что делать Product Manager`у

Действия продакта в любом проекте направлены на успех продукта, а главной целью будет — понять, какую проблему хотят решить потенциальные клиенты, и донести информацию до команды. 

Зачем менеджеру Data Science 7

Продуктовый менеджер работает на пересечении трех областей:

Customer:

  • слушает потенциальных пользователей и пытается определить приоритеты для исследований и разработки;
  • увлечен пользовательским опытом;
  • тестирует продукт вместе с UX командой, 
  • общается с пользователями и получает обратную связь;
  • понимает, какую проблему хотят решить пользователи — и передает это понимание команде. 

Engineering: 

  • техническая экспертиза;
  • ежедневное взаимодействие с разработчиками для ускорения решений и получения результатов по продукту.

Business: 

  • максимизировать ценность продукта;
  • быть сконцентрированным на увеличении прибыльности;
  • искать пути увеличения ROI.

В AI-проекте, кроме понимания нужд и проблем пользователей, менеджеру продукта понадобится:

  • Умение определять приоритеты для исследований и способность находить правильные направления для ML. 
  • Изучение пространства возможных вводных данных. Увеличение количества данных помогает сделать модель лучше, и поиск нужного количества вводных данных ложится на плечи продакта.
  • Понимание как предметной области, так и основ Machine Learning. Чтобы создать успешный продукт, нужно глубоко понимать всю область. Можно разработать хороший алгоритм ML, а позже окажется, что его нельзя применить в конкретной предметной области. Можно, наоборот, досконально знать предметную область, но не суметь создать алгоритм для обучения системы. 

Этапы работы над Data Science проектом  Зачем менеджеру Data Science 8

Работу над Data Science проектом можно разделить на 5 этапов: 

  1. Определить проблему занимает 10% всего цикла.
  2. Подготовить данные — 70 % времени. Нужно выбрать ресурс, подготовить данные, определить чувствительные и так далее. 
  3. Проанализировать данные 10%. В этом вопросе может подключаться бизнес-аналитик, потому что анализ данных — это его вотчина. Обработанные данные можно визуализировать, чтобы наглядно увидеть логику: какие данные больше влияют на ценность модели, какие меньше.
  4. Визуализировать инсайты — какие проблемы возникли, каких данных не хватает, мусорные или не мусорные, много ли в данных пробелов. После визуализации мы получим определенное value.
  5. Презентовать решение – 80%. Если суммировать это время с процентами предыдущих четырех этапов, получится не 100, а 180%, потому что в процессе поиска решения, приходится много раз вносить изменения и смотреть, как это влияет на результат. 

На этапе презентации, возможно, станет видна проблема с данными: их мало для принятия решения, или они собраны неправильно либо не полностью. Может быть, выбрана неподходящая модель, а может, для правильной модели заданы неправильные параметры. 

AI — это, все-таки, итерационная система, поэтому двигаться надо итерационно, и путь получается циклическим. Вот почему 80% времени после того, как сделан цикл, придется гонять модель, чтобы прийти к оптимальному решению.

Оптимальное решение — это не значит, выдать 100% результата. Ни одна модель не может выдавать 100 %. Даже на самых отлаженных данных может быть 99%, а 100 — нет. 

Решение будет оптимальным, когда задействован весь наличный ресурс и найден оптимальный процент правильных ответов, который должна давать конкретная модель. 

баннер Ok, Data!

Кто такой Data Scientist

Кто такой Data Scientist

Data Scientist — это специалист, который анализирует и интерпретирует сложные данные для выявления тенденций и выработки стратегий. Его обязанности включают сбор, очистку и анализ данных, разработку моделей машинного обучения и представление выводов для принятия решений. Этот специалист важен для помощи компаниям в принятии обоснованных решений и обнаружении скрытых возможностей. 

Что делает Data Scientist

Data Scientist — это ключевая роль в современной аналитике данных, обеспечивающая ценные инсайты и стратегические решения на основе сбора и анализа данных. Эти специалисты работают на стыке статистики, математики и информатики, и их обязанности обширны:

  • Сбор данных. Из разных источников, включая базы данных, файлы и внешние API.
  • Очистка данных. Удаление ошибок и несоответствий для обеспечения качества анализа.
  • Анализ данных. Использование статистических методов для интерпретации данных и выявления закономерностей.
  • Моделирование. Создание статистических моделей и алгоритмов машинного обучения для прогнозирования и классификации.
  • Визуализация данных. Представление данных в понятной форме с помощью графиков и диаграмм.
  • Разработка и тестирование гипотез. Проверка предположений на основе данных.
  • Отчетность. Подготовка отчетов и представление результатов анализа заинтересованным сторонам.

Эта роль требует постоянного обновления знаний и навыков из-за быстрого развития области. Data Scientists являются ценными активами любой организации, способствуя развитию и оптимизации процессов.

Сколько зарабатывает Data Scientist

Профессия Data Scientist остается одной из самых востребованных и высокооплачиваемых. В США месячный доход может варьироваться от $8,000 до $14,000, в Европе — от €5,000 до €10,000, а в Украине — от 100,000 до 200,000 гривен. Спрос на этих специалистов в Украине стабильно высокий, поскольку они играют ключевую роль в анализе данных и принятии обоснованных бизнес-решений.

Какие навыки должен иметь Data Scientist

Какие навыки должен иметь Data Scientist

Data Scientist должен обладать широким набором навыков, включающих технические, аналитические и коммуникативные способности. Основные навыки включают:

  • Знание языков программирования, таких как Python и R, для анализа данных.
  • Понимание статистических методов, вероятности и линейной алгебры.
  • Разработка и применение алгоритмов машинного обучения.
  • Умение работать с большими данными и их визуализация с помощью инструментов вроде Tableau или PowerBI.
  • Знание языка запросов SQL для работы с реляционными базами данных.
  • Опыт работы с Hadoop, Spark и другими Big Data технологиями.
  • Понимание специфики отрасли, в которой применяются аналитические навыки.
  • Способность объяснять сложные концепции неспециалистам.

С последним навыком помогает Techmind. Технический курс для нетехнических специалистов, который сделан для того, чтобы научиться говорить с технической командой на одном языке.

Как Techmind помогает Data Scientist

Курс Techmind от IAMPM представляет собой комплексное обучение, призванное помочь специалистам, в том числе и Data Scientists, погрузиться в мир разработки и научиться взаимодействовать с разработчиками. Вот как Techmind может помочь Data Scientist:

  • Понимание процесса разработки. Курс предлагает детальное понимание всего процесса разработки ПО, от этапа планирования до реализации. Это важно для Data Scientists, поскольку их работа часто взаимосвязана с разработкой новых инструментов и систем для анализа данных.
  • Терминология и лучшие практики. Обучение включает изучение ключевой терминологии и лучших практик, что поможет Data Scientists более эффективно общаться с разработчиками и участвовать в технических обсуждениях.
  • Работа с API и Git. Techmind предлагает понимание работы с API-документацией и системами контроля версий, такими как Git, что является критически важным для современных Data Scientists, работающих с большими объемами данных и необходимостью их интеграции.
  • Выбор архитектуры и фреймворков. Понимание того, как выбирать архитектуру, фреймворк и команду для проекта, помогает Data Scientists оптимизировать свою работу и выбирать наиболее подходящие инструменты для выполнения задач.
  • Аналитика и поддержка проекта после релиза. Курс обучает эффективному процессу тестирования и методам аналитики, которые важны для постоянного улучшения и поддержки проектов, особенно после их запуска.

Techmind обеспечивает фундаментальное понимание технических аспектов разработки программного обеспечения, что критически важно для любого Data Scientist, стремящегося к эффективному взаимодействию с IT-командами и улучшению своих навыков анализа данных​.

Подводим итоги

Чтобы попасть в серьезный AI-проект, понадобятся знания для управления DS-командой или опыт создания MVP DS-проекта, но начинать всегда нужно с понимания подходов и терминологии. 

Базовые знания:

  • Терминология — разбираться, что такое AI, DS, ML.
  • Данные — как правильно их собирать.
  • Подходы — какие бывают, как выбрать. 
  • Фреймворки — какой выбрать под определенную задачу.
  • Модели — их параметры и как правильно собрать.
  • Анализ метрик — как оценивать результаты модели.
  • Workflow для команды — Roadmap работы в DS проекте.
  • Сбор команды — какие специалисты нужны под тот или иной кейс.

В целом, чтобы принести больше пользы проекту или компании, менеджеру не обязательно становиться Data Scientist или получать лучшие результаты в Kaggle (профессиональных соревнованиях по анализу данных). Нужно вдумчивое самостоятельное изучение темы либо структурированный курс, который даст базовые практические знания по Data Science и Machine Learning. 

Сергей Брандис

Co-founder AI startup Airdrome и CTO в hardware компании RDM-Symbol. Занимался разработкой продуктов по контролю качества производства, а также разработкой AI модели, которая действует на базе алгоритмов, схожих с работой человеческого мозга. Спикер курса Ok, Data! Любит отслеживать современные тренды и рассказывать о них понятным языком.