Есть два распространенных заблуждения о Data Science: первое — воспринимать этот термин исключительно как сбор массивов данных. На самом деле, Data Science — это не столько о накоплении большого количества информации, сколько об умении выбрать лучшее решение, извлечь из всего этого объема пользу для бизнеса.
Второе заблуждение — считать DS «волшебной таблеткой», способной решить все проблемы. Действительно, когда менеджер или business owner добавляет к знанию доменной области понимание Data Science, то компания получает конкурентное преимущество и способность ускориться. Так что, хотя DS и не «волшебная пыль», зато вполне может быть топливом, благодаря которому, компания быстро пойдет вперед.
Что нужно запомнить
Первое, что приходит в голову как определение Data Science — это «наука о данных», и обычно, под этой фразой понимают просто большие объемы данных — Big Data.
Однако между двумя этими понятиями есть разница: Big Data говорит об умении собрать и пользоваться массивами данных, а Data Science — о том, как эту информацию проанализировать, чтобы из потока больших данных извлечь ценность для компании или проекта.
Сегодня Data Science — это одно из трех хайповых понятий в IT-сфере (и не только в IT!). Два других популярных слова — это AI (Artificial Intelligence) и ML (Machine Learning):
- AI – Artificial Intelligence, или искусственный интеллект. У термина много официальных описаний: только на русской Википедии около 6-7 определений. Если же объяснять простыми словами, то AI — это область computer science, которая делает системы более разумными. Программы получают умения, еще 10-15 лет назад доступные только человеку, например: распознавание и обработка текстов, голоса, картинок.
- ML — Machine Learning, или машинное обучение. Большая подгруппа AI, которая создает алгоритмы для самообучения разумных систем. Глобальная цель ML — научить систему решать сложные задачи: рекомендовать музыку, книги или фильмы, выполнять обязанности голосового ассистента, водить машину, решать, насколько рискованно выдавать кредит клиенту.
- DS — Data Science, или наука об анализе данных. Наделяет смыслом собранные данные, выдвигает идеи и принимает решения на основе обработанной информации. Цель Data Science — получать объем данных, чтобы извлечь ценность для бизнеса. DS пересекается с ML и с AI, потому что у них могут быть одинаковые инструменты.
Индустрия развивается настолько быстро, что трудно четко разграничить Machine Learning и Data Science. Разница в том, что ML — это часть проекта, которая работает постоянно и одновременно с вашим сервисом, а DS — отдельный пласт работы по извлечению value из данных.
Пример ML — когда пользователь заходит в интернет-магазин купить ноутбук, то система обязательно предлагает к покупке сумку для ноутбука.
Пример DS — менеджеры по продажам на основе анализа данных выяснили, какому сегменту рынка предлагать рекламу определенных товаров.
Почему о Data Science столько говорят
Andrew Ng, сооснователь онлайн-платформы Coursera, защитивший диссертацию по проблематике машинного обучения, считает, что создание искусственного интеллекта можно приравнять к изобретению электричества. AI — это супер-инструмент, позволяющий сделать скачок вперед конкретным бизнесам и цивилизации в целом.
Действительно ли без Data Science не обойтись, и что в нем такого привлекательного:
- Многих разработчиков увлекает создание приложений, выходящих за рамки привычного программирования и логики: «если — затем — тогда». В Machine Learning можно написать программу, которая будет не просто быстрее, а в каких-то аспектах даже «умнее» человека.
- Даже бизнес, далекий от IT-сферы, генерирует большой объем данных. С помощью Data Science, эти данные можно проанализировать — и получить конкурентное преимущество.
- Компании готовы платить менеджерам и программистам с пониманием ML и DS больше, чем обычным специалистам.
- Data Scientist должен быть не столько инженером, сколько специалистом по анализу данных, поэтому на эту роль может претендовать Business Analyst с базовой экспертизой в DS.
Статистика от IT-гигантов
График демонстрирует, насколько масштабно Google за последние несколько лет, внедрил ML в свои продукты. На принципах машинного обучения построена контекстная реклама Google AdWords, работа поисковой системы, услуги картографического сервиса, просмотр и трансляция роликов на YouTube.
Цифры по американскому рынку тоже показывают тенденцию к интенсивному развитию машинного обучения:
- В 2019 году 33 % американцев пользовались голосовым ассистентом по типу Siri, Alexa, Alisa, Google assistant.
- В 2020 году 85% жителей Америки покупали что-либо в интернет-магазинах через чат-ботов.
- К 2021 году, по прогнозам американских маркетологов, более 87 % контактов потребителей будут проходить без взаимодействия с людьми. Пандемия ускорила развитие IT-сферы, поэтому реальная цифра, скорее всего, будет больше, чем прогноз.
Музыкальный сервис Spotify успешно внедряет ML для подбора плейлистов, умная система Google Self-Driving Car умеет водить автомобиль, а компания Amazon рекомендует товары, в зависимости от интересов пользователя.
И если большие IT-компании задают такой тренд, и внедряют во все свои проекты машинное обучение, то и остальные должны двигаться в том же направлении. Тенденция такова, что скоро все в той или иной мере будут использовать DS и ML просто потому, что без этого бизнес станет неконкурентоспособным.
Области применения Data Science:
- E-Commerce: как посчитать доходность, как удержать людей на сайте, какие товары предлагать посетителям и покупателям.
- AdTech (Advertising technology): рекламные технологии, персонализированный маркетинг, оценка качества рекламных кампаний.
- Чат-боты на основе Machine Learning: базовая коммуникация с пользователями (классификация запросов, ответы в чатах, распознавание речи, обработка текста).
- Scoring системы для банковской оценки клиента: обработка множества данных, помощь в принятии решения, например, о кредите, обнаружение аномального поведения клиента, выявление мошенничества.
На самом деле, 95, если не 99 % людей уже сталкивались с Machine Learning или Data Science, например, когда заказывали что-то на Rozetka, выбирали фильм на Netflix или пользовались службами Google.
Как нетехническому специалисту принести пользу в DS-проекте
Успешный менеджер или владелец бизнеса — уже эксперт в своей отрасли. Когда к доменной экспертизе подключается AI, на пересечении двух областей создается возможность для интенсивного развития: менеджер ускоряет и улучшает проект, создавая новые value.
Data Science — это почти всегда inhouse, потому что происходит работа с внутренними данными. Есть шаблон, по которому надо действовать, но понимать специфику нужно на месте, в конкретной компании, работая «под кейс».
Когда компания решает освоить DS, обычно начинают с второстепенного или небольшого проекта, чтобы проверить value внедрения. Руководство, в таких случаях, пытается сэкономить на специалистах, поэтому справляться с AI-проектом придется менеджеру.
Чтобы принести пользу, не нужно защищать диссертацию по линейной алгебре или с головой уходить в нюансы анализа данных, а вот практическое понимание принципов Data Science понадобится обязательно.
Что нужно знать PM`у
В AI-проекте к базовым менеджерским навыкам и пониманию доменной области, нужно добавить дополнительные скилы:
- Данные — как их правильно собирать, и какие из них чувствительные.
- Подходы — какие подходы использовать, например, для распознавания текста и классификации.
- Фреймворки — условно, фреймворк похож на готовую библиотеку, которую создал, например, Facebook или Google. Если менеджер знает, какую «черную коробку» взять из библиотеки и как ею пользоваться, — остается правильно вложить нужные данные и настроить параметры. PM также отвечает за то, какую «коробку» взять в определенный момент. Когда участники команды не смогут договориться, какую «коробку» выбрать, окончательное решение принимает PM.
- Модели — как правильно собирать ту или иную модель, какие параметры есть для каждой.
- Команда — какие специалисты понадобятся под конкретный кейс.
Когда PM понимает базовые принципы DS-практик, увеличивается его ценность как сотрудника и участника команды. Учитывая тенденции рынка, компании чаще привлекают в команду DS-специалистов, а для управления ими выбирают менеджера с технической экспертизой либо базовыми знаниями в области Data Science.
Что делать Product Manager`у
Действия продакта в любом проекте направлены на успех продукта, а главной целью будет — понять, какую проблему хотят решить потенциальные клиенты, и донести информацию до команды.
Продуктовый менеджер работает на пересечении трех областей:
Customer:
- слушает потенциальных пользователей и пытается определить приоритеты для исследований и разработки;
- увлечен пользовательским опытом;
- тестирует продукт вместе с UX командой,
- общается с пользователями и получает обратную связь;
- понимает, какую проблему хотят решить пользователи — и передает это понимание команде.
Engineering:
- техническая экспертиза;
- ежедневное взаимодействие с разработчиками для ускорения решений и получения результатов по продукту.
Business:
- максимизировать ценность продукта;
- быть сконцентрированным на увеличении прибыльности;
- искать пути увеличения ROI.
В AI-проекте, кроме понимания нужд и проблем пользователей, менеджеру продукта понадобится:
- Умение определять приоритеты для исследований и способность находить правильные направления для ML.
- Изучение пространства возможных вводных данных. Увеличение количества данных помогает сделать модель лучше, и поиск нужного количества вводных данных ложится на плечи продакта.
- Понимание как предметной области, так и основ Machine Learning. Чтобы создать успешный продукт, нужно глубоко понимать всю область. Можно разработать хороший алгоритм ML, а позже окажется, что его нельзя применить в конкретной предметной области. Можно, наоборот, досконально знать предметную область, но не суметь создать алгоритм для обучения системы.
Этапы работы над Data Science проектом ![Зачем менеджеру Data Science Зачем менеджеру Data Science 8](data:image/svg+xml,%3Csvg%20xmlns='http://www.w3.org/2000/svg'%20viewBox='0%200%203500%201875'%3E%3C/svg%3E)
Работу над Data Science проектом можно разделить на 5 этапов:
- Определить проблему занимает 10% всего цикла.
- Подготовить данные — 70 % времени. Нужно выбрать ресурс, подготовить данные, определить чувствительные и так далее.
- Проанализировать данные — 10%. В этом вопросе может подключаться бизнес-аналитик, потому что анализ данных — это его вотчина. Обработанные данные можно визуализировать, чтобы наглядно увидеть логику: какие данные больше влияют на ценность модели, какие меньше.
- Визуализировать инсайты — какие проблемы возникли, каких данных не хватает, мусорные или не мусорные, много ли в данных пробелов. После визуализации мы получим определенное value.
- Презентовать решение – 80%. Если суммировать это время с процентами предыдущих четырех этапов, получится не 100, а 180%, потому что в процессе поиска решения, приходится много раз вносить изменения и смотреть, как это влияет на результат.
На этапе презентации, возможно, станет видна проблема с данными: их мало для принятия решения, или они собраны неправильно либо не полностью. Может быть, выбрана неподходящая модель, а может, для правильной модели заданы неправильные параметры.
AI — это, все-таки, итерационная система, поэтому двигаться надо итерационно, и путь получается циклическим. Вот почему 80% времени после того, как сделан цикл, придется гонять модель, чтобы прийти к оптимальному решению.
Оптимальное решение — это не значит, выдать 100% результата. Ни одна модель не может выдавать 100 %. Даже на самых отлаженных данных может быть 99%, а 100 — нет.
Решение будет оптимальным, когда задействован весь наличный ресурс и найден оптимальный процент правильных ответов, который должна давать конкретная модель.
Кто такой Data Scientist
Data Scientist — это специалист, который анализирует и интерпретирует сложные данные для выявления тенденций и выработки стратегий. Его обязанности включают сбор, очистку и анализ данных, разработку моделей машинного обучения и представление выводов для принятия решений. Этот специалист важен для помощи компаниям в принятии обоснованных решений и обнаружении скрытых возможностей.
Что делает Data Scientist
Data Scientist — это ключевая роль в современной аналитике данных, обеспечивающая ценные инсайты и стратегические решения на основе сбора и анализа данных. Эти специалисты работают на стыке статистики, математики и информатики, и их обязанности обширны:
- Сбор данных. Из разных источников, включая базы данных, файлы и внешние API.
- Очистка данных. Удаление ошибок и несоответствий для обеспечения качества анализа.
- Анализ данных. Использование статистических методов для интерпретации данных и выявления закономерностей.
- Моделирование. Создание статистических моделей и алгоритмов машинного обучения для прогнозирования и классификации.
- Визуализация данных. Представление данных в понятной форме с помощью графиков и диаграмм.
- Разработка и тестирование гипотез. Проверка предположений на основе данных.
- Отчетность. Подготовка отчетов и представление результатов анализа заинтересованным сторонам.
Эта роль требует постоянного обновления знаний и навыков из-за быстрого развития области. Data Scientists являются ценными активами любой организации, способствуя развитию и оптимизации процессов.
Сколько зарабатывает Data Scientist
Профессия Data Scientist остается одной из самых востребованных и высокооплачиваемых. В США месячный доход может варьироваться от $8,000 до $14,000, в Европе — от €5,000 до €10,000, а в Украине — от 100,000 до 200,000 гривен. Спрос на этих специалистов в Украине стабильно высокий, поскольку они играют ключевую роль в анализе данных и принятии обоснованных бизнес-решений.
Какие навыки должен иметь Data Scientist
Data Scientist должен обладать широким набором навыков, включающих технические, аналитические и коммуникативные способности. Основные навыки включают:
- Знание языков программирования, таких как Python и R, для анализа данных.
- Понимание статистических методов, вероятности и линейной алгебры.
- Разработка и применение алгоритмов машинного обучения.
- Умение работать с большими данными и их визуализация с помощью инструментов вроде Tableau или PowerBI.
- Знание языка запросов SQL для работы с реляционными базами данных.
- Опыт работы с Hadoop, Spark и другими Big Data технологиями.
- Понимание специфики отрасли, в которой применяются аналитические навыки.
- Способность объяснять сложные концепции неспециалистам.
С последним навыком помогает Techmind. Технический курс для нетехнических специалистов, который сделан для того, чтобы научиться говорить с технической командой на одном языке.
Как Techmind помогает Data Scientist
Курс Techmind от IAMPM представляет собой комплексное обучение, призванное помочь специалистам, в том числе и Data Scientists, погрузиться в мир разработки и научиться взаимодействовать с разработчиками. Вот как Techmind может помочь Data Scientist:
- Понимание процесса разработки. Курс предлагает детальное понимание всего процесса разработки ПО, от этапа планирования до реализации. Это важно для Data Scientists, поскольку их работа часто взаимосвязана с разработкой новых инструментов и систем для анализа данных.
- Терминология и лучшие практики. Обучение включает изучение ключевой терминологии и лучших практик, что поможет Data Scientists более эффективно общаться с разработчиками и участвовать в технических обсуждениях.
- Работа с API и Git. Techmind предлагает понимание работы с API-документацией и системами контроля версий, такими как Git, что является критически важным для современных Data Scientists, работающих с большими объемами данных и необходимостью их интеграции.
- Выбор архитектуры и фреймворков. Понимание того, как выбирать архитектуру, фреймворк и команду для проекта, помогает Data Scientists оптимизировать свою работу и выбирать наиболее подходящие инструменты для выполнения задач.
- Аналитика и поддержка проекта после релиза. Курс обучает эффективному процессу тестирования и методам аналитики, которые важны для постоянного улучшения и поддержки проектов, особенно после их запуска.
Techmind обеспечивает фундаментальное понимание технических аспектов разработки программного обеспечения, что критически важно для любого Data Scientist, стремящегося к эффективному взаимодействию с IT-командами и улучшению своих навыков анализа данных.
Подводим итоги
Чтобы попасть в серьезный AI-проект, понадобятся знания для управления DS-командой или опыт создания MVP DS-проекта, но начинать всегда нужно с понимания подходов и терминологии.
Базовые знания:
- Терминология — разбираться, что такое AI, DS, ML.
- Данные — как правильно их собирать.
- Подходы — какие бывают, как выбрать.
- Фреймворки — какой выбрать под определенную задачу.
- Модели — их параметры и как правильно собрать.
- Анализ метрик — как оценивать результаты модели.
- Workflow для команды — Roadmap работы в DS проекте.
- Сбор команды — какие специалисты нужны под тот или иной кейс.
В целом, чтобы принести больше пользы проекту или компании, менеджеру не обязательно становиться Data Scientist или получать лучшие результаты в Kaggle (профессиональных соревнованиях по анализу данных). Нужно вдумчивое самостоятельное изучение темы либо структурированный курс, который даст базовые практические знания по Data Science и Machine Learning.