Есть два распространенных заблуждения о Data Science: первое — воспринимать этот термин исключительно как сбор массивов данных. На самом деле, Data Science — это не столько о накоплении большого количества информации, сколько об умении выбрать лучшее решение, извлечь из всего этого объема пользу для бизнеса.
Второе заблуждение — считать DS «волшебной таблеткой», способной решить все проблемы. Действительно, когда менеджер или business owner добавляет к знанию доменной области понимание Data Science, то компания получает конкурентное преимущество и способность ускориться. Так что, хотя DS и не «волшебная пыль», зато вполне может быть топливом, благодаря которому, компания быстро пойдет вперед.
Что нужно запомнить
Первое, что приходит в голову как определение Data Science — это «наука о данных», и обычно, под этой фразой понимают просто большие объемы данных — Big Data.
Однако между двумя этими понятиями есть разница: Big Data говорит об умении собрать и пользоваться массивами данных, а Data Science — о том, как эту информацию проанализировать, чтобы из потока больших данных извлечь ценность для компании или проекта.
Сегодня Data Science — это одно из трех хайповых понятий в IT-сфере (и не только в IT!). Два других популярных слова — это AI (Artificial Intelligence) и ML (Machine Learning):
- AI – Artificial Intelligence, или искусственный интеллект. У термина много официальных описаний: только на русской Википедии около 6-7 определений. Если же объяснять простыми словами, то AI — это область computer science, которая делает системы более разумными. Программы получают умения, еще 10-15 лет назад доступные только человеку, например: распознавание и обработка текстов, голоса, картинок.
- ML — Machine Learning, или машинное обучение. Большая подгруппа AI, которая создает алгоритмы для самообучения разумных систем. Глобальная цель ML — научить систему решать сложные задачи: рекомендовать музыку, книги или фильмы, выполнять обязанности голосового ассистента, водить машину, решать, насколько рискованно выдавать кредит клиенту.
- DS — Data Science, или наука об анализе данных. Наделяет смыслом собранные данные, выдвигает идеи и принимает решения на основе обработанной информации. Цель Data Science — получать объем данных, чтобы извлечь ценность для бизнеса. DS пересекается с ML и с AI, потому что у них могут быть одинаковые инструменты.
Индустрия развивается настолько быстро, что трудно четко разграничить Machine Learning и Data Science. Разница в том, что ML — это часть проекта, которая работает постоянно и одновременно с вашим сервисом, а DS — отдельный пласт работы по извлечению value из данных.
Пример ML — когда пользователь заходит в интернет-магазин купить ноутбук, то система обязательно предлагает к покупке сумку для ноутбука.
Пример DS — менеджеры по продажам на основе анализа данных выяснили, какому сегменту рынка предлагать рекламу определенных товаров.
Почему о Data Science столько говорят
Andrew Ng, сооснователь онлайн-платформы Coursera, защитивший диссертацию по проблематике машинного обучения, считает, что создание искусственного интеллекта можно приравнять к изобретению электричества. AI — это супер-инструмент, позволяющий сделать скачок вперед конкретным бизнесам и цивилизации в целом.
Действительно ли без Data Science не обойтись, и что в нем такого привлекательного:
- Многих разработчиков увлекает создание приложений, выходящих за рамки привычного программирования и логики: «если — затем — тогда». В Machine Learning можно написать программу, которая будет не просто быстрее, а в каких-то аспектах даже «умнее» человека.
- Даже бизнес, далекий от IT-сферы, генерирует большой объем данных. С помощью Data Science, эти данные можно проанализировать — и получить конкурентное преимущество.
- Компании готовы платить менеджерам и программистам с пониманием ML и DS больше, чем обычным специалистам.
- Data Scientist должен быть не столько инженером, сколько специалистом по анализу данных, поэтому на эту роль может претендовать Business Analyst с базовой экспертизой в DS.
Статистика от IT-гигантов
График демонстрирует, насколько масштабно Google за последние несколько лет, внедрил ML в свои продукты. На принципах машинного обучения построена контекстная реклама Google AdWords, работа поисковой системы, услуги картографического сервиса, просмотр и трансляция роликов на YouTube.
Цифры по американскому рынку тоже показывают тенденцию к интенсивному развитию машинного обучения:
- В 2019 году 33 % американцев пользовались голосовым ассистентом по типу Siri, Alexa, Alisa, Google assistant.
- В 2020 году 85% жителей Америки покупали что-либо в интернет-магазинах через чат-ботов.
- К 2021 году, по прогнозам американских маркетологов, более 87 % контактов потребителей будут проходить без взаимодействия с людьми. Пандемия ускорила развитие IT-сферы, поэтому реальная цифра, скорее всего, будет больше, чем прогноз.
Музыкальный сервис Spotify успешно внедряет ML для подбора плейлистов, умная система Google Self-Driving Car умеет водить автомобиль, а компания Amazon рекомендует товары, в зависимости от интересов пользователя.
И если большие IT-компании задают такой тренд, и внедряют во все свои проекты машинное обучение, то и остальные должны двигаться в том же направлении. Тенденция такова, что скоро все в той или иной мере будут использовать DS и ML просто потому, что без этого бизнес станет неконкурентоспособным.
Области применения Data Science:
- E-Commerce: как посчитать доходность, как удержать людей на сайте, какие товары предлагать посетителям и покупателям.
- AdTech (Advertising technology): рекламные технологии, персонализированный маркетинг, оценка качества рекламных кампаний.
- Чат-боты на основе Machine Learning: базовая коммуникация с пользователями (классификация запросов, ответы в чатах, распознавание речи, обработка текста).
- Scoring системы для банковской оценки клиента: обработка множества данных, помощь в принятии решения, например, о кредите, обнаружение аномального поведения клиента, выявление мошенничества.
На самом деле, 95, если не 99 % людей уже сталкивались с Machine Learning или Data Science, например, когда заказывали что-то на Rozetka, выбирали фильм на Netflix или пользовались службами Google.
Как нетехническому специалисту принести пользу в DS-проекте
Успешный менеджер или владелец бизнеса — уже эксперт в своей отрасли. Когда к доменной экспертизе подключается AI, на пересечении двух областей создается возможность для интенсивного развития: менеджер ускоряет и улучшает проект, создавая новые value.
Data Science — это почти всегда inhouse, потому что происходит работа с внутренними данными. Есть шаблон, по которому надо действовать, но понимать специфику нужно на месте, в конкретной компании, работая «под кейс».
Когда компания решает освоить DS, обычно начинают с второстепенного или небольшого проекта, чтобы проверить value внедрения. Руководство, в таких случаях, пытается сэкономить на специалистах, поэтому справляться с AI-проектом придется менеджеру.
Чтобы принести пользу, не нужно защищать диссертацию по линейной алгебре или с головой уходить в нюансы анализа данных, а вот практическое понимание принципов Data Science понадобится обязательно.
Что нужно знать PM`у
В AI-проекте к базовым менеджерским навыкам и пониманию доменной области, нужно добавить дополнительные скилы:
- Данные — как их правильно собирать, и какие из них чувствительные.
- Подходы — какие подходы использовать, например, для распознавания текста и классификации.
- Фреймворки — условно, фреймворк похож на готовую библиотеку, которую создал, например, Facebook или Google. Если менеджер знает, какую «черную коробку» взять из библиотеки и как ею пользоваться, — остается правильно вложить нужные данные и настроить параметры. PM также отвечает за то, какую «коробку» взять в определенный момент. Когда участники команды не смогут договориться, какую «коробку» выбрать, окончательное решение принимает PM.
- Модели — как правильно собирать ту или иную модель, какие параметры есть для каждой.
- Команда — какие специалисты понадобятся под конкретный кейс.
Когда PM понимает базовые принципы DS-практик, увеличивается его ценность как сотрудника и участника команды. Учитывая тенденции рынка, компании чаще привлекают в команду DS-специалистов, а для управления ими выбирают менеджера с технической экспертизой либо базовыми знаниями в области Data Science.
Что делать Product Manager`у
Действия продакта в любом проекте направлены на успех продукта, а главной целью будет — понять, какую проблему хотят решить потенциальные клиенты, и донести информацию до команды.
Продуктовый менеджер работает на пересечении трех областей:
Customer:
- слушает потенциальных пользователей и пытается определить приоритеты для исследований и разработки;
- увлечен пользовательским опытом;
- тестирует продукт вместе с UX командой,
- общается с пользователями и получает обратную связь;
- понимает, какую проблему хотят решить пользователи — и передает это понимание команде.
Engineering:
- техническая экспертиза;
- ежедневное взаимодействие с разработчиками для ускорения решений и получения результатов по продукту.
Business:
- максимизировать ценность продукта;
- быть сконцентрированным на увеличении прибыльности;
- искать пути увеличения ROI.
В AI-проекте, кроме понимания нужд и проблем пользователей, менеджеру продукта понадобится:
- Умение определять приоритеты для исследований и способность находить правильные направления для ML.
- Изучение пространства возможных вводных данных. Увеличение количества данных помогает сделать модель лучше, и поиск нужного количества вводных данных ложится на плечи продакта.
- Понимание как предметной области, так и основ Machine Learning. Чтобы создать успешный продукт, нужно глубоко понимать всю область. Можно разработать хороший алгоритм ML, а позже окажется, что его нельзя применить в конкретной предметной области. Можно, наоборот, досконально знать предметную область, но не суметь создать алгоритм для обучения системы.
Этапы работы над Data Science проектом
Работу над Data Science проектом можно разделить на 5 этапов:
- Определить проблему занимает 10% всего цикла.
- Подготовить данные — 70 % времени. Нужно выбрать ресурс, подготовить данные, определить чувствительные и так далее.
- Проанализировать данные — 10%. В этом вопросе может подключаться бизнес-аналитик, потому что анализ данных — это его вотчина. Обработанные данные можно визуализировать, чтобы наглядно увидеть логику: какие данные больше влияют на ценность модели, какие меньше.
- Визуализировать инсайты — какие проблемы возникли, каких данных не хватает, мусорные или не мусорные, много ли в данных пробелов. После визуализации мы получим определенное value.
- Презентовать решение – 80%. Если суммировать это время с процентами предыдущих четырех этапов, получится не 100, а 180%, потому что в процессе поиска решения, приходится много раз вносить изменения и смотреть, как это влияет на результат.
На этапе презентации, возможно, станет видна проблема с данными: их мало для принятия решения, или они собраны неправильно либо не полностью. Может быть, выбрана неподходящая модель, а может, для правильной модели заданы неправильные параметры.
AI — это, все-таки, итерационная система, поэтому двигаться надо итерационно, и путь получается циклическим. Вот почему 80% времени после того, как сделан цикл, придется гонять модель, чтобы прийти к оптимальному решению.
Оптимальное решение — это не значит, выдать 100% результата. Ни одна модель не может выдавать 100 %. Даже на самых отлаженных данных может быть 99%, а 100 — нет.
Решение будет оптимальным, когда задействован весь наличный ресурс и найден оптимальный процент правильных ответов, который должна давать конкретная модель.
Кто такой Data Scientist
Data Scientist — это специалист, который анализирует и интерпретирует сложные данные для выявления тенденций и выработки стратегий. Его обязанности включают сбор, очистку и анализ данных, разработку моделей машинного обучения и представление выводов для принятия решений. Этот специалист важен для помощи компаниям в принятии обоснованных решений и обнаружении скрытых возможностей.
Что делает Data Scientist
Data Scientist — это ключевая роль в современной аналитике данных, обеспечивающая ценные инсайты и стратегические решения на основе сбора и анализа данных. Эти специалисты работают на стыке статистики, математики и информатики, и их обязанности обширны:
- Сбор данных. Из разных источников, включая базы данных, файлы и внешние API.
- Очистка данных. Удаление ошибок и несоответствий для обеспечения качества анализа.
- Анализ данных. Использование статистических методов для интерпретации данных и выявления закономерностей.
- Моделирование. Создание статистических моделей и алгоритмов машинного обучения для прогнозирования и классификации.
- Визуализация данных. Представление данных в понятной форме с помощью графиков и диаграмм.
- Разработка и тестирование гипотез. Проверка предположений на основе данных.
- Отчетность. Подготовка отчетов и представление результатов анализа заинтересованным сторонам.
Эта роль требует постоянного обновления знаний и навыков из-за быстрого развития области. Data Scientists являются ценными активами любой организации, способствуя развитию и оптимизации процессов.
Сколько зарабатывает Data Scientist
Профессия Data Scientist остается одной из самых востребованных и высокооплачиваемых. В США месячный доход может варьироваться от $8,000 до $14,000, в Европе — от €5,000 до €10,000, а в Украине — от 100,000 до 200,000 гривен. Спрос на этих специалистов в Украине стабильно высокий, поскольку они играют ключевую роль в анализе данных и принятии обоснованных бизнес-решений.
Какие навыки должен иметь Data Scientist
Data Scientist должен обладать широким набором навыков, включающих технические, аналитические и коммуникативные способности. Основные навыки включают:
- Знание языков программирования, таких как Python и R, для анализа данных.
- Понимание статистических методов, вероятности и линейной алгебры.
- Разработка и применение алгоритмов машинного обучения.
- Умение работать с большими данными и их визуализация с помощью инструментов вроде Tableau или PowerBI.
- Знание языка запросов SQL для работы с реляционными базами данных.
- Опыт работы с Hadoop, Spark и другими Big Data технологиями.
- Понимание специфики отрасли, в которой применяются аналитические навыки.
- Способность объяснять сложные концепции неспециалистам.
С последним навыком помогает Techmind. Технический курс для нетехнических специалистов, который сделан для того, чтобы научиться говорить с технической командой на одном языке.
Как Techmind помогает Data Scientist
Курс Techmind от IAMPM представляет собой комплексное обучение, призванное помочь специалистам, в том числе и Data Scientists, погрузиться в мир разработки и научиться взаимодействовать с разработчиками. Вот как Techmind может помочь Data Scientist:
- Понимание процесса разработки. Курс предлагает детальное понимание всего процесса разработки ПО, от этапа планирования до реализации. Это важно для Data Scientists, поскольку их работа часто взаимосвязана с разработкой новых инструментов и систем для анализа данных.
- Терминология и лучшие практики. Обучение включает изучение ключевой терминологии и лучших практик, что поможет Data Scientists более эффективно общаться с разработчиками и участвовать в технических обсуждениях.
- Работа с API и Git. Techmind предлагает понимание работы с API-документацией и системами контроля версий, такими как Git, что является критически важным для современных Data Scientists, работающих с большими объемами данных и необходимостью их интеграции.
- Выбор архитектуры и фреймворков. Понимание того, как выбирать архитектуру, фреймворк и команду для проекта, помогает Data Scientists оптимизировать свою работу и выбирать наиболее подходящие инструменты для выполнения задач.
- Аналитика и поддержка проекта после релиза. Курс обучает эффективному процессу тестирования и методам аналитики, которые важны для постоянного улучшения и поддержки проектов, особенно после их запуска.
Techmind обеспечивает фундаментальное понимание технических аспектов разработки программного обеспечения, что критически важно для любого Data Scientist, стремящегося к эффективному взаимодействию с IT-командами и улучшению своих навыков анализа данных.
Подводим итоги
Чтобы попасть в серьезный AI-проект, понадобятся знания для управления DS-командой или опыт создания MVP DS-проекта, но начинать всегда нужно с понимания подходов и терминологии.
Базовые знания:
- Терминология — разбираться, что такое AI, DS, ML.
- Данные — как правильно их собирать.
- Подходы — какие бывают, как выбрать.
- Фреймворки — какой выбрать под определенную задачу.
- Модели — их параметры и как правильно собрать.
- Анализ метрик — как оценивать результаты модели.
- Workflow для команды — Roadmap работы в DS проекте.
- Сбор команды — какие специалисты нужны под тот или иной кейс.
В целом, чтобы принести больше пользы проекту или компании, менеджеру не обязательно становиться Data Scientist или получать лучшие результаты в Kaggle (профессиональных соревнованиях по анализу данных). Нужно вдумчивое самостоятельное изучение темы либо структурированный курс, который даст базовые практические знания по Data Science и Machine Learning.