Є дві поширені хибні думки про Data Science: перша – сприймати цей термін виключно як збір масивів даних. Насправді, Data Science – не стільки про накопичення великої кількості інформації, скільки про вміння вибрати найкраще рішення, витягти з усього цього обсягу користь для бізнесу.
Друга помилка – вважати DS «чарівною пігулкою», здатною розв’язати всі проблеми. Дійсно, коли менеджер або business owner додає до знання доменної області розуміння Data Science, то компанія отримує конкурентну перевагу і здатність прискоритися. Тож, хоча DS і не «чарівний пил», зате цілком може бути паливом, завдяки якому компанія швидко піде вперед.
Що потрібно запам’ятати
Перше, що спадає на думку як визначення Data Science – це «наука про дані», і зазвичай, під цією фразою розуміють просто великі обсяги даних – Big Data. Однак між двома цими поняттями є різниця: Big Data – про вміння зібрати та користуватися масивами даних, а Data Science – про те, як цю інформацію проаналізувати, щоб із потоку великих даних витягти цінність для компанії чи проєкту.
Сьогодні Data Science – це одне з трьох хайпових понять в IT-сфері (і не тільки в IT!). Два інших популярних слова – це AI (Artificial Intelligence) і ML (Machine Learning):
- AI – Artificial Intelligence, або штучний інтелект. У терміна багато офіційних описів: тільки на Вікіпедії близько 6-7 визначень. Якщо ж пояснювати простими словами, то AI – це галузь computer science, яка робить системи розумнішими. Програми отримують уміння, які ще 10-15 років тому були доступними тільки людині, наприклад: розпізнавання та обробка текстів, голосу, картинок.
- ML – Machine Learning, або машинне навчання. Велика підгрупа AI, яка створює алгоритми для самонавчання розумних систем. Глобальна мета ML – навчити систему розв’язувати складні завдання: рекомендувати музику, книги або фільми, виконувати обов’язки голосового асистента, керувати машиною, вирішувати, наскільки ризиковано видавати кредит клієнту.
- DS – Data Science, або наука про аналіз даних. Наділяє змістом зібрані дані, висуває ідеї та ухвалює рішення на основі обробленої інформації. Мета Data Science – отримувати обсяг даних, щоб отримати цінність для бізнесу. DS перетинається з ML і з AI на малюнку, тому що в них можуть бути однакові інструменти.
Індустрія розвивається настільки швидко, що важко чітко розмежувати Machine Learning і Data Science. Різниця в тому, що ML – це та частина проєкту, яка працює постійно і одночасно з вашим сервісом, а DS – окремий пласт роботи з вилучення value з даних.
Приклад ML – коли користувач заходить в інтернет-магазин купити ноутбук, то система обов’язково пропонує до покупки сумку для ноутбука.
Приклад DS – менеджери з продажу на основі аналізу даних з’ясували, якому сегменту ринку пропонувати рекламу певних товарів.
Чому про Data Science стільки говорять
Andrew Ng, співзасновник онлайн-платформи Coursera, який захистив дисертацію з проблематики машинного навчання, вважає, що створення штучного інтелекту можна прирівняти до винаходу електрики. AI – це супер-інструмент, що дає змогу зробити стрибок уперед конкретним бізнесам і цивілізації загалом.
Чи справді без Data Science не обійтися, і що в ньому такого привабливого:
- Багатьох розробників захоплює створення застосунків, що виходять за рамки звичного програмування і логіки: «якщо – потім – тоді». У Machine Learning можна написати програму, яка буде не просто швидшою, а в якихось аспектах навіть «розумнішою» за людину.
- Навіть бізнес, далекий від IT-сфери, генерує великий обсяг даних. За допомогою Data Science, ці дані можна проаналізувати – і отримати конкурентну перевагу.
- Компанії готові платити менеджерам і програмістам із розумінням DS і ML більше, ніж звичайним фахівцям.
- Data Scientist має бути не стільки інженером, скільки фахівцем з аналізу даних, тож на цю роль може претендувати Business Analyst із базовою експертизою в DS.
Статистика від IT-гігантів
Графік демонструє, наскільки масштабно Google за останні кілька років впровадив ML у свої продукти. На принципах машинного навчання побудована контекстна реклама Google AdWords, робота пошукової системи, послуги картографічного сервісу, перегляд і трансляція роликів на YouTube.
Цифри щодо американського теж показують тенденцію до інтенсивного розвитку машинного навчання:
- У 2019 році 33 % американців користувалися голосовим асистентом на кшталт Siri, Alexa, Google assistant.
- У 2020 році 85% жителів Америки купували що-небудь в інтернет-магазинах через чат-ботів.
- До 2021 року, за прогнозами американських маркетологів, понад 87 % контактів споживачів відбуватимуться без взаємодії з людьми. Пандемія прискорила розвиток IT-сфери, тому реальна цифра, найімовірніше, буде більшою за прогноз.
Музичний сервіс Spotify успішно впроваджує ML для підбору плейлистів, розумна система Google Self-Driving Car вміє водити автомобіль, компанія Amazon рекомендує товари, залежно від інтересів користувача.
І якщо великі IT-компанії задають такий тренд і впроваджують в усі свої проекти машинне навчання, то й інші повинні рухатися в тому ж напрямку. Тенденція така, що скоро всі тією чи іншою мірою використовуватимуть DS і ML просто тому, що без цього бізнес стане неконкурентоспроможним.
Галузі застосування Data Science:
- E-Commerce: як порахувати прибутковість, як утримати людей на сайті, які товари пропонувати відвідувачам і покупцям.
- AdTech (Advertising technology) – рекламні технології, персоналізований маркетинг, оцінка якості рекламних кампаній.
- Чат-боти на основі Machine Learning: базова комунікація з користувачами (класифікація запитів, відповіді в чатах, розпізнавання мови, обробка тексту).
- Scoring системи для банківської оцінки клієнта: обробка безлічі даних, допомога в ухваленні рішення, наприклад, про кредит, виявлення аномальної поведінки клієнта, виявлення шахрайства.
Насправді, 95%, якщо не 99% людей уже стикалися з Machine Learning або Data Science, наприклад, коли замовляли щось на Rozetka, вибирали фільм на Netflix або користувалися службами Google.
Як нетехнічному спеціалісту принести користь у DS-проєкті
Успішний менеджер або власник бізнесу – уже експерт у своїй галузі. Коли до доменної експертизи підключається AI, на перетині двох галузей створюється можливість для інтенсивного розвитку: менеджер прискорює і покращує проєкт, створюючи нові value.
Data Science – це майже завжди inhouse, бо відбувається робота з внутрішніми даними. Є шаблон, за яким треба діяти, але розуміти специфіку потрібно на місці, в конкретній компанії, працюючи «під кейс».
Коли компанія вирішує освоїти DS, зазвичай починають із другорядного або невеликого проєкту, щоб перевірити value впровадження. Керівництво, в таких випадках, намагається заощадити на фахівцях, тому справлятися з AI-проєктом доведеться менеджеру.
Щоб принести користь, не потрібно захищати дисертацію з лінійної алгебри або з головою зануритися в нюанси аналізу даних, а ось практичне розуміння принципів Data Science знадобиться обов’язково.
Що потрібно знати PM`у
В AI-проєкті до базових менеджерських навичок і розуміння доменної області потрібно додати додаткові скіли:
- Дані – як їх правильно збирати, і які з них чутливі.
- Підходи – які підходи використовувати, наприклад, для розпізнавання тексту і класифікації.
- Фреймворки – умовно, фреймворк схожий на готову бібліотеку, яку створив, наприклад, Facebook або Google. Якщо менеджер знає, яку «чорну коробку» взяти з бібліотеки і як нею користуватися, залишається правильно вкласти потрібні дані та налаштувати параметри. PM також відповідає за те, яку «коробку» взяти в певний момент. Коли учасники команди не зможуть домовитися, яку «коробку» обрати, остаточне рішення приймає PM.
- Моделі – як правильно збирати ту чи іншу модель, які є параметри для кожної.
- Команда – які фахівці знадобляться під конкретний кейс.
Коли PM розуміє базові принципи DS-практик, збільшується його цінність, як співробітника і учасника команди. З огляду на тенденції ринку, компанії частіше залучають у команду DS-фахівців, а для управління ними обирають менеджера з технічною експертизою або базовими знаннями в галузі Data Science.
Що робити Product Manager`у
Дії продакта в будь-якому проєкті спрямовані на успіх продукту, а головною метою буде – зрозуміти, яку проблему хочуть вирішити потенційні клієнти, і донести інформацію до команди.
Продуктовий менеджер працює на перетині трьох областей:
- Customer:
- слухає потенційних користувачів і намагається визначити пріоритети для досліджень і розробки;
- захоплений користувацьким досвідом;
- тестує продукт разом з UX командою,
- спілкується з користувачами й отримує зворотний зв’язок;
- розуміє, яку проблему хочуть вирішити користувачі – і передає це розуміння команді.
- Engineering:
- технічна експертиза;
- щоденна взаємодія з розробниками для прискорення рішень і отримання результатів щодо продукту.
- Business:
- максимізувати цінність продукту;
- бути сконцентрованим на збільшенні прибутковості;
- шукати шляхи збільшення ROI.
В AI-проєкті, крім розуміння потреб і проблем користувачів, менеджеру продукту знадобиться:
- Уміння визначати пріоритети для досліджень і здатність знаходити правильні напрямки для ML.
- Вивчення простору можливих вступних даних. Збільшення кількості даних допомагає зробити модель кращою, і пошук потрібної кількості вступних даних лягає на плечі продакта.
- Глибоке розуміння як предметної області, так і основ Machine Learning. Щоб створити успішний продукт, потрібно глибоко розуміти всю область. Можна розробити хороший алгоритм ML, а пізніше виявиться, що його не можна застосувати в конкретній предметній області. Або можна досконально знати предметну область, але не зуміти створити алгоритм для навчання системи.
Етапи роботи над Data Science проєктом
Роботу над Data Science проєктом можна розділити на 5 етапів:
- Визначити проблему займає 10% усього циклу.
- Підготувати дані – 70 %, тому що потрібно вибрати ресурс, підготувати дані, визначити чутливі тощо.
- Проаналізувати дані – 10%. У цьому питанні може підключатися бізнес-аналітик, тому що аналіз даних – це його вотчина. Оброблені дані можна візуалізувати. Це дасть змогу наочно побачити логіку: які дані більше впливають на цінність моделі, які менше.
- Візуалізувати інсайти – які проблеми виникли, яких даних не вистачає, сміттєві чи не сміттєві, чи багато в даних прогалин. Після візуалізації ми отримаємо певне value.
- Презентувати рішення – 80%. Якщо підсумувати цей час із відсотками попередніх чотирьох етапів, то виходить не 100, а 180%, бо в процесі пошуку рішення, доводиться багато разів вносити зміни і дивитися, як це впливає на результат.
На етапі презентації, можливо, стане зрозумілою проблема з даними: їх замало для ухвалення рішення, або вони зібрані неправильно чи не повністю. Можливо, обрано невідповідну модель, а може, для правильної моделі задано неправильні параметри.
AI – це, все-таки, ітераційна система, тому рухатися треба ітераційно, і шлях виходить циклічним. Ось чому 80% часу після того, як зроблено цикл, доведеться ганяти модель, щоб прийти до оптимального рішення.
Оптимальне рішення – це не означає, видати 100% результату. Жодна модель не може видавати 100 %. Навіть на найбільш налагоджених даних може бути 99%, а 100 – ні.
Рішення буде оптимальним, коли задіяно весь наявний ресурс і знайдено оптимальний відсоток правильних відповідей, який має давати конкретна модель.
Хто такий Data Scientist
Data Scientist – це фахівець, який аналізує та інтерпретує складні дані для виявлення тенденцій і вироблення стратегій. Його обов’язки включають збір, очищення та аналіз даних, розробку моделей машинного навчання і представлення висновків для прийняття рішень. Цей фахівець важливий для допомоги компаніям у прийнятті обґрунтованих рішень і виявленні прихованих можливостей.
Що робить Data Scientist
Data Scientist – це ключова роль у сучасній аналітиці даних, що забезпечує цінні інсайти та стратегічні рішення на основі збору й аналізу даних. Ці фахівці працюють на стику статистики, математики та інформатики, і їхні обов’язки великі:
- Збір даних. З різних джерел, включно з базами даних, файлами та зовнішніми API.
- Очищення даних. Видалення помилок і невідповідностей для забезпечення якості аналізу.
- Аналіз даних. Використання статистичних методів для інтерпретації даних і виявлення закономірностей.
- Моделювання. Створення статистичних моделей і алгоритмів машинного навчання для прогнозування та класифікації.
- Візуалізація даних. Представлення даних у зрозумілій формі за допомогою графіків і діаграм.
- Розробка і тестування гіпотез. Перевірка припущень на основі даних.
- Звітність. Підготовка звітів і представлення результатів аналізу зацікавленим сторонам.
Ця роль вимагає постійного оновлення знань та навичок через швидкий розвиток галузі. Data Scientists є цінними активами будь-якої організації, сприяючи розвитку та оптимізації процесів.
Скільки заробляє Data Scientist
Професія Data Scientist залишається однією з найбільш затребуваних і високооплачуваних. У США місячний дохід може варіюватися від $8,000 до $14,000, у Європі – від €5,000 до €10,000, а в Україні – від 100,000 до 200,000 гривень. Попит на цих фахівців в Україні стабільно високий, оскільки вони відіграють ключову роль в аналізі даних і прийнятті обґрунтованих бізнес-рішень.
Які навички повинен мати Data Scientist
Data Scientist повинен володіти широким набором навичок, що включають технічні, аналітичні та комунікативні здібності. Основні навички включають:
- Знання мов програмування, таких як Python та R для аналізу даних.
- Розуміння статистичних методів, ймовірності та лінійної алгебри.
- Розробка і застосування алгоритмів машинного навчання.
- Уміння працювати з великими даними та їх візуалізація за допомогою інструментів на кшталт Tableau або PowerBI.
- Знання мови запитів SQL для роботи з реляційними базами даних.
- Досвід роботи з Hadoop, Spark та іншими Big Data технологіями.
- Розуміння специфіки галузі, в якій застосовуються аналітичні навички.
- Здатність пояснювати складні концепції неспеціалістам.
З останньою навичкою допомагає Techmind. Технічний курс для нетехнічних фахівців, який зроблений для того, щоб навчитися говорити з технічною командою однією мовою.
Як Techmind допомагає Data Scientist
Курс Techmind від IAMPM є комплексним навчанням, покликаним допомогти фахівцям, зокрема й Data Scientists, зануритися у світ розробки та навчитися взаємодіяти з розробниками. Ось як Techmind може допомогти Data Scientist:
- Розуміння процесу розробки. Курс пропонує детальне розуміння всього процесу розробки ПЗ, від етапу планування до реалізації. Це важливо для Data Scientists, оскільки їхня робота часто взаємопов’язана з розробкою нових інструментів і систем для аналізу даних.
- Термінологія та найкращі практики. Навчання включає вивчення ключової термінології та найкращих практик, що допоможе Data Scientists більш ефективно спілкуватися з розробниками та брати участь у технічних обговореннях.
- Робота з API та Git. Techmind пропонує розуміння роботи з API-документацією та системами контролю версій, такими як Git, що є критично важливим для сучасних Data Scientists, які працюють з великими обсягами даних і необхідністю їх інтеграції.
- Вибір архітектури та фреймворків. Розуміння того, як обирати архітектуру, фреймворк і команду для проєкту, допомагає Data Scientists оптимізувати свою роботу і вибирати найбільш підходящі інструменти для виконання завдань.
- Аналітика та підтримка проєкту після релізу. Курс навчає ефективного процесу тестування і методів аналітики, які важливі для постійного поліпшення і підтримки проєктів, особливо після їхнього запуску.
Techmind забезпечує фундаментальне розуміння технічних аспектів розробки програмного забезпечення, що є критично важливим для будь-якого Data Scientist, який прагне до ефективної взаємодії з IT-командами та поліпшення своїх навичок аналізу даних.
Підбиваємо підсумки
Щоб потрапити в серйозний AI-проект, потрібні знання для управління DS-командою або досвід створення MVP власного DS-проекту. Починати потрібно з розуміння підходів і термінології.
Базові знання:
- Термінологія – розбиратися, що таке AI, DS, ML.
- Дані – як правильно їх збирати.
- Підходи – які бувають, як вибрати.
- Фреймворки – який вибрати під певне завдання.
- Моделі – їхні параметри і як правильно зібрати.
- Аналіз метрик – як оцінювати результати моделі.
- Workflow для команди – Roadmap роботи в DS проєкті.
- Збір команди – які фахівці потрібні під той чи інший кейс.
Загалом, щоб принести більше користі проєкту або компанії, менеджеру не обов’язково ставати Data Scientist або отримати найкращі результати в Kaggle (професійних змаганнях з аналізу даних). Потрібне вдумливе самостійне вивчення теми або структурований курс, який дасть змогу отримати базові практичні знання з Data Science і Machine Learning.