Запитай в рекрутера

Ольга Мажара

Senior Java Developer в Intellias; викладачка дисципліни “Штучний інтелект” у Київському політехнічному інституті

Серед ключових знань спеціаліста з Data Science варто виділити фундаментальні знання математики. Незважаючи на регулярну появу нових ML-бібліотек, математичні підходи, котрі лежать у їх основі, залишаються незмінними. Щоб розуміти переваги тієї чи іншої бібліотеки, аргументовано обирати оптимальні шляхи налаштування алгоритмів навчання у кожному конкретному випадку, вам потрібно упевнено орієнтуватися у таких розділах математики, як інтегральне та диференціальне числення, матричний і тензорний аналіз, методи оптимізації.

Не менш важливим за математичну базу є й розуміння домену та проблематики, з якою працює фахівець на проєкті. Від того, наскільки глибоко занурений Data Scientist у сферу, напряму залежить ефективність його роботи та доцільність рішень, котрі він приймає у ході вирішення робочих задач.

Ще один must have для спеціаліста у сфері Data Science – знання англійської. Початківцю буде достатньо уміння розібратися з технічною документацією. Проте, чим вищий рівень відповідальності інженера на проєкті, тим частіше у нього виникатиме необхідність повноцінно комунікувати із замовником – як по первинних вимогах, так і по обґрунтуванню своїх рішень і презентації результатів.

Набір технологій та інструментів, необхідний фахівцю з Data Science, безпосередньо залежить від типу задач, які йому доводиться вирішувати на конкретному проєкті.

Якщо ми говоримо про стартапи, Data Scientist нерідко має спочатку зібрати масив даних, очистити його й підготувати. Робота зі сховищами і базами даних, аналіз аномалій і заповнення пропусків, розмітка наборів даних – усі ці навички у стартапах будуть не менш важливими, ніж подальший аналіз і висновки для прийняття бізнес-рішень.

На великих проєктах, де процес збору даних налагоджений і автоматизований, Data Scientist займається переважно дослідницькою роботою. Саме тут на перше місце виходять глибокі знання у конкретному домені – без них буде складно коректно інтерпретувати навіть ретельно структуровані масиви даних.

Розуміння архітектури нейронних мереж також знадобиться насамперед інженерам на масштабних проєктах, котрим потрібно буде працювати з Reinforcement Learning та Deep Learning

Але, зрештою, на якому б проєкті ви не працювали, ваш технологічний стек визначатиметься насамперед тими даними, котрими ви будете оперувати.

У числі базових інструментів Data Science, які у більшості випадків допомагають вирішити описані вище задачі, я б назвала Keras, PyTorch і TensorFlow – фреймворки, що застосовуються у глибинному навчанні, а також SciPy і NumPy - популярні бібліотеки для Machine Learning.

Тим, кому цікаво працювати з проєктами у сфері Natural Language Processing, варто додатково заглибитися у принципи роботи рекурентних нейронних мереж; для розвитку скілів у напрямку Computer Vision я б порадила приділити увагу вивченню згорткових нейронних мереж.

Антон Тарасов

Senior Machine Learning Engineer в Intellias

Для того, щоб відповісти на запитання, які навички потрібні фахівцю у сфері Data Science, варто насамперед розібратися з тим, які задачі він вирішує. Data Scientist, як і науковець в інших сферах, займається тим, що, на основі наявних у нього даних, формулює гіпотези і вишукує інсайти, а потім валідує їх, вибудовуючи певні моделі.

Якими навичками і досвідом потрібно володіти, щоб виконувати ці задачі у Data Science? Перша важлива складова хард-скілів Data Science інженера – математичні дисципліни. Матаналіз та теорія ймовірностей, статистичний аналіз, дискретна математика і лінійна алгебра – все це вам знадобиться так само, як і фундаментальні знання алгоритмів машинного навчання.

По-друге, необхідно бути досвідченим програмістом. Наразі найпопулярнішою мовою програмування серед Data Scientist’ів є Python. Вона дозволяє вирішувати усі основні “технічні” задачі, котрі встають перед інженером у ході підготовки даних, перевірки і презентації гіпотез: обробка даних та їх візуальне представлення, взаємодія з базами даних і формування алгоритмів Machine Learning. І нові, і класичні бібліотеки та фреймворки Python є зручним інструментом для експериментів з ML моделями та їх імплементації.

Без прокачаних софт-скілів у Data Science також не обійтися. На переважній більшості проєктів вам не вдасться сфокусуватися суто на дослідницьких задачах: доведеться багато комунікувати з командою і замовником, занурюватися у бізнес-цілі та метрики. Неякісна комунікація з боку Data Scientist’а може дорого обійтися компанії. Успіх проєкту багато в чому залежить від того, наскільки чітко були обговорені потреби клієнта та сценарій використання моделей, донесена інформація про джерела даних, методи їх обробки і потенційні ризики у ході дослідження.

Презентувати результати своєї роботи також необхідно чітко, лаконічно і так, щоб ваші моделі й гіпотези були зрозумілі навіть нефахівцям.

 Оригінал статті