День жінок у науці: три «гості з майбутнього» та їхня girl power у data science

11 лютого 2020, 18:37

Візуалізація прикладів, де можна використовувати алгоритми – Mixed Reality

Катерина Глущенко

У новій реальності ви матимете доступні та індивідуально підібрані ліки, за рецептом до лікаря вас везтиме таксі без водія, а про інфаркт, який мав би статися за півтора роки, ви зможете дізнатися того ж дня на КТ (комп’ютерна томографія – ред.). Наступного тижня ви кинете курити – і це продовжить ваше життя ще на 30 років. Якщо уявити нову реальність в Україні не вдається – не біда. Проходячи лікування в одній із розвинених країн, ви зможете спілкуватися з cім’єю та друзями з України так, ніби вони поряд із вами. Нагадує науково-фантастичні сценарії з життя онуків? Уже ні. Героїні цього матеріалу кажуть, що шлях від розробки нових моделей до їхньої інтеграції в індустрію триває не довше кількох років. Уже сьогодні вони займаються розробками ключових рішень машинного навчання для медицини, фармацевтики, автономного водіння та mixed reality.

До Дня жінок у науці ми запитали молодих IT-дослідниць, випускниць програми наук про дані Українського католицього університету Ярославу Лочман, Дзвінку Яріш та Марію Добко про те, чому між індустрією та наукою вони обирають останню, та дізналися про проєкти, над якими вчені працюють після випуску.

Ярослава Лочман: про комп’ютерний зір та телеприсутність

Ми спілкуємося з Ярославою Лочман по відео-зв’язку у фейсбуці. Зараз вона в Києві – готується до мандрівки в Пітсбург, де в підрозділі Facebook Reality Labs (FRL) буде продовжувати тему, розпочату в дипломній роботі, – автоматичне калібрування камери. Розробка Ярослави дозволяє лише за однією фотографією проаналізувати та оцінити параметри камери, на яку цю фотографію було зроблено. «Ми можемо оцінити фокусну відстань камери, рівень дисторсії, тобто, викривлення лінз та інші параметри. Алгоритми, які ми пропонували раніше, вирішували вужчі задачі – наприклад, знаходили лише частину параметрів, та згодом ми змогли розширити задачу до автоматичного калібрування», – розповідає дівчина.

Візуальний результат калібрування камери

Своє майбутнє Ярослава бачить у сфері науки, а точніше у комп’ютерному зорі, де вона відчуває, як реалізує свій потенціал та впливає на світ. Методи, розроблені нею та колегами, застосовують у 3D-реконструкції, віртуальній реальності та змішаній реальності. До того ж, зараз фокус застосування торкнеться розробок FRL, де прагнуть створити новий рівень спілкування — телеприсутність (telepresence). «Через постійні переїзди я мушу розлучатися з близькими, і, звісно, сумую за ними. Ідея телеприсутності мені дуже подобається. Суть її в тому, що, маючи спеціальний headset, можна зателефонувати, поговорити і відчути близькість із людиною, ніби ви поряд, наприклад, в одній кімнаті. Хотілося б, щоб це було можливо вже сьогодні, але ще потрібен час. Я рада докладати зусиль, щоб це наблизити».

Стажування Ярослави уможливилося завдяки плідній співпраці з ментором, який працює в FRL. «Калібрування камер – основа алгоритмів, які розробляють інженери цього підрозділу. Мій ментор фокусується на дослідженнях у цій сфері, тож я підхопила його ідеї, розвинула, і зараз ми маємо змогу публікувати запропоновані підходи і розпочинати їхню інтеграцію».

Рух Ярослави в напрямку комп’ютерного зору почався з індустріальних проєктів наприкінці навчання на бакалавраті. Дівчина зізнається, що тяжіла до наукових розробок ще на початках. Після вступу на магістерську програму, Ярослава та її одногрупник Олег стали першими працівниками The Machine Learning Lab –новоствореної лабораторії машинного навчання на Факультеті прикладних наук УКУ. «Серед вступників було близько десятьох претендентів на дві стипендії. Ми з Олегом дуже хотіли спробувати займатися саме науковими дослідженнями. В нас повірили і дали можливість перевірити себе».

Візуалізація прикладів, де можна використовувати алгоритми – Augmented Reality

Ярослава розповідає, що спочатку було важко впоратися з обсягами роботи в лабораторії та академічній програмі. «Складні моменти виникали переважно від браку досвіду. Мені здавалося, що я робила багато помилок. Проте наші ментори, спостерігаючи за роботою, ймовірно, розуміли, що це лише початок, і що помилки – це нормально. Від наукових керівників та колег по лабі ми отримали як професійну, так і моральну підтримку».

За словами дослідниці, багато часу займає не тільки розробка і тестування, але й відслідковування світових напрацювань, застосування актуальних підходів, порівняльний аналіз. Також, окремий масштабний етап – створення детального, зрозумілого опису роботи для подачі на наукові конференції та в журнали. «Коли поринаєш у процес, багато речей вже видаються очевидними. Ви можете бути одними з небагатьох у світі, хто глибоко знається в цій темі. Тож неабияке складне завдання постає перед науковцем після місяців дослідницької роботи – опис наукової новизни і цінності його розробок.

Дзвінка Яріш: від обробки природної мови до розробки нових молекул

Починаючи вивчати обробку природної мови, Дзвінка Яріш не знала, що вже за кілька років ця сфера науки стане буквально перенаселеною дослідниками та вдало випробуваною на практиці. Сьогодні вона застосовує алгоритми зі сфери обробки природної мови у проекті з розробки нових молекул, які можуть бути використані як лікарські препарати у Research & Development відділі однієї з найбільших ІТ-компаній Львова. «Мета відділу в тому, щоби працювати з новими технологіями, що перебувають ще на стадії розробки, та шукати їхнє застосування для вирішення реальних проблем в індустрії. Хоч я і працюю в індустрії, науковий framework із вивчення літератури, її аналізу, формування гіпотез та їх перевірки в нашій роботі збережено», – пояснює Дзвінка.

«У нашому R&D відділі працюють люди з phd із фізики та хімії. Мені подобається перебувати поряд із тими людьми, про яких я раніше думала, що так виглядають справжні вчені», – розповідає випускниця бакалаврської програми з комп’ютерних наук. «Я відчуваю, що ми з ними колеги, але поки ще не відчуваю себе науковицею. Коли я зможу собі сказати, що моя робота відкрила щось нове, тоді я зможу себе називати вченою», – додає Дзвінка.

У сфері обробки природної мови Дзвінка Яріш захистила бакалаврський диплом, над нею ж вона працювала під час стажування в Чеському технічному інституті. Цікаво, що на першому курсі навчання дівчина вважала, що їй класно кодити – і більше нічого не треба: «Та спілкуючись із викладачами та запрошеними лекторами УКУ на етапі зародження в Україні data-science, цей напрямок видався настільки дивовижним, а результати, які показували моделі машинного навчання, – настільки неймовірними, що я зрозуміла: мої навички програмування – лише інструмент, який із застосовуванням у data science дасть дивовижні результати».

Дзвінка хотіла й далі розвиватися у напрямку обробки природної мови та написанні чат-ботів, аж тут її з одногрупником попросили допомогти в одному завданні: «Потрібно було взяти участь у змаганні з data science на платформі Kaggle, щоби згодом використати розроблений для змагання алгоритм у майбутній роботі з клієнтом». Команда УКУ взяла у змаганні бронзу – і голова R&D відділу запросив двох студентів попрацювати інтернами. Під час стажування в компанії SoftServe алгоритми з обробки природної мови вдалося застосувати до хімічних даних. І почалося щось нове.

Завдання, яке ілюструє ця картинка – дізнатись як зчепляться дві органічні молекули (протеїн та пептид)

«Наш керівник – фізик із досвідом роботи в академії. Він запропонував проєкт про те, як застосовувати машинне навчання для створення нових ліків. Я мала працювати з боку машинного навчання, а інший спеціаліст – з боку хімії. Оскільки навіть на стороні машинного навчання повністю уникнути хімії було б неможливо, Дзвінка трохи посумнівалася, чи хоче вона повертатися до предмету, який не дуже любила в школі, почала наново розбиратися у органічній хімії – і зрозуміла, що їй це дуже цікаво: «Процес розробки ліків може тривати кілька десятиліть, коштувати мільярди доларів, а кінець-кінцем виявиться, що людям цей препарат вживати не можна. Моделі машинного навчання вміють точно передбачати властивості молекул, а прораховані ними препарати мають більше шансів успішно пройти лабораторні та клінічні випробування. Моделі машинного навчання також можуть, аналізуючи фізичні показники пацієнтів, обирати тих, для кого препарат буде найбільш ефективним».

Обрати data science дівчину мотивувало те, наскільки швидко розробки інтегруються в реальність: «Коли спостерігаєш, як винаходи у сфері машинного навчання за кілька років знаходять своє застосування не лише в розважальній сфері, а й у серйозних галузях, наприклад, агротехнологіях, складно втриматися від вау-ефекту. Раніше мене цікавило поєднання машинного навчання і лінгвістики, та зараз мені настільки подобається поєднувати природничі науки з новітніми технологіями, що я хочу рухатися в цьому напрямку», – пояснює Дзвінка. За кілька років дослідниця планує зібрати вагомий науковий багаж та вступити на магістратуру з біоінформатики. Оскільки освітніх програм у цій царині в Україні немає, тож університет вона шукатиме закордоном.

Марія Добко: чим допоміжні науки про дані для медичної практики

Марія Добко на науковій конференції у Ванкувері

Вибір між програмуванням та медициною постав перед Марією Добко ще в школі. «Мені завжди подобалося приймати виклик та братися до завдання, яке неможливо розв’язати банально, яке потребує нових підходів», – розповідає випускниця бакалаврської програми з наук про дані. Математика давалася їй легше, ніж природничі науки, тож викладачі порадили дівчині шукати найприкладніше застосування математики на програмуванні. Уже під час Літньої школи після першого курсу від одного з запрошених лекторів Марія дізналась про можливості програмування і data science у медицині та біоінформатиці – і зрозуміла, що між двома професіями можна було не обирати.

Перші пів року в УКУ їй було незвично через вкрай інтенсивний графік. Та сьогодні вишкіл Факультету прикладних наук дозволяє дівчині поєднувати full-time роботу в індустрії з участю в Лабораторії машинного навчання Факультету прикладних наук УКУ. «Щоби встигнути все, дійсно потрібно багато ресурсів. Та оскільки під час навчання я жила в такому ж ритмі, вже звикла до нього».

Марія завершила бакалаврат минулого літа, магістратуру планує за кілька років, думає також і про phd. Дівчина прагне, щоби всі її дослідження концентрувалися в одній темі: машинне навчання для медицини. Університет ще не обрала, але він точно буде не в Україні: «У нас ніде не викладають біоінформатики, немає й спеціалістів із медичної сфери, які б курували роботи. Поки я працюю і в індустрії, і в лабораторії машинного навчання водночас, я отримую й досвід роботи з продуктом, й академічний вишкіл. А отже не відчуваю зараз потреби вчитися далі».

У науковій лабораторії лабораторії Марія займається двома проєктами. Один – уже знаний CardioVision – стартап, покликаний передбачити та запобігти інфаркту. Марія розповідає, що сьогодні вони вже підходять до етапу тестування застосунку та сервісу лікарями австралійської мережі клінік, яка є парнеркою дослідження. «Зараз усі зусилля кидаються на стадію пілоту, після якої ми отримаємо перші відгуки австралійських лікарів про наш продукт. Та цей проєкт не короткотривалий, він ще потребує багато роботи. Після пілоту ми плануємо розвивати його, поки не побачимо тих людей, яким він зміг допомогти».

Дослідниця розповідає, що нещодавно спостерігала за тим, як процедура КТ коронарографії відбувається в Україні. Поки ми не отримаємо бодай трошки даних з української клініки, ми не можемо оцінити складність. Та з нашого досвіду адаптація розробки під українські сканери видається складним завданням, адже різними є і якість сканерів, і контрасти, які вводять у кров перед процедурою. Крім того, дані з клінік необхідно буде анонімізувати, але ми довідалися, що для академічних цілей використати їх цілком можливо, – розповідає про ще один напрямок для розвитку проєкту CardioVision Марія Добко.

Ще один проєкт, у якому випускниця відіграє роль менторки для одного зі студентів, ставить перед дослідниками нові виклики. Марія Добко каже, що задача особливо цікава з доволі великою дослідницькою складовою, й алгоритмічною складністю. «Йдеться про модифікацію підходу, тобто, цей проєкт не шукає застосування в конкретній галузі, а покликаний знайти рішення для різних задач: із сирих зображень ми хочемо автоматично отримувати сегментаційні маски, які визначають просторове розташування об’єктів, у такий спосіб формуючи його карту». Сьогодні сегментаційні маски, які також називають лейблами, отримують, вручну обводячи об’єкти на зображенні. Маючи лейбл та оригінал, машина швидко вчиться розпізнавати об’єкти. Проте ручне лейблування вимагає дуже багато часу та власне рук. Завдання, яке ставлять перед собою працівники наукової лабораторії – це здатність моделі автоматично витягати сегментаційну маску без використання лейблу.

Сьогодні, щоби автівка могла самостійно рухатися, вона має знати, які об’єкти перебувають навколо, а щоби її алгоритм спрацював, потрібно сто людей, які б розмічали дані на мапі. Якщо забрати цей момент, то ми скоротимо час і ресурси. Щоби використовувати лейбли у медичній практиці, потрібно не лише багато часу та рук, а ще і професійних медичних очей. «Якщо я дивитимуся на медичне зображення, я не бачитиму на ньому аномалій, – пояснює дослідниця. Та коли ми заберемо етап із лейблуванням і збережемо таку ж точність, що і вручну, діагностування значно спроститься». Марія додає, що при виборі проєктів завжди завчасно продумує, чи мають вони перспективу інтеграції в медичну сферу. І лише якщо вона знаходить можливе застосування, дослідниця береться до роботи. Ще задовго до вибору професії мене засмучував загальний стан медицини. Коли я вивчала методики, які використовують закордоном, я зрозуміла, що вони кращі, проте не суттєво. І я ніяк не могла зрозуміти, чому в нас уже потяги ледь не літають, а медицина все ще не має нормальних рішень», — зазначає вона.

Крим Реалії

День жінок у науці: три «гості з майбутнього» та їхня girl power у data science

Ярослава Лочман: про комп’ютерний зір та телеприсутність

Дзвінка Яріш: від обробки природної мови до розробки нових молекул

Марія Добко: чим допоміжні науки про дані для медичної практики

НА ЦЮ Ж ТЕМУ

«Головна мета – зупинити марнування державних грошей» – чеський програміст про сайт за 2 доби

Через 5 років Україна може стати лідером світу за «діджиталізацією» – голова Мінцифри Федоров

Технології у 2020 році: тенденції, які не можна пропустити

Як модернізувати країну швидко, без смс і реєстрації – розповідає Валерій Пекар

«Гейтери», «трабли», «челенджі»: що не так з цими словами – розповідає мовознавиця

Доступність посилання

Крим Реалії

ДОЛУЧАЙСЯ!

День жінок у науці: три «гості з майбутнього» та їхня girl power у data science

Ярослава Лочман: про комп’ютерний зір та телеприсутність

Дзвінка Яріш: від обробки природної мови до розробки нових молекул

Марія Добко: чим допоміжні науки про дані для медичної практики

НА ЦЮ Ж ТЕМУ

«Головна мета – зупинити марнування державних грошей» – чеський програміст про сайт за 2 доби

Через 5 років Україна може стати лідером світу за «діджиталізацією» – голова Мінцифри Федоров

Технології у 2020 році: тенденції, які не можна пропустити

Як модернізувати країну швидко, без смс і реєстрації – розповідає Валерій Пекар

«Гейтери», «трабли», «челенджі»: що не так з цими словами – розповідає мовознавиця