Прикладной анализ данных и машинное обучение в биологии и медицине

9000,00
р.
Этот модуль — прямой и быстрый путь в машинное обучение для биологов, медиков и исследователей, которые уже работают с данными, но хотят перестать действовать наугад и научиться применять ML осознанно. За 22 академических часа вы пройдёте путь от интуитивного понимания методов без учителя (кластеризация и понижение размерности) до обучения моделей классификации и регрессии и знакомства с AutoML на примере PyCaret, а также увидите, как эти подходы работают на реальных данных single-cell RNA-Seq.

Входит в состав образовательной траектории
«Машинное обучение и нейронные сети в биологии и медицине»

Сложность: средний уровень

Направление: Анализ данных

Направление: Машинное обучение

Уровень сложности: Средний

Инструменты: Python

Инструменты: Scikit-learn

Инструменты: Pandas

Инструменты: NumPy

Инструменты: PyCaret

Инструменты: UMAP

Инструменты: AutoML

Преподаватель: Укладов Егор

Преподаватель: Бобровских Александр

Подробная информация о блоке
Программа обучения
Характеристики образовательного модуля

Подробная информация о блоке

Это прикладной модуль, который аккуратно снимает страх перед машинным обучением и показывает, что классические алгоритмы — не абстрактная математика, а рабочий инструмент для анализа биологических и медицинских данных.

Мы начинаем с фундаментальных методов обучения без учителя: понижения размерности, кластеризации и анализа структуры данных. Далее рассматриваем практическое применение этих подходов на примере single-cell RNA-Seq. После этого переходим к алгоритмам обучения с учителем — задачам классификации и регрессии, вопросам подготовки данных, интерпретации результатов и оценки качества моделей. Завершающий этап посвящён AutoML: автоматизированным подходам к выбору и настройке моделей на базе PyCaret, позволяющим ускорить аналитический процесс и повысить его воспроизводимость.

Для кого этот модуль
  • Студенты и аспиранты биологических, медицинских и биотехнологических специальностей.
  • Научные сотрудники, которым нужно анализировать экспериментальные данные, находить закономерности и строить предсказательные модели.
  • Специалисты лабораторий, клиник, биофармы и биотеха, желающие повысить квалификацию и применять ML в прикладных задачах.
  • Те, кто освоил базовый Python и pandas и хочет перейти на следующий уровень — к реальному машинному обучению.

Что вы получите после прохождения модуля:
  • Понимание задач обучения без учителя: кластеризация, понижение размерности, визуализация структуры данных.
  • Навык применения этих методов на реальных биологических данных, включая single-cell RNA-Seq.
  • Уверенную работу с алгоритмами обучения с учителем: классификация, регрессия, метрики качества, интерпретация.
  • Умение подготавливать данные: масштабирование, кодирование категорий, обработка пропусков.
  • Практический навык обучения моделей с помощью scikit-learn.
  • Знакомство с AutoML через PyCaret: ускорение подбора моделей и гиперпараметров.
  • Уверенность в том, что ML — это не «чужая территория», а доступный инструмент для вашей работы.

Программа обучения

Тема 1. Обучение без учителя. Задача понижения размерности и кластеризации
Содержание
Термины и понятия: искусственный интеллект, машинное обучение, глубокое обучение, нейронные сети. Машинное обучение без учителя — основные задачи. Библиотека sklearn. Анализ single-cell RNA-Seq данных. Обучение без учителя: снижение размерности (PCA, t-SNE) и кластеризация (K-means, DBSCAN).

Тема 2. Решение задачи понижения размерности и кластеризации на примере single-cell RNA-Seq
Содержание
Задача снижения размерности и кластеризации. Задача кластеризации. Алгоритмы кластеризации. PCA анализ, алгоритм tsne.
Практическая работа
Кластеризация высокоразмерных данных: применение PCA и t-SNE для визуализации single-cell RNA-Seq

Тема 3. UMAP — современный алгоритм снижения размерности и визуализации многомерных данных
Содержание
Алгоритм UMAP для визуализации данных single-cell RNA-seq. Создание 2D-проекций клеточных популяций и сравнение с PCA.

Тема 4. Обучение с учителем. Задача классификации
Содержание
Основные понятия, недообучение и переобучение. Ошибка данных, матрица ошибок, ошибки 1 и 2 рода. Метрики качества. ROC-AUC кривая, логистическая регрессия. Дерево решений, GINI критерий. Метод опорных векторов, идея работы.

Тема 5. Написание и обучение моделей для решения. Задача классификации
Содержание
Задача классификации. Работа с датасетом breast cancer. Логическая регрессия. Кросс-валидация данных. Метод случайный лес. ROC-AUC кривая.
Практическая работа
Построение моделей классификации на датасете Breast Cancer и сравнение их качества с помощью ROC-AUC

Тема 6. Написание и обучение моделей для решения. Задача регрессии
Содержание
Обучение с учителем: задача регрессии. Решение задачи регрессии. Оснвоные метрики качества регрессии. Линейная регрессия, метод опорных векторов, метод градиентного спуска. Подбор гиперпараметров для решения задач обучения с учителем и без учителя. Ансамбли модели: стэкинг, бустинг и бэггинг.
Практическая работа
Решение задачи регрессии: линейная модель, SVM-регрессия, градиентный бустинг, ансамбли (bagging, stacking), подбор гиперпараметров

Тема 7. AutoML на примере решения задачи регрессии с помощью модуля PyCaret
Содержание
AutoML. Автоматическое машинное обучение. Библиотека PyCaret для автоматического машинного обучения. Преимущества и недостатки автоматического машинного обучения.
Практическая работа
Использование AutoML (PyCaret) для автоматического подбора модели регрессии и оценки её качества

Итоговая аттестация

Характеристики образовательного модуля

Характеристики образовательного модуля:

  • Продолжительность: 22 ак. ч.
  • Сложность: средний уровень
  • Направления: анализ данных, машинное обучение
  • Навыки: классификация, регрессия, кластеризация, предобработка данных, оценка и интерпретация моделей.
  • Инструменты: Python, Scikit-learn, Pandas, NumPy, PyCaret (AutoML), UMAP
  • Документ об образовании: удостоверении о повышении квалификации НГУ

Эксперты образовательного модуля:

  • Егор Олегович Укладов, преподаватель НГУ, преподаватель кафедры биологии СУНЦ НГУ, сотрудник центра коллективного пользования «Сибирский кольцевой источник фотонов»
  • Бобровских Александр Владимирович, старший преподаватель ФЕН НГУ, м.н.с. ИЦИГ СО РАН