Биоинформатические пайплайны с NextFlow

9000,00
р.
Этот модуль предназначен для исследователей, которые уже знакомы с основами Linux, но сталкиваются с трудностями при организации сложных вычислительных анализов. Скрипты сложно поддерживать, результаты трудно воспроизвести, а перенос анализа на другой компьютер или вычислительный кластер требует значительных усилий. Модуль знакомит с современными инструментами, позволяющими создавать воспроизводимые и управляемые вычислительные пайплайны. Слушатели осваивают управление программными зависимостями, изоляцию окружения и работу с фреймворком NextFlow для построения и запуска надёжных аналитических процессов.

Входит в состав образовательной траектории
"Разработчик биоинформатических пайплайнов"

Сложность: средний уровень

Уровень сложности: Средний

Направление: Биоинформатика

Направление: Анализ данных

Инструменты: Linux-среда

Инструменты: Conda

Инструменты: Singularity

Инструменты: NextFlow

Преподаватель: Вихорев Александр

Подробная информация о блоке
Программа обучения
Характеристики образовательного модуля

Подробная информация о блоке

В биоинформатике и анализе данных всё чаще используются сложные цепочки вычислений, включающие множество программ, версий библиотек и этапов обработки данных. Без специальной организации такие анализы становятся нестабильными, трудно воспроизводимыми и плохо масштабируемыми.
Данный модуль посвящён практическому освоению инструментов, которые решают эти проблемы. Слушатели учатся управлять зависимостями с помощью Conda, изолировать программное окружение с использованием контейнеров Singularity и объединять отдельные этапы анализа в единый воспроизводимый пайплайн с помощью NextFlow.

Модуль ориентирован на практику: основное внимание уделяется тому, как корректно описывать вычислительные процессы, управлять их выполнением, отлаживать ошибки и запускать один и тот же пайплайн как на локальном компьютере, так и на вычислительном кластере.

Для кого этот модуль:
  • Исследователи и аналитики, знакомые с Linux и командной строкой.
  • Биологи и биоинформатики, собирающие сложные аналитические цепочки из нескольких программ.
  • Пользователи вычислительных кластеров, которым необходимо обеспечить воспроизводимость и переносимость анализа.
  • Все, кто хочет перейти от набора разрозненных скриптов к структурированным пайплайнам.

Что вы получите после прохождения модуля:
  • Понимание принципов построения воспроизводимых вычислительных анализов.
  • Навык управления программными зависимостями с помощью Conda.
  • Умение использовать контейнеры Singularity для изоляции вычислительного окружения.
  • Практический опыт написания, запуска и отладки пайплайнов в NextFlow.
  • Способность переносить анализ между разными вычислительными средами без изменения кода.
  • Готовность к масштабированию анализа на вычислительные кластеры.

Программа обучения

Тема 1. Программы в ОС Linux: CONDA, SINGULARITY
Содержание
Запуск программ в Linux, переменная PATH. Установка программ при помощи conda. Окружение conda. Контейнеры singularity. Образы контейнеров Singularity. Запуск программы в контейнерах Singularity. Создание собственных контейнеров Singularity
Практическая работа
Создать контейнер Singularity, используя образ контейнера из Docker Hub
Запустить программу в контейнере Singularity
Самостоятельная работа
Изучение учебно-методических материалов (памятки, статьи).

Тема 2. Пайплайны, фреймворк NextFlow, язык Groovy
Содержание
Лекция про пайплайны. Про имплицитный и эксплицитный, конвенциональный и конфигурационный синтаксис, про NextFlow
Базовое устройство NextFlow: workflow, process, channel, dag. Основы языка Groovy: типы данных, их методы, циклические и условные конструкции. Каналы NextFlow: каналы-значения и каналы-очереди, создание каналов. Методы каналов.
Практическая работа
Создание каналов NextFlow с использованием синтаксиса языка Groovy
Самостоятельная работа
Изучение учебно-методических материалов (памятки, статьи).

Тема 3. Работа с процессами NextFlow
Содержание
Процессы в NextFlow. Передача значений из канала в процесс Nextflow. Скрипты для процессов Nextflow. Директивы процессов Nextflow. Управление источником программ и ресурсами для процессов Nextflow. Связывание процессов Nextflow при помощи каналов. Модули для Nextflow. Использование конфигурационного файла для Nextflow
Практическая работа
Создать Nextflow workflow, включающий несколько процессов, объединенных каналами
Самостоятельная работа
Изучение учебно-методических материалов (памятки, статьи).

Итоговая аттестация

Характеристики образовательного модуля

Характеристики образовательного модуля:

  • Продолжительность: 20 ак. ч.
  • Сложность: средний уровень
  • Направления, биоинформатика, анализ данных, вычислительные методы
  • Навыки: сборка пайплайнов, управление зависимостями, контейнеризация, воспроизводимые вычисления, отладка процессов
  • Инструменты: Linux, Conda, Singularity, NextFlow
  • Документ об образовании: удостоверении о повышении квалификации НГУ

Эксперт образовательного модуля:
  • Александр Викторович Вихорев, заведующий лабораторией бионформатики, разработчик цикла видеокурсов по биоинформатике и молекулярной биологии