Введение в Хемоинформатику
обязательные спецкурсы Для магистров 1-го года обучения Зачет

Хемоинформатика – научная дисциплина, возникшая на пересечении компьютерных технологий, математической статистики, химии, биологии, материаловедения и других естественных наук. Предметом Хемоинформатика является работа с информацией о свойствах химических веществ и материалов. Хемоинформатика решает задачи по математическому описанию и представлению в машиночитаемой форме информации о структуре и свойствах химических веществ и материалов; организации хранения, поиска и обработки этой информации в базах данных, а также ее использования при исследовании закономерностей взаимосвязей между их структурой и свойствами, с целью конструирования новых химических веществ и материалов с заранее заданными свойствами. Специалисты, владеющие методами хемоинформатики, широко востребованы как в академической науке, так и на фирмах, занимающимися разработками новых материалов, фармацевтических препаратов, нефтедобычей и нефтепереработкой, в химической промышленности и во многих других областях. Задача курса - приобретение знаний о дисциплине Хемоинформатика, ее основных понятиях, методах и подходах, а также возможностях их использования для научно-практических целей; знакомство с основными принципами создания и управления базами данных по структурам и свойствам химических объектов; приобретение практического опыта работы с программами моделирования взаимосвязей ”cтруктура-свойство” для решения конкретных задач по компьютерному прогнозированию свойств соединений и конструированию новых веществ с заранее заданными свойствами.

    1. Представление химических объектов в Хемоинформатике.
      1. Роль Хемоинформатики в современных научных исследованиях. Основные задачи Хемоинформатики. Различия базовых понятий хемоинформатики и дисциплин теоретической химии (квантовой химии, молекулярной механики). Общие принципы построения моделей “структура-свойство”. Молекулярные дескрипторы, определение, критерии оценки эффективности. Общий протокол Хемоинформатики.
      2. Основные типы химических объектов и способы описания их строения. Строение молекул. Методы определения молекулярной структуры. Типы химических связей и их характеристики. Геометрия молекул. Конфигурация и конформация. Типы изомерии. Понятие о динамической стереохимии. Кислотные и основные свойства молекул. Супрамолекулярные системы. Методы описания электронной структуры молекулярных систем. Общие представления о современных методах квантовой химии. Молекулярные орбитали. Распределение электронной плотности. Парциальные заряды на атомах. Молекулярный электростатический потенциал. Поверхность потенциальной энергии (ППЭ) молекулярной системы.
      3. Виды представлений химических структур в Хемоинформатике. Кодирующие представления. Структурная диаграмма и молекулярные графы. Элементы теории графов. Линейные нотации (SMILES, их правила и форматы;). Коды InChI. Векторные представления графов, битовая строка. Структурные ключи и молекулярные отпечатки.
      4. Матричные представления графов. Таблицы связности. Структуры Маркуша. Трехмерные представления молекул. Координатные представления. Стандартные форматы файлов в Хемоинформатике. Основные форматы файлов химических структур (mol, sdf, mol2,). Конвертация между представлениями 1D-2D-3D. Основные программы конвертации.
    2. Моделирование взаимосвязи “структура-свойство”
      1. Методология моделирования взаимосвязи “структура-свойство”. Концепция молекулярных дескрипторов, критерии отбора и классификация. Структурные дескрипторы (2D) : топологические индексы, фрагментные. Трехмерные (3D) дескрипторы. Понятие фармакофора, фармакофорные дескрипторы. Дескрипторы молекулярных полей и молекулярного подобия. Физико-химические и квантово-химические дескрипторы. Компьютерные ресурсы для расчета дескрипторов.
      2. Построение и валидация моделей “структура-свойство”. Предоработка данных. Общие принципы построения моделей “структура-свойство”. Количественные показатели качества регрессионных и классификационных моделей. Понятие об области применимости моделей.
      3. Регрессионные методы машинного обучения и классификационные методы построения моделей “структура-свойство”.
      4. Особенности построения моделей «структура-свойство» для разных типов материалов.
      5. Программы моделирования “структура-свойство”. ПК ISIDA-QSPR, OChem, KNIME.
    3. Базы данных в Хемоинформатике.
      1. Хемоинформационные базы данных - общая структура, классификация, примеры. Виды 2D поиска в базах данных. Поиск по структуре. Тактика подструктурного поиска. Алгоритм Ульмана. Поиск по подобию. Общий алгоритм поиска по структурам Маркуша. 3D поиск в базах данных. Трехмерные скрины. Задачи “жесткого” и гибкого 3D поиска. Понятие фармакофора и поиск по фармакофорам.
      2. Примеры и характеристика важнейших баз данных, содержащих информацию о структуре и свойствах химических объектов.
      3. Ввод и редактирование структур молекул с использованием интерактивных графических редакторов. (ПК ISIDA и ChemAxon).
      4. Создание локальной базы данных с использованием ПК Instant JChem (ChemAxon). Создание комбинаторных библиотек.
  1. Основная литература

    1. Gasteiger, T.Engel (Editors): Chemoinformatics: A Textbook. Wiley-VCH Verlag GmbH & Co, KgaA, Weinheim, 2003. ISBN 3-527 – 30681-1
    2. Gasteiger: Handbook of Chemoinformatics: From Data to Knowledge / J. Gasteiger, T. Engel. – Weinheim: Wiley-VCH, 2003.
    3. Т.И.Маджидов, И.И.Баскин, А.А.Варнек. Введение в хемоинформатику. Часть 1. Компьютерное представление химических структур: учебное пособие. Изд-во Казанского ун-та, 2013.
    4. Т.И.Маджидов, И.И.Баскин, А.А.Варнек. Введение в хемоинформатику: учебное пособие. Часть 2. Химические базы данных. Изд-во Казанского ун-та, 2015.
    5. И.И.Баскин, Т.И.Маджидов, А.А.Варнек. Введение в хемоинформатику: учебное пособие. Часть 3. Моделирование «структура-свойство». Изд-во Казанского ун-та, 2015.
    6. И.И.Баскин, Т.И.Маджидов, А.А.Варнек. Введение в хемоинформатику: учебное пособие. Часть 4. «Машинное обучение». Казань: Казан. ун-т, 2016. – 330 с.
    7. Applied Chemoinformatics. Achivements and Future Opportunities, Wiley-VCH, 2018, Print ISBN: 978-3-527-34201-3
  2. Перечень лицензионного и (или) свободно распространяемого программного обеспечения

      1. Базы данных IRIC, ChemSpider, PubChem, Pubmed, COD, AFLOWLIB, MaterialProject, MatNavi

Инфо

  1. 24 ч. Количество лекций
  2. 0 ч. Количество семинаров
  3. 0 ч. Количество практических занятий

Лекторы

  • Жохова Н.И.

    Cт. науч. сотр. (Физ. фак. МГУ имени М.В. Ломоносова)