Хемоинформатика – научная дисциплина, возникшая на пересечении компьютерных технологий, математической статистики, химии, биологии, материаловедения и других естественных наук. Предметом Хемоинформатика является работа с информацией о свойствах химических веществ и материалов. Хемоинформатика решает задачи по математическому описанию и представлению в машиночитаемой форме информации о структуре и свойствах химических веществ и материалов; организации хранения, поиска и обработки этой информации в базах данных, а также ее использования при исследовании закономерностей взаимосвязей между их структурой и свойствами, с целью конструирования новых химических веществ и материалов с заранее заданными свойствами. Специалисты, владеющие методами хемоинформатики, широко востребованы как в академической науке, так и на фирмах, занимающимися разработками новых материалов, фармацевтических препаратов, нефтедобычей и нефтепереработкой, в химической промышленности и во многих других областях.
Задача курса - приобретение знаний о дисциплине Хемоинформатика, ее основных понятиях, методах и подходах, а также возможностях их использования для научно-практических целей; знакомство с основными принципами создания и управления базами данных по структурам и свойствам химических объектов; приобретение практического опыта работы с программами моделирования взаимосвязей ”cтруктура-свойство” для решения конкретных задач по компьютерному прогнозированию свойств соединений и конструированию новых веществ с заранее заданными свойствами.
-
- Представление химических объектов в Хемоинформатике.
- Роль Хемоинформатики в современных научных исследованиях. Основные задачи Хемоинформатики. Различия базовых понятий хемоинформатики и дисциплин теоретической химии (квантовой химии, молекулярной механики). Общие принципы построения моделей “структура-свойство”. Молекулярные дескрипторы, определение, критерии оценки эффективности. Общий протокол Хемоинформатики.
- Основные типы химических объектов и способы описания их строения. Строение молекул. Методы определения молекулярной структуры. Типы химических связей и их характеристики. Геометрия молекул. Конфигурация и конформация. Типы изомерии. Понятие о динамической стереохимии. Кислотные и основные свойства молекул. Супрамолекулярные системы. Методы описания электронной структуры молекулярных систем. Общие представления о современных методах квантовой химии. Молекулярные орбитали. Распределение электронной плотности. Парциальные заряды на атомах. Молекулярный электростатический потенциал. Поверхность потенциальной энергии (ППЭ) молекулярной системы.
- Виды представлений химических структур в Хемоинформатике. Кодирующие представления. Структурная диаграмма и молекулярные графы. Элементы теории графов. Линейные нотации (SMILES, их правила и форматы;). Коды InChI. Векторные представления графов, битовая строка. Структурные ключи и молекулярные отпечатки.
- Матричные представления графов. Таблицы связности. Структуры Маркуша. Трехмерные представления молекул. Координатные представления. Стандартные форматы файлов в Хемоинформатике. Основные форматы файлов химических структур (mol, sdf, mol2,). Конвертация между представлениями 1D-2D-3D. Основные программы конвертации.
- Моделирование взаимосвязи “структура-свойство”
- Методология моделирования взаимосвязи “структура-свойство”. Концепция молекулярных дескрипторов, критерии отбора и классификация. Структурные дескрипторы (2D) : топологические индексы, фрагментные. Трехмерные (3D) дескрипторы. Понятие фармакофора, фармакофорные дескрипторы. Дескрипторы молекулярных полей и молекулярного подобия. Физико-химические и квантово-химические дескрипторы. Компьютерные ресурсы для расчета дескрипторов.
- Построение и валидация моделей “структура-свойство”. Предоработка данных. Общие принципы построения моделей “структура-свойство”. Количественные показатели качества регрессионных и классификационных моделей. Понятие об области применимости моделей.
- Регрессионные методы машинного обучения и классификационные методы построения моделей “структура-свойство”.
- Особенности построения моделей «структура-свойство» для разных типов материалов.
- Программы моделирования “структура-свойство”. ПК ISIDA-QSPR, OChem, KNIME.
- Базы данных в Хемоинформатике.
- Хемоинформационные базы данных - общая структура, классификация, примеры. Виды 2D поиска в базах данных. Поиск по структуре. Тактика подструктурного поиска. Алгоритм Ульмана. Поиск по подобию. Общий алгоритм поиска по структурам Маркуша. 3D поиск в базах данных. Трехмерные скрины. Задачи “жесткого” и гибкого 3D поиска. Понятие фармакофора и поиск по фармакофорам.
- Примеры и характеристика важнейших баз данных, содержащих информацию о структуре и свойствах химических объектов.
- Ввод и редактирование структур молекул с использованием интерактивных графических редакторов. (ПК ISIDA и ChemAxon).
- Создание локальной базы данных с использованием ПК Instant JChem (ChemAxon). Создание комбинаторных библиотек.
-
Основная литература
- Gasteiger, T.Engel (Editors): Chemoinformatics: A Textbook. Wiley-VCH Verlag GmbH & Co, KgaA, Weinheim, 2003. ISBN 3-527 – 30681-1
- Gasteiger: Handbook of Chemoinformatics: From Data to Knowledge / J. Gasteiger, T. Engel. – Weinheim: Wiley-VCH, 2003.
- Т.И.Маджидов, И.И.Баскин, А.А.Варнек. Введение в хемоинформатику. Часть 1. Компьютерное представление химических структур: учебное пособие. Изд-во Казанского ун-та, 2013.
- Т.И.Маджидов, И.И.Баскин, А.А.Варнек. Введение в хемоинформатику: учебное пособие. Часть 2. Химические базы данных. Изд-во Казанского ун-та, 2015.
- И.И.Баскин, Т.И.Маджидов, А.А.Варнек. Введение в хемоинформатику: учебное пособие. Часть 3. Моделирование «структура-свойство». Изд-во Казанского ун-та, 2015.
- И.И.Баскин, Т.И.Маджидов, А.А.Варнек. Введение в хемоинформатику: учебное пособие. Часть 4. «Машинное обучение». Казань: Казан. ун-т, 2016. – 330 с.
- Applied Chemoinformatics. Achivements and Future Opportunities, Wiley-VCH, 2018, Print ISBN: 978-3-527-34201-3
-
Перечень лицензионного и (или) свободно распространяемого программного обеспечения
-
- Базы данных IRIC, ChemSpider, PubChem, Pubmed, COD, AFLOWLIB, MaterialProject, MatNavi