В лаборатории с 2013 года занимаются решением проблем, связанных с анализом данных по химическим реакциям. Значительный прогресс был достигнут благодаря поддержке гранта Российского научного фонда для международных научных групп и Программы повышения конкурентоспособности КФУ. Первый проект собрал самых видных специалистов в области хемоинформатики со всего мира: проф. А. Варнека (Университет Страсбурга, Франция), который являлся его руководителем, проф. А. Тропшу (Университет Северной Каролины, США), И. Тетко (Центр Гельмгольца в Мюнхене, Германия), И. Баскина (МГУ), П. Полищука (Университет Оломоуца, Чехия).
Ученые КФУ научились предсказывать характеристики реакций, такие, как скорость и константу равновесия, находить оптимальные условия проведения реакций, исправлять ошибки в данных, реализовывать самые различные виды поиска, собрали уникальную базу данных по характеристикам химических реакций. Так, из диссертаций и научных работ, которые выполнялись в КФУ в группе А. И. Коновалова, была вручную собрана уникальная электронная база данных характеристик реакций Дильса-Альдера, насчитывающая почти 2 тысячи реакций. Всего база данных реакций Лаборатории хемоинформатики насчитывает почти 3,5 млн. единиц хранения. Благодаря этому проекту КФУ является единственным университетом России, включенным в коллаборацию Reaxys R&D Collaboration, целью которой является развитие технологий работы с большими данными по химическим реакциям.
В химии анализом и поиском закономерностей в данных с целью компьютерного дизайна новых веществ и материалов с заданными свойствами занимается хемоинформатика. Как поясняют ученые, химические данные очень сложны для анализа. Одно и то же соединение можно представить различными способами. Кроме того, химические соединения не всегда имеют четкую структуру. Например, множество соединений всегда существуют в виде смеси нескольких взаимопревращающихся форм. Поэтому при работе с химическими структурами, при попытке их хранения, анализа и поиска закономерностей нужно уметь понимать, когда имеются в виду разные соединения и когда мы имеем дело с разными формами представления одного и того же соединения. Кроме того, в структурах химических соединений в базах данных часто имеются ошибки, которые нужно уметь исправлять, то есть вносить изменения в структуру. Для этого требуются специальные программы, которые умеют делать базовые операции с компьютерными представлениями химических структур, способны искать соединения с нужными фрагментами, исправлять ошибки, которые возникли при вводе структуры соединения в компьютер случайно или из-за незнания некоторых особенностей работы со структурными данными в компьютере. Поскольку эти задачи часто встают при дизайне новых молекул, в частности, лекарств, то существуют специальные программы и программные библиотеки, которые позволяют обрабатывать информацию о молекулах и проводить их анализ.
«Особенно важными и сложными для органической химии объектами исследования являются реакции. В данных о реакциях в настоящий момент наблюдается хаос - поскольку реакции являются более сложным объектом, чем молекулы, то и ошибки там встречаются гораздо чаще, исправлять их значительно сложнее; не всегда очевидно, что имел в виду специалист. Некоторые приведенные в базах данных реакции вообще выглядят крайне странно даже для химика. Работа с реакциями в хемоинформатике развита значительно хуже, чем с молекулами. При этом существующие в мире продукты очень плохо поддерживают работу с реакциями», - прокомментировал один из соавторов публикации Тимур Маджидов, старший научный сотрудник НИЛ хемоинформатики и молекулярного моделирования.
За годы выполнения исследований сотрудниками НИЛ хемоинформатики и молекулярного моделирования создано большое число инструментов для работы с реакциями. В проекте CGRtools специалисты КФУ решили ряд проблем по работе с химическими реакциями. Созданная ими программная библиотека значительно превосходит по функциональности все имеющиеся инструменты для работы с реакциями, их обработке и анализа. Особенно важно для научного сообщества, что разработанный инструмент находится в открытом доступе и с открытым исходным кодом по адресу https://github.com/cimmkzn/CGRtools.