
Специалисты Центра искусственного интеллекта МГУ имени М.В. Ломоносова создали инновационный метод машинного обучения. Он значительно повышает точность прогнозирования характеристик молекул на основе их строения. Ключевой элемент — новая архитектура нейронной сети gSelformer-MV, анализирующая молекулы через множество текстовых описаний одновременно.
Значение прогнозирования в химии
Определение свойств молекул по структуре — фундаментальная задача вычислительной химии. Эти подходы незаменимы при создании лекарств, поиске уникальных материалов и исследовании соединений с нужными параметрами. Алгоритмы машинного обучения выявляют связь между структурой молекулы и её физико-химическими характеристиками.
Современные методы и их ограничения
Сегодня доминируют два подхода. Первый рассматривает молекулу как сеть атомов и связей, анализируемую графовыми нейросетями. Второй представляет её как символьную последовательность, обрабатываемую моделями анализа текста. Однако оба метода фокусируются на уровне атомов, часто игнорируя крупные элементы — функциональные группы.
Инновационный подход: объединение представлений
Разработанный метод интегрирует несколько форматов описания структуры. В его основе — формат Group SELFIES, кодирующий как атомы, так и функциональные группы. Молекула представляется нейросети не одной строкой, а набором вариантов, полученных при разделении на подграфы. Параллельный анализ этих представлений позволяет учитывать и атомы, и крупные фрагменты.
Преимущества многомерного анализа
Использование нескольких описаний структуры дает модели возможность охватить разные уровни организации молекулы. Это ключевой фактор, повышающий точность прогнозов.
Проверка эффективности и ясность результатов
Метод успешно протестирован на стандартных задачах прогнозирования. Вычислительные эксперименты подтвердили его превосходство над алгоритмами, использующими единое строковое представление. Интеграция данных о подструктурах также повышает понятность и объяснимость результатов модели.
Перспективы применения
Предложенный подход открывает новые возможности для ускоренного поиска химических соединений с заданными свойствами. Такие решения особенно ценны в фармацевтике и материаловедении, где требуется быстрый анализ огромного числа молекулярных структур.
Источник: scientificrussia.ru





