Контакты
-
Адрес: Москва, Ленинский пр. 31
-
Email: hia@igic.ras.ru

За последние десятилетия развитие искусственного интеллекта позволило перейти от теоретических концепций к фундаменту новой технологической реальности. Так, ярко выраженный прогресс наблюдается в области компьютерного зрения (CV) и автономных систем, где алгоритмы глубокого обучения уже превосходят человеческие возможности в задачах распознавания образов и анализа дорожной обстановки в режиме реального времени. Успешное внедрение автопилотов и систем помощи водителю стало возможным благодаря стандартизации огромных массивов визуальных данных, что позволило нейросетям эффективно ориентироваться в динамической среде с беспрецедентной точностью.
Параллельно с этим индустрия больших языковых моделей (LLM) продемонстрировала, как масштабирование архитектур в сочетании с обработкой колоссальных объёмов структурированной информации приводит к возникновению эмерджентных свойств искусственного интеллекта. Способность современных моделей к логическим выводам, синтезу текстов и генерации кода базируется на глубокой проработке обучающих выборок, которые охватывают практически весь пласт оцифрованного человеческого знания. Этот триумф алгоритмов в лингвистике и визуальном анализе служит убедительным доказательством того, что барьеры, стоящие сегодня перед внедрением машинного обучения в химии, носят не технический, а прежде всего методологический характер.
Проблемы современной хемоинформатики
I. Проблема междисциплинарного переноса и специфичности классов
Химическое пространство крайне велико, и его подпространства фундаментально различаются по своей физико-химической природе. Существующие классы соединений – от низкомолекулярных органических веществ до сложных полимерных матриц и кристаллических решёток – обладают уникальными наборами значимых признаков и свойств.
На практике это означает, что модель, успешно обученная на предсказании биоактивности лекарственных кандидатов из какого-то конкретного класса веществ, может (и, вероятно, окажется) полностью несостоятельной при предсказании биоактивности для другого класса соединений. Также важно, что для каждого класса могут быть некоторые уникальные значащие свойства, помимо простой химической структуры, без которых адекватная работа предикативной модели на данных из этого класса невозможна. Это заставляет исследователей накапливать и структурировать данные для каждого класса в отдельности, что значительно замедляет процесс разработки новых материалов и требует колоссальных вычислительных и интеллектуальных ресурсов.
II. Дефицит структурированных данных при кажущемся избытке информации
Мы наблюдаем парадоксальную ситуацию: объём накопленных химических знаний огромен, но их машиночитаемая доля ничтожно мала. Основной массив ценнейшей информации записан в крайне неструктурированном виде, и в силу этого не может использоваться для обучения моделей.
Научные статьи прошлых десятилетий и даже современные публикации представляют собой наборы текста, растровых изображений и графиков. Ключевые данные – спектры, кривые биологических распределений или структуры молекул – часто представлены в виде рисунков, которые невозможно напрямую передать алгоритму. В результате создание баз данных, пригодных для обучения моделей, превращается в трудоемкий процесс ручной или полуавтоматической (а иногда и автоматической, но всё равно достаточно трудозатратной на начальном этапе) извлечения информации. Существующие же открытые базы часто либо слишком специализированы, либо не обладают достаточной глубиной и полнотой для обучения современных нейросетевых архитектур.
III. Скрытые параметры и проблема воспроизводимости
Любой химический эксперимент и последующая характеризация – это многофакторный процесс, результат которого определяется не только составом реагентов, но и условиями их взаимодействия и анализа. В научной периодике укоренилась традиция опускать детали, которые авторы считают «второстепенными»: геометрию реактора, динамику перемешивания, степень дисперсности фаз, особенности подготовки образцов. Однако ещё более существенный пробел кроется в доминирующей парадигме построения хемоинформатических баз данных, которая сводится к упрощённой связке «химическая структура – числовое значение свойства». В таких репозиториях практически никогда не фиксируются методики измерения (протоколы калибровки, тип оборудования, скорости сканирования) и макроструктурные характеристики материалов, радикально влияющие на итоговые показатели. Например, один и тот же полимерный класс может демонстрировать совершенно разные механические, термические или барьерные свойства в зависимости от молекулярно-массового распределения, степени кристалличности, ориентации макромолекул или истории термообработки. Для эксперта эти нюансы часто подразумеваются в контексте задачи, но для алгоритма машинного обучения они превращаются в неучтённые скрытые переменные. Отсутствие таких метаданных в обучающих выборках вносит систематический шум, нарушает воспроизводимость и резко снижает прогностическую способность моделей. Даже крупные открытые базы, собранные с высоким качеством, оказываются недостаточными для построения надежных моделей, поскольку работают с контекстно-обеднёнными значениями свойств. Это означает, что существующие репозитории должны быть не просто пополнены новыми записями, а существенно дополнены протоколами измерений и параметрами микроструктуры, извлекаемыми из первоисточников.
IV. Асимметрия публикаций: «ошибка выжившего» в науке
Одной из самых серьезных преград для обучения качественных моделей является дисбаланс данных, вызванный тем, что в научной среде принято обнародовать лишь истории успеха: синтез новых соединений с выдающимися свойствами или достижение рекордных показателей эффективности.
Огромный массив отрицательных результатов – неудавшихся реакций, нестабильных фаз, неэффективных катализаторов и т.д. – остается в лабораторных журналах и никогда не попадает в открытый доступ. Это создает искаженную картину мира для алгоритмов машинного обучения. Модели, обученные исключительно на позитивных примерах, демонстрируют слабую предсказательную силу в реальных условиях, поскольку они не знакомы с границами применимости методов и не понимают, какие факторы ведут к неудаче. Без учета отрицательного опыта невозможно построение робастных систем, способных к адекватной экстраполяции.
Пути преодоления барьеров
Если первый вызов – фундаментальное разнообразие химических классов – является объективной реальностью, с которой хемоинформатике придется мириться, то остальные барьеры вполне преодолимы. Это подтверждается успешным опытом внедрения искусственного интеллекта в других наукоемких отраслях. Ключ к решению проблемы недостатка данных лежит в изменении путей работы с информацией.
Прежде всего, колоссальные объемы накопленных неструктурированных данных должны быть конвертированы в форматы, пригодные для машинного обучения. Этот процесс может реализовываться как через трудоемкую ручную разметку экспертами, так и с помощью активно развивающихся автоматизированных алгоритмов. Современные системы распознавания химических структур и извлечения данных из текстов (NER) постепенно превращают архив научных статей в структурированные обучающие выборки.
Что касается скрытых параметров, то здесь важно разделить прошлое и будущее. Детали исторических экспериментов и измерений, вероятно, утеряны безвозвратно, однако существующие базы данных могут и должны быть существенно дополнены. Требуется систематическое извлечение из научных статей и лабораторных протоколов не только конечных значений свойств, но и полных описаний методик характеризации, а также макроструктурных параметров материалов. Параллельно необходимо менять культуру фиксации знаний: переход к обязательной публикации экспериментальных метаданных при сдаче данных в репозитории обеспечит моделям тот уровень прозрачности, которого им сегодня не хватает. Когда хемоинформатические системы будут оперировать не абстрактной парой «структура–число», а полноценным контекстом получения результата, их предсказательная сила и воспроизводимость выйдут на качественно новый уровень.
Аналогичный подход применим и для борьбы с «ошибкой выжившего». Научное сообщество должно прийти к осознанию, что отрицательный результат или отсутствие прорыва обладают не меньшей ценностью для цифрового анализа, чем успех. Создание открытых площадок для обнародования неудачных экспериментов позволит сформировать симметричные и однородные выборки. Когда данные о границах возможного станут общедоступными, предсказательная сила хемоинформатических моделей выйдет на принципиально иной уровень.
Материал подготовили Павлов А.А., Рекут Н.А., Злобин И.С., Центр цифрового материаловедения ИОНХ РАН