USD 80.5268

-0.16

EUR 93.3684

-1.09

Brent 66.42

-0.27

Природный газ 2.801

-0.01

14 мин
944

Применение моделей машинного обучения для оценки липофильности соединений, используемых в нефтехимии

Цель исследования – применение моделей машинного обучения для предсказания липофильности органических соединений в нефтехимии. Используя фингерпринты молекул (Morgan, RDKit, Topological) и химические дескрипторы, разработана модель на базе XGBoost для прогнозирования значений LogP, что важно для создания эффективных присадок и катализаторов, а также для оценки взаимодействия веществ с углеводородными средами. Для нефтехимической отрасли это важно, так как знание липофильности помогает оптимизировать разработку новых химических добавок, улучшать процессы катализа, а также контролировать взаимодействие веществ с углеводородными средами. Это ускоряет процесс разработки, повышает эффективность переработки нефти и снижает экологические риски, связанные с накоплением вредных веществ. Методология включает предобработку данных, очистку SMILES-формул и объединение молекулярных признаков. Модель продемонстрировала высокую точность, с R² = 0,81, что свидетельствует о ее эффективности в задаче предсказания липофильности.

Применение моделей машинного обучения для оценки липофильности соединений, используемых в нефтехимии

Ключевые слова: липофильность, машинное обучение, нефтехимия, фингерпринты молекул, химические дескрипторы, присадки, катализаторы, углеводородные среды.

Липофильность – это химическое понятие, которое обозначает способность вещества растворяться в неполярных средах. Этот показатель является одним из важных в разработке новых химических веществ, например, присадки и катализаторы, которые влияют на эффективность процессов переработки нефти – улучшение качества конечного продукта. В нефтехимии липофильность определяет взаимодействие молекул с углеводородными средами, что необходимо для оптимизации различных технологических процессов, включая крекинг, гидроочистку и синтез новых химических соединений [1]. Однако традиционные методы определения липофильности требуют больших временных затрат и ресурсов. Это ограничивает возможности быстрого выбора и разработки новых эффективных материалов, предназначенных для применения в нефтехимической сфере. Рассмотрим наиболее частые применимые методы оценки.

Одним из основных подходов для оценки липофильности веществ является метод «встряхивания в колбе» (Shake-flask). Этот метод основан на распределении вещества между двумя несмешивающимися растворителями [1]. В качестве липофильной фазы обычно используют н-октанол, а для гидрофильной фазы – бидистиллированную воду [10]. Процесс заключается в том, что исследуемое вещество добавляется в смесь этих растворителей, после чего смесь встряхивается, что позволяет веществу перераспределиться между фазами в зависимости от его растворимости в каждой из них. Липофильность вещества определяется как логарифм коэффициента распределения между н-октанолом и водой, который позволяет оценить степень его растворимости в углеводородных средах. Этот метод эффективен для веществ, логарифм их коэффициента распределения (logP) не превышающий 4, что делает его особенно полезным для анализа маломолекулярных органических соединений с умеренной липофильностью (рис. 1) [1].

Следующим важным методом является спектрофотометрический метод, который представляет собой физико-химическую технику исследования веществ через изучение их спектров поглощения в ультрафиолетовой, видимой и инфракрасной областях спектра. Спектрофотометрия позволяет экспериментально определять логарифм коэффициента распределения вещества между органическим растворителем и водой [2]. Этот метод основывается на различии в поглощении света молекулами веществ в разных областях спектра, что связано с их структурой и полярностью. Для определения logP используют так называемые растворимые в органических растворителях вещества, которые характеризуются определенными спектральными особенностями, позволяющими точно измерить их коэффициент распределения.

Последний, наиболее применяемый в лабораториях – это метод высокоэффективной жидкостной хроматографии (ВЭЖХ) представляет собой ускоренную альтернативу вышеописанным методам. ВЭЖХ позволяет быстро и точно определить коэффициент распределения вещества, сравнив его время удерживания с таковыми для веществ, значение logP которых уже известно. В процессе хроматографического анализа исследуемое вещество проходит через колонку с неподвижной фазой, а время его удерживания зависит от его взаимодействия с ней. В результате, сопоставив время удерживания исследуемого вещества с аналогичными значениями для других веществ с известным коэффициентом распределения, можно рассчитать значение logP для неизвестного вещества [2]. Этот метод высокоэффективен, поскольку позволяет проводить анализ в ускоренном режиме и с высокой точностью, что делает его полезным для анализа широкого спектра веществ, включая те, которые имеют сложные или неочевидные химические свойства. Принципиальная схема применения данного метода представлена на рис. 2.

Влияние рассматриваемого параметра на процессы переработки нефти является важным аспектом, поскольку она напрямую определяет способность углеводородных соединений взаимодействовать с различными фазами в процессе переработки и создания нефтехимической продукции. Напомним, липофильность – это свойство вещества растворяться в неполярных растворителях (углеводороды), что влияет на его поведение в различных технологических процессах переработки нефти. Одним из наиболее важных процессов, где ее определение имеет актуальность, является процесс крекинга. Крекинг – это процесс разложения сложных углеводородных молекул нефти на более простые. Липофильные соединения проявляют лучшие свойства в крекинге, поскольку они легко растворяются в углеводородной среде и участвуют в реакции с катализаторами, что способствует эффективному получению низкомолекулярных продуктов. Напротив, полярные соединения, например, сероорганические вещества, имеют менее выраженную липофильность и могут снижать эффективность крекинга, так как они хуже растворяются в углеводородной фазе и не взаимодействуют с катализатором так эффективно, как липофильные молекулы [3].

Липофильность также оказывает влияние на гидроочистку нефти, которая используется для удаления серы, азота и других нежелательных примесей. В процессе гидроочистки углеводороды взаимодействуют с водородом в присутствии катализатора, что позволяет удалить сероорганические соединения, при этом липофильность вещества определяет его способность участвовать в реакции. Данные соединения, как правило, легче реагируют с водородом, образуя более легкие углеводороды, что способствует эффективному удалению серы и других примесей, однако полярные вещества, например, кислородсодержащие соединения, могут мешать реакции и уменьшать эффективность процесса гидроочистки [2].

С другой стороны, каталитический риформинг, который используется для улучшения качества бензина, также зависит от липофильности углеводородов. В этом процессе длинные углеводородные цепочки с высокой липофильностью подвергаются переработке на катализаторе, что позволяет получать более ценные и качественные компоненты для бензина. Липофильные углеводороды взаимодействуют с катализатором более эффективно, чем полярные, что делает процесс более продуктивным и экономически выгодным. При этом, если в нефти присутствуют полярные компоненты, это может снизить эффективность риформинга, так как они не участвуют в реакции с катализатором на должном уровне. Важное влияние липофильность оказывает и на создание добавок и присадок для улучшения эксплуатационных характеристик нефтепродуктов. Например, в нефтехимии часто разрабатываются присадки, которые помогают улучшить текучесть нефти, предотвратить образование парафинов или повысить октановое число бензина [2]. Эти присадки должны обладать высокой липофильностью, чтобы эффективно растворяться в углеводородной среде, что способствует их равномерному распределению в топливе или других продуктах переработки нефти. Низкая липофильность может привести к образованию осадков или неравномерному распределению добавок, что снижает эффективность их воздействия.

Изучив области применения, можно сказать, что определение липофильности непосредственно влияет на эффективность всех этапов переработки нефти: крекинг, гидроочистку, риформинг, разработку присадок. Определение липофильности соединений, участвующих в переработке, позволяет более точно контролировать технологические процессы, повышать их эффективность и снижать затраты на переработку [5]. В условиях современного производства нефтехимии, где важно минимизировать экологические риски и повысить выход качественной продукции, знание липофильности становится необходимым инструментом для оптимизации всех этапов переработки нефти. Современные подходы, основанные на применении машинного обучения, открывают новые горизонты в предсказании липофильности веществ, что ускоряет процесс разработки и выбора материалов, особенно при создании новых химических соединений и сорбентов [9].

В данном исследовании для предсказания липофильности органических соединений использовались данные, состоящие из молекулярных структур и значений коэффициента распределения (LogP) для ряда химических соединений. Эти данные представляют собой набор молекул, каждая из которых описана в виде SMILES (Simplified Molecular Input Line Entry System) – строки, представляющей собой текстовую запись структуры молекулы (рис. 3) [4].

Значения LogP, которые служат целевыми переменными в задачах машинного обучения, характеризуют степень растворимости вещества в неполярных растворителях, таких как н-октанол, относительно растворимости в воде [10]. Это важный параметр, определяющий поведение вещества в углеводородных средах, таких как нефть и нефтепродукты. Эти данные были предварительно собраны и структурированы в таблицы, где для каждого химического соединения был указан его SMILES-код и соответствующее значение LogP.

Предобработка данных является важным этапом, поскольку качественные и чистые данные являются залогом успеха любой модели машинного обучения. Процесс предобработки данных в данном исследовании включал несколько этапов, направленных на очистку и преобразование данных в формат, пригодный для анализа и обучения модели. Первоначальные данные содержат SMILES-строки, которые могут быть представлены в разных форматах или с ошибками [8]. Одной из важнейших задач является приведение этих строк к каноническому виду, что позволяет избежать неоднозначности в представлении молекул. Канонизация SMILES заключается в преобразовании их в стандартную форму, что исключает возможность нескольких представлений одной и той же молекулы [6]. В случае если SMILES-код молекулы не может быть интерпретирован или является некорректным, такие молекулы исключаются из дальнейшего анализа. Для этого был реализован метод, который использует функцию Chem.MolFromSmiles из библиотеки RDKit для обработки строк SMILES и их последующей канонизации с помощью функции Chem.MolToSmiles. Если молекула невалидна, она исключается из набора данных. В ходе предобработки были удалены дубликаты молекул с одинаковыми SMILES-кодами, поскольку наличие одинаковых молекул в наборе данных может привести к избыточной информации, которая не даст дополнительного вклада в обучение модели. Дубликаты выявляются на основе идентичных SMILES-строк, и после их удаления сохраняются только уникальные молекулы.

Для каждой молекулы в наборе данных генерируются молекулярные фингерпринты, которые являются числовыми представлениями структуры молекулы. Фингерпринты служат важным входным признаком для машинных моделей и позволяют алгоритмам эффективно работать с молекулярной информацией.

В рамках данной работы были использованы три типа фингерпринтов:

- Morgan-фингерпринты (или ECFP) – наиболее распространенный тип фингерпринтов, который строится на основе информации о соседних атомах и связях. Он позволяет эффективно «захватывать» топологические особенности молекул [7].

- RDKit-фингерпринты, которые учитывают более широкие топологические характеристики молекул и их взаимодействие с растворителями.

- Топологические фингерпринты, которые оценивают молекулярные структуры с точки зрения их геометрии и конформации [11].

Генерация фингерпринтов для каждой молекулы выполняется с помощью методов из библиотеки RDKit. Эти фингерпринты затем используются как признаки для обучения модели машинного обучения.

Помимо фингерпринтов, для каждой молекулы также вычисляются химические дескрипторы, которые представляют собой числовые характеристики молекул, такие как молекулярный вес, индекс рефракции, количество атомов углерода, водорода и другие структурные характеристики. Эти дескрипторы предоставляют дополнительную информацию о молекуле, которая может быть полезна для предсказания ее липофильности [7]. В рамках предобработки для каждого SMILES-кода молекулы вычисляются более 100 различных химических дескрипторов. Полученные значения дескрипторов затем используются в качестве дополнительных признаков для модели. После генерации фингерпринтов и вычисления дескрипторов важно отобрать только те признаки, которые наиболее сильно влияют на целевую переменную, в данном случае – значение LogP. Для этого используется метод отбора признаков на основе важности (например, с использованием XGBoost или других методов отбора). Это позволяет исключить из модели неинформативные или коррелированные признаки, улучшая ее точность и эффективность (рис. 4).

На рисунке 4 представлена матрица корреляции топ-25 признаков по важности, отобранных на основе вкладов в модель машинного обучения для предсказания липофильности (LogP). Каждый элемент матрицы отражает степень линейной зависимости между двумя признаками, вычисленную по коэффициенту Пирсона. Значения корреляции варьируются от -1 (полная отрицательная связь) до +1 (полная положительная связь), что визуализировано с помощью цветовой шкалы: от синего (отрицательная или слабая связь) до красного (сильная положительная связь). Анализ матрицы показывает, что подавляющее большинство признаков слабо коррелируют между собой, что свидетельствует об их взаимной независимости и обоснованности включения в модель как самостоятельных источников информации [11]. Наибольшая корреляция наблюдается между признаками FP_1383 и FP_1138 (коэффициент 0,42), что может свидетельствовать о частичном дублировании структурной информации между этими фингерпринтами. Остальные корреляционные связи находятся в диапазоне от -0,04 до 0,31, что говорит об отсутствии мультиколлинеарности и, следовательно, о стабильности модели при обучении. Таким образом, визуализация подтверждает, что отобранные признаки являются статистически информативными и не избыточными, что положительно влияет на обобщающую способность модели и ее интерпретируемость в контексте оценки липофильности веществ. Помимо этого, проводилась проверка корреляции ключевых признаков с целевой переменной LogP, установлено, что удаление сильнокоррелирующих признаков (например MolLog) только ухудшают точность модели, поэтому их исключать нельзя. Также перед проведением обучения было установлено, что многие молекулы были неадекватно соотнесены с их фактическим LogP, чтобы этого избежать, на тренировочных данных экспериментальным путем были подобраны оптимальные границы целевого параметра, установлено, что он должен находиться в диапазоне от -1,9 до 9 при тестирования на независимом тестовом наборе данных, который программа еще не видела (рис. 5, 6).

После предобработки данные были разделены на обучающую и тестовую выборки. Обычно выборка делится в пропорции 70 % на 30 %, где 70 % данных используется для обучения модели, а оставшиеся 30 % – для ее тестирования. Такое разделение позволяет оценить эффективность модели на независимом наборе данных, не использованном в процессе обучения [9].

Оценка эффективности разработанной модели проводилась на валидационной выборке, составляющей 30 % от всего объема исходных данных. Для построения модели использовался градиентный бустинг на деревьях решений (алгоритм XGBoost), обученный на расширенном наборе признаков, включающем молекулярные фингерпринты и химические дескрипторы, извлеченные из структуры молекул. Было проведено 50 испытаний через фреймворк Optuna, где были подобраны идеальные для модели гиперпараметры, для того чтобы точность была наибольшей.

Результаты оценки показали, что модель обладает высокой предсказательной способностью:

1. Среднеквадратичная ошибка (MSE): 0,715.

2. Коэффициент детерминации (R²): 0,811.

Значение R² = 0,81 свидетельствует о том, что более 81 % дисперсии значений липофильности (LogP) объясняется моделью. Это указывает на высокую точность предсказания и хорошее соответствие между реальными и прогнозируемыми значениями. При этом относительно низкое значение MSE подтверждает, что отклонения предсказаний от фактических значений невелики и находятся в допустимых пределах. На представленном графике (рис. 5) визуализирована динамика изменения метрик качества в зависимости от числа используемых признаков. По оси X отложено количество признаков (от 10 до 1000), а по оси Y – соответствующие значения ошибки (MSE) и точности (R²).

Анализ графика позволяет сделать несколько важных наблюдений. При использовании менее 100 признаков модель демонстрирует пониженные значения R² и завышенные значения ошибки – это связано с недостаточной полнотой входных данных.

В диапазоне от 100 до 400 признаков наблюдается улучшение метрик: ошибка стремительно снижается, а точность – растет, достигая плато. После 400 признаков кривые метрик стабилизируются: R² стабилизируется в районе 0,81, а MSE удерживается в интервале от 0,70 до 0,72, что говорит об оптимальном насыщении признакового пространства. Добавление дополнительных признаков свыше 500 практически не дает прироста точности, что свидетельствует о достижении «точки насыщения» модели и позволяет избежать избыточности.

В ходе данного исследования был разработан метод для предсказания липофильности органических соединений с применением машинного обучения, применяемых в нефтехимической промышленности. Для этого использовались молекулярные фингерпринты и химические дескрипторы, которые были преобразованы в числовые признаки для последующего обучения модели. Основой модели стал алгоритм градиентного бустинга XGBoost, который продемонстрировал высокую эффективность при решении задачи предсказания значений LogP. Результаты моделирования показали, что модель достигает высоких значений коэффициента детерминации (R² = 0,81), что свидетельствует о хорошем соответствии предсказанных и реальных значений липофильности. На графике, демонстрирующем зависимость точности и ошибки от количества признаков, наблюдается, что использование более 400 признаков не приводит к значимому улучшению, что подтверждает правильность выбора оптимального набора признаков для обучения модели. Предсказание липофильности с помощью машинного обучения представляет собой эффективный инструмент для разработки и оптимизации химических веществ, используемых в нефтехимии: катализаторы, присадки и сорбенты. Результаты исследования подтверждают, что такие методы позволяют ускорить процесс разработки новых материалов и улучшить качество продукции, одновременно снижая затраты на экспериментальные исследования.

Литература

  1. Андреева, Е. П. Липофильность органических соединений, рассчитанная с использованием структурного сходства и молекулярных физико-химических дескрипторов / Е. П. Андреева, О. А. Раевский // Химико-фармацевтический журнал. 2009. Т. 43, № 5. С. 28–32.
  2. Кировская И.А., Нор П.Е., Ратушный А.А. Оценка параметров липофильности для определения физико-химических свойств биологически активных молекул // ОмГТУ. 2014. № 3. (дата обращения: 05.04.2025).
  3. Пякилля, Б.И. Оценивание липофильности с помощью байесовских нейронных сетей / Б.И. Пякилля, В.И. Гончаров // Известия Тульского государственного университета. Технические науки. 2022. № 9. С. 288–292.
  4. Пякилля, Б.И. Особенности разработки полносвязных нейросетей для решения задачи оценивания липофильности органических соединений / Б.И. Пякилля, В.И. Гончаров // Доклады ТУСУР. 2024. Т. 27, № 1. С. 86–94.
  5. Chen, H.-F. In silico log P prediction for a large data set with support vector machines, radial basis neural networks and multiple linear regression / H.-F. Chen // Chemical Biology & Drug Design. 2009. Vol. 74, № 2. P. 142–147.
  6. Chen, Y.-K. MRlogP: Transfer Learning Enables Accurate logP Prediction Using Small Experimental Training Datasets / Y.-K. Chen, S. Shave, M. Auer // Processes. 2021. Vol. 9, № 11. С. 2029.
  7. Datta, R. Efficient lipophilicity prediction of molecules employing deep-learning models / R. Datta, D. Das, S. Das // Chemometrics and Intelligent Laboratory Systems. 2021. Vol. 213. P. 104309.
  8. Isert, C. Machine Learning for Fast, Quantum Mechanics-Based Approximation of Drug Lipophilicity / C. Isert, J. C. Kromann, N. Stiefl, G. Schneider, R. A. Lewis // ACS Omega. 2023. Vol. 8, № 2. С. 2046–2056.
  9. Lu, G.-N. Estimation of n-octanol/water partition coefficients of polycyclic aromatic hydrocarbons by quantum chemical descriptors / G.-N. Lu, X.-Q. Tao, Z. Dang, X.-Y. Yi, C.-L. Yang // Open Chemistry. 2008. Vol. 6, № 2. P. 310–318.
  10. Tetko, I.V. Prediction of n-octanol/water partition coefficients from PHYSPROP database using artificial neural networks and E-state indices / I.V. Tetko, V.Yu. Tanchuk, A.E.P. Villa // Journal of Chemical Information and Computer Sciences. 2001. Vol. 41, № 5. P. 1407–1421.
  11. Yao, X.-J. Comparative study of QSAR/QSPR correlations using support vector machines, radial basis function neural networks, and multiple linear regression / X.-J. Yao, A. Panaye, J.-P. Doucet и др. // Journal of Chemical Information and Computer Sciences. 2004. Vol. 44, № 4. P. 1257–1266.


Статья «Применение моделей машинного обучения для оценки липофильности соединений, используемых в нефтехимии» опубликована в журнале «Neftegaz.RU» (№6, Июнь 2025)

Авторы:
890897Код PHP *">
Читайте также