В настоящее время в области энергетики и газотурбинного машиностроения в России и за рубежом приобретают все большую актуальность проблемы экологического мониторинга, повышение надежности и эффективности систем контроля выбросов для газотурбинных установок. Утилизация попутных нефтяных газов с использованием газовых турбин малой мощности [2, 3], воссоздание отечественного производства газовых турбин большой мощности [4] поднимают на новый уровень вопросы, касающиеся не только измерения и контроля фактических выбросов вредных веществ в окружающую среду [1, 5], но и прогнозирования интенсивности таких выбросов.
В продуктах сгорания газа основными токсичными веществами являются оксиды азота (для них будет использоваться обозначение NOx, как суммарное количество монооксида азота NO и диоксида азота NO2), из продуктов неполного сгорания обычно выделяют: оксид углерода (СО), углеводороды, альдегиды, сажу. В странах Европейского союза согласно директиве о промышленных выбросах [6], которая вступила в силу в 2016 году, концентрации газов CO и NOx должны непрерывно измеряться для каждой установки сжигания, превышающей общую мощность 100 МВт. Системы прогнозного мониторинга выбросов являются важными инструментами для проверки и поддержки дорогостоящих систем непрерывного мониторинга выбросов, применяемых на газотурбинных электростанциях. Для построения систем прогнозного мониторинга необходимы соответствующие экологически достоверные данные.
Для построения модели был использован открытый набор данных из репозитория Калифорнийского университета [7]. Данные охватывают 5 лет (с 2011 по 2015 гг.) и включают в себя 36 733 последовательности переменных. На рисунке 1 показана схема расположения датчиков, фиксирующих значения входных и выходных переменных.
Собранные данные содержат среднечасовые измерения девяти входных параметров, из которых можно выделить 3 переменные, характеризующие состояние окружающей среды, 6 переменных, характеризующих технологический процесс, и два целевых показателя – объемы выбросов CO и NOx. Подробно контролируемые переменные приведены в Таблице 1. В работе [8] был дан первоначальный статистический анализ данных, исследованы параметры нейронной сети, построенной на основе ELM (Extreme Learning Machines), приведены результаты, полученные для этой модели и модели на основе алгоритма случайного леса (RF, Random Forest). Авторы используют два показателя качества моделей – модуль среднего отклонения (MAE) и коэффициент детерминации (R2). Лучшие из полученных в работе [8] модели имеют MAE=0.97, R2=0.56 для выбросов CO и MAE=4.57, R2=0.67 для выбросов NOx. Представленный набор данных послужил стимулом исследовать другие методы машинного обучения и попробовать получить модели с лучшими прогнозными качествами.
Особенностью данного набора данных является достаточно длительный срок сбора данных – 5 лет. На протяжении этого времени неоднократно проводилось профилактическое обслуживание или ремонт оборудования, могли существенно измениться технологические режимы работы турбины. Поэтому был поставлен вопрос о проведении анализа данных с тем, чтобы установить наличие существенных изменений статистических характеристик каждого показателя. На Рисунке 2 приведены 3 графика boxplot для выработанной энергии и выбросов СО и NOx по годам. Горизонтальная красная линия соответствует медианным значениям, горизонтальные синие линии показывают нижний (25%) и верхний (75%) квартили. Из приведенных графиков можно увидеть, что в 2014–2015 гг. произошло снижение выбросов оксида азота, причем это снижение не может быть объяснено уменьшением выработки энергии. Поэтому был сделан вывод, что для исследования моделей прогноза выбросов NOx следует разделить набор данных и исследовать результаты, обучая и тестируя модели отдельно на данных 2011–2013 гг. и на данных 2014–2015 гг. На графиках на Рисунке 2 красными маркерами отмечены резко выделяющиеся, как в большую, так и в меньшую сторону, значения наблюдений. Выбросы оксида углерода в ряде случаев могут увеличиваться в десятки раз по сравнению с медианным значением. Объем выбросов оксида азота больше по абсолютной величине, их максимальное увеличение превышает медианное значение в 1.5–2 раза. Был проведен анализ соответствующих технологических параметров, чтобы исключить возможные ошибки в измерении или фиксации значений переменных, так как в исследуемой задаче наибольшую важность имеет правильное предсказание именно резкого роста выбросов СО и NOx. Анализ показал, что резкий рост выбросов связан с изменением параметров технологического процесса, набор данных не содержит грубых ошибок, которые должны быть исключены при работе с данными.
Для прогнозирования были построены три модели: на основе алгоритмов случайного леса, градиентного бустинга и нечеткой нейронной сети. Предлагаемые подходы позволили сократить среднюю ошибку прогноза для выбросов NOx до MAE=2.91, R2=0.82.
Следует отметить, что модели, построенные в результате применения большинства методов машинного обучения, представляют собой некий «черный ящик» - получаемые зависимости не являются прозрачными, обработка большого объема данных не приводит к формулировке закономерностей в аналитическом виде, периодически у специалистов-технологов возникают вопросы об интерпретации результатов построения моделей. Чтобы получить более прозрачный результат, было решено построить модель на основе метода символьной регрессии. Преимуществом этого метода является возможность получить модель в виде аналитической зависимости, причем вид зависимости определяется непосредственно в ходе работы генетического алгоритма. К недостаткам метода следует отнести долгое время работы алгоритма в случае большого числа входных переменных, необходимость экспериментов с выбором настроечных параметров. Символьная регрессия оказалась эффективным методом решения ряда задач, согласно публикациям зарубежных авторов [9, 10, 11], но пока не нашла широкого применения для решения задач нефтегазовой отрасли в России. Построение символьной регрессии основывается на методологии генетических алгоритмов. Аналитическая зависимость представляется как хромосома, формируемая из набора генов, в который входят переменные, арифметические операции, функции, константы. Любую аналитическую зависимость можно представить в форме постфиксной записи, когда операнды расположены перед знаками операций. Такая форма представления позволяет избежать использования скобок в выражении. Выражение читается слева направо, когда в выражении встречается знак операции, выполняется соответствующая операция над двумя последними операндами. Ниже приведен пример двух выражений в традиционной форме и в постфиксной записи.
Чтобы получить аналитическое выражение, наилучшим образом соответствующее имеющимся данным, на начальном этапе определяется набор генов (в рассматриваемом примере в него были включены операции сложения, вычитания, умножения, деления, возведения в степень, унарный минус, экспонента, логарифмическая функция, набор переменных x1, x2, x3, x4, случайные числа), из набора генов случайным образом формируется популяция хромосом. Для каждой хромосомы для всего набора данных обучающей выборки определяется функция приспособленности G как сумма квадратов отклонений рассчитанных по этой формуле значений от известных значений целевой переменной:
где x1i, x2i, …, xni – значения объясняющих переменных для i-ой записи обучающей выборки, yni – известное значение целевой переменной для i-ой записи обучающей выборки, n – объем обучающей выборки, j – номер хромосомы.
В соответствии с эволюционным принципом выживания наиболее приспособленных особей, с помощью функции G определяется степень приспособленности конкретных особей в популяции, что позволяет выбрать из них наиболее приспособленные (т.е. имеющие максимальные значения функции приспособленности). Поскольку при решении задачи должны быть получены минимальные отклонения расчетных значений от известных, перед знаком суммы необходим знак “-“.
Далее реализуется этап селекции (выбор из хромосом выбираются особей-родителей) и этап скрещивания (другое название - кроссовер) – для двух хромосом-родителей определяется точка разрыва и формируется две новые хромосомы-потомки, содержащие фрагменты каждого из родителей. Пример операции скрещивания приведен ниже.
Таким образом, в результате скрещивания будут получены новые хромосомы-формулы, которые в традиционной записи имеют вид:
Следующий шаг генетического алгоритма – операция мутации – состоит в том, что с некоторой вероятностью может произойти изменение случайно выбранного в хромосоме гена, например, любая арифметическая операция в выражении может быть заменена на другую арифметическую операцию, или переменная может быть заменена на другую переменную. Пример применения операции мутации к потомкам FF1 и FF2 показан ниже
Далее вычисляются функции приспособленности Gj для новых хромосом и формируется новая популяция, которая включает в себя часть поколения родителей и потомков с лучшими значениями функции приспособленности. Описанная процедура повторяется, до тех пор, пока не будет сформировано заранее определенное число поколений или пока не наступит схождение популяции - состояние популяции, когда ни операция кроссовера, ни операция мутации в течение нескольких поколений не вносят изменений в генетическое разнообразие популяции. В качестве решения задачи выбирается особь с лучшим значением функции приспособленности из последней популяции. Подробно описание генетического алгоритма, видов селекции и других особенностей применения метода можно найти в [12, 13, 14]. Для приведения объясняющих переменных к безразмерному виду и выравнивания масштаба изменения признаков была использована процедура стандартизации
где – стандартизованное значение i-oго признака, – среднее значение i-го признака, вычисленное по обучающей выборке, – стандартное отклонение для i-го признака, вычисленное по обучающей выборке.
Показатели качества полученной с применением символьной регрессии модели для прогнозирования выбросов СО примерно соответствовали представленным в работе [8]. Для улучшения качества модели прогноза выбросов CO было принято решение построить модель выбросов для режимов, близких к стандартным (при которых выбросы не превышают 4 мг/м3) и для режимов, приводящих к экстремальным значениям выбросов (более 4 мг/м3), а для определения ситуаций, приводящих к экстремально высоким выбросам CO, построить классификационную модель. Формулы, полученные с помощью генетических алгоритмов, для прогноза объема выбросов СО для стандартных Fst и экстремальных Fextr режимов показаны ниже
При построении классификационной модели алгоритм по значениям входных переменных определяет ситуацию, как приводящую к экстремальным выбросам, или к стандартным. Следует отметить, что классы достаточно сильно отличаются по объему – к экстремальным может быть отнесено примерно 10% имеющихся в распоряжении данных. Четкое разграничение на 2 класса в рассматриваемом случае имеет серьезный недостаток – набор входных переменных, для которого зафиксировано значение выброса СО 3.95 мг/м3, попадает в класс стандартных выбросов, а набор переменных, для которого зафиксировано значение выброса СО 4.05 мг/м3, должен быть отнесен к классу экстремальных выбросов. Этот недостаток можно преодолеть, используя методологию нечеткой логики. Основные ее положения представлены в работах [15, 16], примеры применения методов нечеткой логики к решению ряда задач нефтегазовой отрасли можно найти в [17]. При нечеткой классификации степень принадлежности каждому классу μst и μextr может быть определена числом от 0 до 1.
Для построения нечеткой классификационной модели необходим набор правил, согласно которым по значениям входных переменных будут определены степени принадлежности каждому классу. Анализ входных переменных для наборов данных, отнесенных к разным классам (гистограммы значений переменных GTEP и TIT приведены на Рисунке 3), показал, что для разных классов существуют достаточно широкие перекрывающиеся интервалы значений переменных.
Для показанных на Рисунке 3 переменных правила для модели нечеткой классификации могут быть сформулированы следующим образом:
если давление GTEP «Низкое», то класс «Экстремальный»
если температура TIT не «Высокая», то класс «Экстремальный»
Всего было сформулировано 6 правил: в качестве предикторов рассматривались входные переменные и их комбинации, определенные в ходе процедуры символьной регрессии, представленные в формуле (2). То есть для экстремального класса был проведен анализ комбинаций GTEP2∙TAT, TET∙exp(TIT), AFDP∙TIT и других слагаемых, которые входят в формулу (2) для определения экстремальных выбросов. Таким образом, для каждого набора входных данных будут вычислены значения mi (где i соответствует номеру правила), определяющие степень принадлежности комбинации входных значений классу экстремальных или стандартных выбросов. Влияние разных входных переменных нельзя считать в равной степени значимым, следовательно, для каждого правила должен быть введен весовой коэффициент wi, определяющий вклад правила в принятие верного решения. Итоговое значение степени принадлежности каждому классу будет определено как
где mst i, mext i – значение функции принадлежности соответствующему классу для вектора входных данных в i-ом правиле, n – число правил, wi – вес i-го правила.
Разделение на термы «Низкое» и «Высокое» значений каждого параметра, входящего в правило, и определение веса wi соответствующего правила происходит в результате решения оптимизационной задачи. Для выделения термов переменной, влияющей на отнесение набора данных к классу «Стандартный» или «Экстремальный», необходимо определить значения параметров A и B функций принадлежности (параметры показаны на Рисунке 4), которые задают разделение значений переменной на нечеткие подмножества.
Качество классификационной модели может быть определено показателем F–мера F1:
где TP – число наборов входных данных, для которых верно определен класс «Стандартный»;
FP – число наборов входных данных, которые отнесены к классу «Стандартный», но принадлежат классу «Экстремальный»;
FN – число наборов входных данных, которые отнесены к классу «Экстремальный», но принадлежат классу «Стандартный».
При подсчете значений TP, FP, FN для обучающей и тестовой выборок набор входных переменных считался принадлежащим экстремальному классу, если степень принадлежности μext имела значение не ниже 0.5.
Таким образом, необходимо определить значения параметров Ai, Bi и весовых коэффициентов wi для каждого правила, которые обеспечивают максимум показателя F1 для обучающей выборки при соблюдении ограничений
где Xi – нормированные значения входной переменной или комбинации входных переменных, входящей в i правило, k – число правил.
Для решения этой задачи был использован генетический алгоритм многомерной оптимизации. В этом случае в качестве генов рассматриваются значения параметров Ai, Bi и весовых коэффициентов wi, i = 1, …, k, их сочетание формирует хромосому, в качестве функции приспособленности используется F-мера F1. Таким образом был получен набор параметров системы нечеткого вывода, который обеспечивает максимальное значение F-меры F1 для обучающей выборки, с его помощью можно определить степени принадлежности μst, μext каждому из классов для любых значений входных переменных. Взаимодействие разработанных моделей представлено на блок-схеме на Рисунке 5.
Метрики качества полученной модели для прогноза выбросов СО: MAE = 0.27 мг/м3, R2 = 0.89 значительно превосходят приведенные в работе [8]. Следует отметить, что работа велась со среднечасовыми измерениями, увеличение частоты сбора параметров позволит улучшить качество прогноза.
Заключение
На основе анализа большого объема фактических данных из открытого источника [7] построены модели на основе метода символьной регрессии для прогноза объема выбросов NOx и CO по значениям параметров окружающей среды и технологического процесса. Традиционные модели анализа данных для построения прогнозных моделей предполагают исследование эффективности применения отдельных методов машинного обучения (например, алгоритма случайного леса, градиентного бустинга и др.) для имеющегося набора данных. Для получения моделей с хорошими прогнозными свойствами, основанных на большом объеме реальных данных, недостаточно выбрать единственный подходящий метод машинного обучения, необходим комплексный анализ данных и построение комплекса моделей, учитывающих особенности имеющегося набора данных и технологического процесса или объекта. Результаты анализа данных и реализации различных алгоритмов машинного обучения были представлены на конференциях [18, 19] и в статьях [20, 21].
В данной статье представлен оригинальный подход к комплексному использованию алгоритмов машинного обучения, включающий двухступенчатую процедуру, где на первом шаге применяется модель классификации, позволяющая качественно определить объем выбросов через нечеткие термы «Стандартный» или «Экстремальный», а на втором шаге с помощью моделей, полученных на основе процедуры символьной регрессии, определяется количественное значение объема выбросов CO.
В работе предложена нечеткая классификационная модель, которая определяет ситуации, приводящие к резкому увеличению выбросов СО. Для определения параметров функций принадлежности предложено использовать оптимизационную процедуру на основе генетического алгоритма.
Разработанные модели могут использоваться для контроля выбросов, выявления сбоев в работе датчиков, замеряющих соответствующие показатели, прогнозирования технологических режимов, приводящих к увеличению выбросов.
Представленная работа является одним из примеров эффективного использования методов интеллектуального анализа данных для решения актуальных задач нефтегазовой отрасли. К работе над такими задачами привлекаются студенты, обучающиеся на кафедре прикладной математики и компьютерного моделирования РГУ нефти и газа (НИУ) имени И. М. Губкина. В настоящее время на кафедре прорабатывается проект создания собственного репозитория открытых данных для исследований в области машинного обучения и анализа данных применительно к специфике задач нефтегазовой отрасли.