Машинное обучение для механизированной добычи нефти - Добыча

Развитие механизированной добычи нефти в последние годы сопровождается значительными достижениями в сфере цифровизации. Машинное обучение, как важный элемент цифровизации, способно успешно решать многие производственные задачи. В работе описывается применение машинного обучения на примере ряда задач, возникающих в процессе контроля за работой насосного оборудования для добычи нефти.

Машинное обучение в общем случае является разновидностью искусственного интеллекта, который представляет собой способность компьютера или робота мыслить как человек, то есть понимать язык, обучаться, рассуждать, решать различные проблемы. Две основные разновидности искусственного интеллекта – экспертные системы и машинное обучение – используют различные принципы при решении задач. Экспертные системы базируются на принципе индукции (от общего к частному).

В механизированной добыче нефти именно на нем построены все основные регламентирующие документы. Машинное обучение – разновидность искусственного интеллекта, когда машина или компьютер самообучается в процессе решения задачи, и, в отличие от экспертных систем, построено на дедуктивном подходе (от частного к общему).

Основными понятиями машинного обучения являются:

• экземпляр – единичный объект наблюдения или запись (например, нефтяная скважина);

• целевая функция – числовая или категориальная переменная, отнесенная к экземпляру, являющаяся объектом поиска (в механизированной добыче нефти примерами целевой функции являются наработка на отказ – числовая переменная, прогноз отказа через 180 суток (да/нет) – категориальная переменная);

• признак – числовая или категориальная переменная, отнесенная к экземпляру, используемая для предсказания целевой функции (например, дебит жидкости – числовая переменная, наличие осложнений (да/нет) – категориальная переменная);

• обучающая выборка – набор экземпляров с известной целевой функцией, используемый для построения модели машинного обучения (например, перечень скважин с технологическими режимами и известными наработками на отказ);

• тестовая выборка – набор экземпляров, используемый для проверки качества модели машинного обучения (перечень скважин с технологическими режимами, у которых нужно спрогнозировать наработку на отказ или сказать, произойдет ли отказ в течение 6 месяцев).

Как правило, в механизированной добыче нефти большинство производственных задач, решаемых с помощью машинного обучения, сводится к двум основным типам задач при так называемом «обучении с учителем» (известная целевая функция на обучающей выборке:

• задача классификации (целевая функция дискретная, например, тип осложняющего фактора или заключение о скором отказе оборудования (да/нет));

• задача регрессии (целевая функция непрерывная, например, наработка на отказ).

Алгоритм решения задач с помощью машинного обучения состоит из следующих шагов:

• сбор и анализ исходных данных (обычно этот этап отнимает от 70 % и более времени на решение всей задачи);

• построение модели (выбор подходящей модели машинного обучения);

• оценка точности модели (на основе метрик, таких как точность, полнота, F-мера, ROC-кривая – для моделей классификации, среднеквадратичная ошибка, коэффициент детерминации – для моделей регрессии);

• оптимизация параметров модели (почти все модели имеют так называемые «настроечные» параметры, позволяющие улучшить качество прогноза);

• прогноз на новых данных (применение модели на тестовой выборке).

Ниже приводятся примеры постановок и решений некоторых задач механизированной добычи нефти, в которых методы машинного обучения находят свое применение. Следует отметить, что представленные результаты расчетов не являются окончательными (что, вообще говоря, отличает машинное обучение от классических методов решения задач, основанных на математическом моделировании) и могут быть улучшены после дообучения моделей и дополнительной очистки исходных данных.

Диагностика неисправностей штанговой насосной установки по динамограмме

Для заданной динамограммы требуется определить вид неисправности на основе оценки графической «похожести» этой неисправности на один из нескольких типов эталонных отклонений от нормальной эксплуатации (рис. 1). Решение этой задачи в промысловых условиях позволяет оптимизировать режим эксплуатации штанговой насосной установки или запланировать корректирующие мероприятия, чтобы увеличить добычу нефти и повысить наработку на отказ установки.

Задача решалась на выборке из нескольких десятков тысяч динамограмм, для каждой из которых интерпретаторами были диагностированы неисправности (одна или несколько) либо имелось заключение об отсутствии неисправностей.

Для решения задачи каждая динамограмма была оцифрована и преобразована к виду квадратной матрицы размерностью 30 30 (рис. 2). Всего было выделено около 100 статистически значимых классов отклонений, каждый из которых одновременно мог содержать до 3 типов классических отклонений (влияние газа, утечки в клапанах, высокая или низкая посадка плунжера и др.).

Вся выборка динамограмм, содержащая эти классы, была поделена на обучающую и тестовую выборки в соотношении 80 : 20. В качестве модели машинного обучения использовался многоклассовый классификатор, основанный на методе опорных векторов, при этом для каждого класса оптимизация параметров модели проводилась индивидуально. После обучения и настройки параметров модели на обучающей выборке среднее значение F-меры (метрика качества модели, сочетающая в себе полноту и точность) на тестовой выборке составило 88 %.

Следует отметить, что при диагностике неисправностей в работе штанговой насосной установки на основе анализа промысловых динамограмм имеется важный фактор, влияющий на качество обучающей выборки скважин.

Он обусловлен тем, что интерпретацией динамограмм занимаются разные специалисты и не всегда их заключения совпадают между собой, особенно если допускается наличие одновременно нескольких неисправностей. Более того, один и тот же специалист может повторно выдать иное заключение по динамограмме, которую он интерпретировал ранее.

Расчет эффективной длины хода плунжера по динамограмме

Для заданной динамограммы требуется определить эффективную длину хода плунжера на основе множественной регрессии, когда она зависит от координат точек, составляющих график динамограммы. Знание эффективной

длины хода плунжера позволяет рассчитать дебит жидкости по скважине без применения групповой замерной установки (ГЗУ), что во многих случаях (неисправность ГЗУ, недостаточная дискретность замеров дебита) является актуальной производственной задачей.

В отличие от предыдущей задачи классификации динамограмм по типам неисправностей, здесь решалась задача регрессии. Для каждой динамограммы из выборки, содержащей около 30 тысяч экземпляров, была известна эффективная длина хода плунжера, определенная интерпретаторами с помощью графических вычислений. Эта выборка разбивалась на обучающую и тестовую в соотношении 80 : 20.

В качестве модели машинного обучения использовался метод градиентного бустинга. После обучения средняя относительная ошибка в определении эффективной длины хода плунжера на тестовойвыборке составила 6 %.

Прогноз вероятности отказа установки электроцентробежного насоса (УЭЦН)

На основе истории изменения параметров технологического режима работы скважины требуется предсказать вероятность отказа на заданном временном интервале. Решение этой задачи позволяет не только оперативно реагировать на негативные изменения в работе УЭЦН на конкретной скважине, но и решать более глобальные задачи, такие как минимизация простоев из-за внеплановых капитальных ремонтов и замен УЭЦН и планирование потребности в УЭЦН для цехов добычи.

Для решения задачи была проанализирована статистика изменения параметров для более чем 40 тысяч скважин, оборудованных УЭЦН, на которых произошли отказы установок. Потребовалось провести предварительную подготовку данных, чтобы исключить некорректные значения и заполнить пропуски в данных. В качестве целевой функции был выбран индекс здоровья скважины, который показывает вероятность отказа УЭЦН в данный момент времени (рис. 3, 4).

Задача решалась с помощью нейронной сети. Все отказы были поделены на две выборки по времени, первая из которых содержала 80 % всех отказов и использовалась для обучения нейронной сети, а вторая – для оценки точности прогнозирования. По итогам расчетов выяснилось, что нейронная сеть с точностью 94 % позволяет гарантировать, что скважина не откажет в течение ближайшего месяца (индикатором отказа является снижение индекса здоровья до 20 % и ниже), однако только в одном случае из восьми позволяет верно предсказать отказ установки за это время.

Анализ показал, что одной из причин низкой прогностической способности модели является неоднородность исходных данных во времени, связанная с качеством заполнения информации в базах данных на протяжении разных лет.

На сегодняшний день точность предсказания отказов УЭЦН недостаточна для промышленного внедрения алгоритмов прогноза отказа, однако исследования в данном направлении продолжаются. При этом с учетом полученных результатов можно утверждать, что эта точность существенно выше, чем у любой статистической модели, основанной на усреднении наработок на отказ для группы скважин.

Выбор оптимальной технологии защиты от осложняющих факторов

Эта задача возникает на этапе выбора оптимальной технологии защиты для скважины, у которой наблюдаются признаки наличия одного или нескольких осложняющих факторов.

В качестве примера приведем решение задачи о выборе оптимальной технологии защиты скважин солеотлагающего фонда среди двух технологий дозирования ингибитора солеотложения: постоянное и периодическое дозирование на основе данных о технологическом режиме работы скважин.

Для решения задачи была рассмотрена сравнительно небольшая выборка из примерно 3 тысяч скважин, на которых применялись эти две технологии защиты. Предполагалось, что технологии были подобраны корректно, поэтому история работы скважин не изучалась. Было проведено выделение влияющих параметров и сравнительная оценка точности для 7 различных моделей классификации после разделения на обучающую и тестовую выборки в соотношении 70 : 30. Средняя прогностическая точность моделей составила 85 %.

Выбор параметров технологий защиты скважин от осложняющих факторов

Данная задача связана предыдущей и возникает на этапе, когда защитная технология уже выбрана, но при этом требуется определить оптимальные значения ее параметров. К числу таких параметров могут относиться глубина спуска скребка, суточная дозировка ингибитора, межочистной период и другие. С точки зрения машинного обучения постановка задачи следующая: на основе параметров технологического режима работы скважин осложненного фонда требуется определить оптимальные параметры технологий защиты в виде множественной регрессии от условий эксплуатации.

Снова, как и в предыдущем случае, использовалось предположение о корректности выбранных параметров технологий на обучающей выборке.

Рассматривались виды осложняющих факторов и типы технологий, которые образовывали статистически значимые выборки для формирования регрессионных зависимостей. Для некоторых из них удалось получить приемлемые корреляции (рис. 5).

Машинное обучение является мощным инструментом для решения производственных задач, но отнюдь не универсальным. Для примера возьмем задачу выбора разгона ЭЦН при выводе скважины на режим (ВНР) на механизированном фонде, оборудованном станциями управления с частотно-регулируемым приводом. При постановке данной задачи предполагалось построить множественную регрессию темпа набора частоты ЭЦН от условий эксплуатации скважины, таких как дебит жидкости, давление на приеме насоса, загрузка электродвигателя по току, количество взвешенных частиц в продукции скважины и других.

Было проанализировано порядка 300 событий по изменению разгона во время ВНР, но устойчивых корреляций, кроме одной, обнаружено не было. Как показал анализ, определяющим признаком при выборе скорости набора частоты ЭЦН является человек – ответственный специалист за ВНР. На рис. 6 для примера показаны гистограммы разгонов для двух специалистов с инициалами ККФ и ХРМ, которые они устанавливали на скважинах обслуживаемого ими фонда.

Видно, что в первый специалист при ВНР придерживается консервативной стратегии и почти всегда выставляет разгон 3 Гц/сут, а второй варьирует темп набора частоты в широких пределах.

В заключение можно отметить следующие обобщающие выводы:

• Современное состояние механизированной добычи нефти позволяет отнести ее к отрасли нефтяной промышленности с высокой степенью автоматизации и цифровизации производства.

• Наличие большого объема накопленной промысловой информации дает возможность, наряду с существующими экспертными системами, активно задействовать методы машинного обучения.

• Машинное обучение позволяет не только заменить эксперта-человека при решении многих существующих практических задач (как, например, при диагностике неисправностей по динамограмме), но и попытаться подступиться к задачам, которые до последнего времени считались нерешаемыми (например, предсказание отказов погружного оборудования).

• Ключевой проблемой при использовании методов машинного обучения была, есть и, очевидно, будет оставаться проблема недостаточного качества исходных данных.

Поскольку сутью машинного обучения является обобщение и формализация предыдущего опыта (обучение), то крайне важно, чтобы этот опыт фиксировался корректно в источниках исходных данных.