USD 97.149

-0.11

EUR 105.756

-0.33

Brent 72.85

-1.73

Природный газ 2.268

-0.08

8 мин
1358

Интеллектуальный поиск как инструмент развития научно-технического потенциала компаний нефтегазовой отрасли

Предприятия нефтегазовой отрасли традиционно занимают лидирующие позиции в вопросах использования инноваций. Высокая степень конкуренции, сложные технологические процессы, капиталоемкость разведки и разработки месторождений – все эти факторы создают потребность в инженерно-технологических решениях, использующих лучший опыт из российской и международной практики.

Интеллектуальный поиск  как инструмент развития научно-технического потенциала компаний нефтегазовой отрасли

Потребность в применении интеллектуального поиска определяют два ключевых фактора – растущий объем неструктурированной информации, хранимой и передаваемой в виде различного вида документов и файлов, а также ограниченные способности человека в быстром извлечении из этих массивов данных качественных ответов на вопросы, связанные с решением инженерных задач, научными исследованиями и т.д.

Объем неструктурированных данных в компаниях сегодня измеряется тера- и петабайтами: они включают в себя разные виды технологической, проектной и нормативно-методической документации (включая сканы документов, чертежи и схемы процессов), публикации, научную литературу и др. Практически всегда эта информация разделена между несколькими хранилищами, отсутствует единый инструмент поиска и тематический классификатор. Все это затрудняет доступ к информации, мешает организовать трансфер знаний внутри компании, оптимизировать бизнес-процессы и создавать инновационные решения.

Как показывает свежее исследование агентства IDC, сотрудники крупных корпораций тратят до 36% рабочего времени на рутинные операции поиска и консолидации информации, что создает риск снижения качества производственных решений и прикладных исследований. Попытки локально решить проблему с помощью баз знаний, где эксперты вручную структурируют информацию и фиксируют полезный опыт, часто сталкиваются с быстрой потерей актуальности такой базы либо с высокой стоимостью ее сопровождения.

За последние годы проблема быстрого доступа к накопленной информации о проектах, технологиях и исследованиях стала актуальной и для Научно-Технического Центра «Газпром нефти», единственного российского центра, совмещающего научные исследования, разработку технологий добычи нефти и дистанционное управление высокотехнологичными производственными процессами. В 2017 году объем файлового хранилища НТЦ «Газпром нефти» превысил 650 ТБ. Принимая во внимание риски, связанные со снижением скорости и качества доступа к информации, руководство компании инициировало проект создания поисковой системы, основанной на когнитивном анализе данных.

Рынок систем интеллектуального поиска

Системы интеллектуального (когнитивного) поиска являются продолжением эволюции более общего класса решений – систем корпоративного поиска (Enterprise Search Engines), появившихся на рынке в 90-е годы прошлого века. На предыдущих этапах своего развития эти системы решали в основном вопросы, связанные с интеграцией хранилищ данных, быстрой индексацией информации и реализации полнотекстового поиска на основе построенного индекса.

Новый этап в развитии корпоративных поисковых систем начался с применением технологий искусственного интеллекта и машинной обработки естественного языка (Natural Language Processing, NLP). Задачей поисковой системы стало понять намерение человека, обращающегося с поисковым запросом, и предложить максимально релевантный ответ на поставленный вопрос с учетом дополнительных факторов: наличия близких по смыслу документов, имеющихся связей между документами, истории предыдущих запросов и т.д. Также эти системы способны понимать неточные запросы, запросы с использованием аббревиатур, профессиональных терминов и пр. Новое поколение умных поисковых систем все чаще стали называть Insight Engines, у этого термина до сих пор нет точного перевода на русский, наиболее близкий вариант – системы когнитивного поиска.

На мировом рынке систем интеллектуального поиска представлены как глобальные корпорации, такие как IBM и Microsoft, так и менее известные нишевые игроки из Америки и Европы (Attivio, Coveo, Lucidworks, Sinequa и др.). Однако возможность применения предлагаемых этими компаниями решений в стратегически важных отраслях российской экономики неизбежно создает высокий риск, связанный с действием секторальных санкции США и Евросоюза. Поэтому российские компании нефтегазовой отрасли стали чаще рассматривать решения, предлагаемые отечественными ИТ-компаниями. Одним из таких производителей систем интеллектуального поиска является российская компания NAUMEN.

Общая архитектура системы когнитивного поиска

С точки зрения архитектуры, система когнитивного поиска состоит из сервера приложений, базы данных и нескольких вычислительных кластеров. На этой инфраструктуре развертывается несколько взаимодействующих между собой компонентов системы:
  • хранилище данных с интеграционным модулем и модулем, отвечающим за индексацию;
  • вычислительный кластер с модулями, отвечающими за оперативный анализ документов, обработку документов и формирование рекомендаций, а также персонализацию результатов поиска;
  • собственно поисковую систему с модулями когнитивного поиска, управления контентом, администрирования и формирования уведомлений и рекомендаций.

Интеграционный модуль позволяет загружать в хранилище информацию из различных внутренних источников (сетевые папки, системы электронного документооборота, корпоративные порталы, системы управления рисками и др.).

Для получения информации из внешних источников на практике обычно применяется отдельное хранилище данных с модулем, отвечающим за сбор данных (краулинг) с внешних площадок. После предварительной обработки эти данные могут передаваться в основное хранилище данных.

Этапы реализации когнитивного поиска

Успешность реализации поиска во многом зависит от того, к каким данным есть доступ. Поэтому важным, предваряющим всю остальную работу, этапом является анализ и подготовка данных. Изучаются все источники, типы документов и форматы их хранения, содержание и атрибуты. Объем работы достаточно велик, необходимо максимально сосредоточиться на деталях и «исключениях из правил» — позднее именно они могут стать причиной неоправданно трудозатратных правок алгоритмов извлечения и сохранения данных.

После того, как работа по изучению закончена, происходит интеграция источников, объединение документов в одном хранилище данных. Для этого разрабатывается модель данных, на базе которой специалисты осуществляют взаимодействие с источниками, создают хранилище данных, его архитектура зависит от особенностей бизнес-задач, решаемых с помощью системы.

Затем данные совершенствуются для модуля семантической обработки: улучшается качество распознанного контента, решается проблема с кодировкой, мусорными символами и т.д.
На основе извлеченных текстовых данных из документов строится языковая модель, которая учитывает специфику и нормы употребления слов в научно-технических документах, т.е. понимает текст.

После этапа машинного обучения модель может рассчитывать специальные признаки документов, которые передают краткую суть документа, его смысл. Такое семантическое пространство — базис для дальнейшего анализа и интеллектуализации системы. Для структурирования коллекции документов (решения задач группировки по смыслу, выделения ключевых слов, присвоения тегов) и, в конечном счете, для снижения временных затрат на изучение данных также используются алгоритмы машинного обучения.

На последнем этапе происходит настройка алгоритмов поиска и ранжирования. Интеллектуальная система может осуществлять поиск по нечеткому запросу. Алгоритмы позволяют системе найти ответ на пользовательский вопрос, даже если документы не содержат точных слов из запроса. В отличие от обычного поиска считывается именно смысл запроса, а не последовательность символов. Модель ранжирования документов в выдаче может корректироваться с учетом множества параметров, которые суммарно обеспечивают высокую степень релевантности поисковой выдачи: актуальность документа, различные приоритеты для контента документа и атрибутов, особенности лексики запроса и т.д.

Все это, а также система фильтров, тезаурусы предметной области, возможность расширения поисковой выдачи за счет учета в запросе семантических аналогов, делают настройку поиска сложной, но интересной задачей, итоги которой позднее помогают людям в их работе.

Уникальное решение менее чем за год

Прежде всего «ГПН НТЦ» принял решение провести пилотное внедрение когнитивной поисковой системы в собственном офисе в Санкт-Петербурге. Со стороны разработчика системы над проектом работала выделенная команда специалистов, в которую вошли: руководитель проекта, системный аналитик, бизнес-аналитик, архитектор, инженер QA, Data Science инженеры, Data Warehouse инженеры и инженеры-программисты. В тесном взаимодействии со специалистами NAUMEN они разработали функциональные модули сбора и хранилища данных, поисковой системы, поискового портала. Проектной командой была создана инфраструктура сервисов, обеспечивающих семантическую обработку данных для реализации семантического, полнотекстового и контекстного поиска информации.

В ходе проекта была проведена большая работа с накопленными Научно-Техническим Центром данными. Файлы из внутреннего хранилища заказчика были разобраны, извлеченный контент загружен в созданное хранилище неструктурированной информации. Помимо этого хранилище данных было обогащено информацией из внешних источников, в частности, тематических и отраслевых новостных порталов.

Семантическая обработка данных, загруженных в новую базу данных, стала одним из наиболее интересных этапов проекта. Документы прошли этапы извлечения контента, лемматизации, фильтрации, формирования семантического пространства на базе обучающей выборки. Была рассчитана семантическая близость между документами и семантические аналоги слов с помощью дистрибутивной семантики. Для каждого документа выделены ключевые слова и аннотации для быстрого понимания сути большого объема контента. В итоге все загруженные данные были обработаны алгоритмами семантического анализа, проиндексированы и стали доступны для поиска.

Запросы к поисковому сервису учитывают морфологию слов в запросе, понимают ряд сокращений и специализированных терминов. Фильтрация поисковой выдачи позволяет оставить в поисковой выдаче документы, удовлетворяющие нужным пользователю параметрам. Например, можно выбрать несколько конкретных источников данных или оставить в выдаче только документы с заданным типом (книги, НМД и т.д.). Карточка документа содержит набор (топ-5) автоматически подобранных близких документов, что является альтернативным способом поиска – когнитивный подбор релевантных документов по смыслу.

Ключевой сложностью при реализации новой системы стало качество, а также разнородность входных данных (новости, НМД, книги, проекты и т.д.) и их источников (система СРЗ, внешние источники, сетевые папки). Качество отсканированных документов сильно отличалось, многие документы были «зашумлены», что повлекло сложности с распознаванием информации и потребовало дополнительных действий по предобработке документов: очистки, удаления нечитаемых фрагментов и нераспознанного текста.

«Все в одном» для поиска и обработки информации

В настоящее время созданным решением регулярно пользуются порядка 100 специалистов Научно-Технического Центра. Когнитивная поисковая система стала для них «единым окном» для быстрого поиска контента на различных ресурсах и универсальным механизмом, позволяющим вести научную и аналитическую работу с результатами поисковой выдачи. Доступная база для поиска расширилась за счет возможности поиска по документам, хранящимся в форматах, ранее недоступных, таким как pdf, djvu, где требовалась предобработка графической информации в документах. Система также выполняет функции трансфера и управления знаниями между подразделениями и функциями организации.

Методы машинного обучения, примененные в разработанной системе, обеспечивают поддержку решения задач в разных областях исследовательской и аналитической деятельности, поддерживают необходимый сотрудникам «ГПН НТЦ» уровень информированности, позволяют им более эффективно работать с большими объемами информации.

В результате система существенно сократила временные затраты на поиск и анализ информации, а также повысила эффективность принятия решений за счет точности и полноты результатов поисковой выдачи.

Перспективы развития системы поиска внутри холдинга

После завершения нагрузочного тестирования и доработок в части безопасности система когнитивного поиска получит дальнейшее функциональное развитие и тиражирование на подразделения "Газпром нефти" в рамках реализации масштабной программы "Search", направленной на управление контентом и данными холдинга.

Положительный опыт в реализации системы когнитивного поиска обратил на себя внимание внутри отрасли и за ее пределами. В конце 2018 года проект стал победителем конкурса «Лучшие 10 ИТ–проектов для нефтегазовой отрасли» в номинации «Корпоративная информационная система» , в январе 2019 года он также получил награду в специальной номинации "Выбор Global CIO" в конкурсе "Проект года".


Статья «Интеллектуальный поиск как инструмент развития научно-технического потенциала компаний нефтегазовой отрасли» опубликована в журнале «Neftegaz.RU» (№2, Февраль 2019)

504796Код PHP *">
Читайте также