Ученые НЦМУ «Рациональное освоение запасов жидких углеводородов планеты» разработали агрегатор неструктурированных геолого-промысловых данных. Разработка позволяет систематизировать, классифицировать, каталогизировать и анализировать геологическую и промысловую информацию в неизменном виде.
В условиях глобального технологического развития цифровые платформы, по мнению большинства экспертов, представляют собой оптимальный способ коммуникации представителей всех отраслей, и геологическая не исключение. Агрегирование большого количества информации в рамках одной системы позволяет организовать единую «точку входа», а также повышает ее транспарентность. Инновационной базой для геологических данных выступает и разрабатываемая в НЦМУ «Рациональное освоение жидких углеводородов планеты» цифровая научная платформа.
В разработке казанских исследователей задействован искусственный интеллект, работающий на основе WEB-платформы. С его помощью специалисты анализируют информацию с различных месторождений, а также структурируют геолого-промысловые данные.
«При решении задачи классификации отчетной документации использовались инструменты из области NLP (natural language processing) машинного обучения. Данный кластер задач можно отнести к виду NER (named entity recognition). Предлагаемое исследователями решение базируется на подходе rule-based (основанный на правилах). В результате предлагаемый алгоритм определяет сущности (названия месторождений), подходящие под описанные правила», – сообщил инженер НОЦ «Моделирование ТРИЗ» Института геологии и нефтегазовых технологий Ильяс Идрисов.
В настоящий момент командой специалистов были получены следующие результаты: разработаны макет и схема работы модуля загрузки исходных данных, представленных в виде различного рода отчетной документации; рассматриваются следующие форматы данных: текстовые – *.pdf, *.doc, *.docx, *.xls, *.xlsx; графические – *.jpg, *.jpeg, *.png, *.gif, *.doc, *.tif и *.pdf-файлы, содержащие графику; реализована следующая схема предобработки входной информации: определение категории файла (отчет, паспорт, таблица, другое), классификация по месторождениям, на основе анализа содержания документа.
В ближайшей перспективе новый агрегатор будет применен как поисковая система для специалистов нефтегазовой области. К имеющимся наработкам авторы цифрового проекта планируют включить безопасную схему обмена данными с использованием отдельных серверов для удобства пользователей.