НАУЧНЫЙ РЕЗУЛЬТАТ
Н Г ^ I \\ g Г N t t !. II I rl
Кононов В.М., Асадуллаев Р.Г., Кузьменко Н.И. Алгоритм подготовки
мультиспектральных спутниковых данных для задачи классификации
сельскохозяйственных культур // Научный результат. Информационные технологии. - Т.5, №2, 2020
УДК 004.048 DOI: 10.18413/2518-1092-2020-5-2-0-3
Кононов В.М.1 Асадуллаев Р.Г.2 Кузьменко Н.И.2
АЛГОРИТМ ПОДГОТОВКИ МУЛЬТИСПЕКТРАЛЬНЫХ СПУТНИКОВЫХ ДАННЫХ ДЛЯ ЗАДАЧИ КЛАССИФИКАЦИИ СЕЛЬСКОХОЗЯЙСТВЕННЫХ КУЛЬТУР
ООО «ЦентрПрограммСистем», ул. Восточная, д. 71, оф. 501, г. Белгород, 308019, Россия 2) Белгородский государственный национальный исследовательский университет, ул. Победы, д. 85, г. Белгород, 308015, Россия
e-mail: kononov@1cps.ru, asadullaev@bsu.edu.ru, n.kuzmenko31@yandex.ru
Аннотация
В статье представлен разработанный алгоритм подготовки мультиспектральных спутниковых данных для задачи классификации сельскохозяйственных культур. Формализована процедура загрузки данных со спутника Copernicus Sentinel-2 с ресурса SentinelHub по заданным географическим координатам из geojson-файла с возможностью указания параметров, отражающих целевые даты получения данных. Описан алгоритм предобработки и аугментации данных к формату, необходимому для анализа математическими моделями машинного обучения.
UDC 004.048
Kononov V.M.1 ALGORITHM OF MULTI-SPECTRAL SATELLITE Asadullaev R.G.2 DATA PREPARATION FOR AGRICULTURAL CROP Kuzmenko N.I.2 CLASSIFICATION
e-mail: kononov@1cps.ru, asadullaev@bsu.edu.ru, n.kuzmenko31@yandex.ru
Abstract
the article describes a developed algorithm of multispectral satellite data preprocessing for agricultural crop classification. The procedure for downloading data from the Copernicus Sentinel-2 satellite from the SentinelHub resource at the geographical coordinates from the shape file with ability to specify parameters that reflect the target data acquisition date is formalized. The algorithm of data preprocessing and augmentation to the format required for analysis by mathematical models of machine learning is described.
ВВЕДЕНИЕ
На протяжении нескольких последних лет активно решается задача классификации сельскохозяйственных культур. Актуальность задачи обосновывается необходимостью ведения статистических данных о площади культур, выращиваемых в рассматриваемых регионах, расчета данных по продовольственному обеспечению государства, а также для осуществления мониторинга состояния посевов сельскохозяйственных культур.
Для этого используются различные методы и обрабатываются данные разного формата. В решении этой задачи можно использовать как снимки, полученные с беспилотных летательных аппаратов, так и мультиспектральные спутниковые снимки. Спутниковые данные применяются в
И Г ç Е t. К Г. N I? 1= а и I т
Кононов В.М., Асадуллаев Р.Г., Кузьменко Н.И. Алгоритм подготовки
мультиспектральных спутниковых данных для задачи классификации
сельскохозяйственных культур // Научный результат. Информационные технологии. - Т.5, №2, 2020
решении этой задачи в связи с простым и быстрым доступом к данным любой точки земной поверхности с небольшим временным интервалом между съемкой.
Сегодня для задачи классификации сельскохозяйственных культур чаще всего используются математические модели машинного обучения, такие как нейронные сети глубокого обучения (сверточные нейронные сети, сети долговременной памяти, рекуррентные нейронные сети и симбиоз данных архитектур), метод опорных векторов, случайный лес, метод к-средних, линейная регрессия и другие.
Для таких моделей в большинстве случаев необходимо приведение входных данных к одной размерности. Для повышения качества предсказаний модели используется предобработка изображений.
Для задачи классификации сельскохозяйственных культур чаще всего используются следующие методы предобработки данных: приведение размеров снимков к единому размеру (256х256, 224х224, 128х128, 96х96), удаление фона, не относящегося к представленному классу, удаление пикселей со значением индекса NDVI ниже определенного порога, расчет дополнительных индексов вегетации и увлажненности с их конкатенацией к тренировочным примерам как дополнительные каналы, усреднение данных пикселей по значениям за год, вытягивание двухмерного массива значений в одномерный вектор [3].
Для решения задач по классификации наземных объектов со спутниковых снимков важно высокое пространственное разрешение. С 2016 г. с периодичностью съемки в 10 дней стали доступны данные со спутника Copernicus Sentinel-2. Пространственное разрешение изображений Sentinel-2 в видимом и ближнем инфракрасном диапазонах спектра составляет 10 м, что лучше разрешения изображений другой серии спутников, Landsat (15 - 100 м). Второй спутник с аналогичными характеристиками Sentinel-2B был запущен 7 марта 2017 г., что позволило укоротить периодичность съемки до 5 дней [9].
Так, для решаемой задачи были выбраны данные со спутника Copernicus Sentinel-2. Было исследовано несколько способов загрузки спутниковых данных с данного спутника. Возможны следующие подходы:
- Copernicus Open Access Hub - сервис, поддерживающий скачивание тайлов (сплошных снимков размером 100х100 км). Данный продукт обладает ограниченным функционалом и не позволяет загружать отдельные области земной поверхности. Для сервиса также доступно API, в котором можно фильтровать снимки по общей облачности и дате съемки.
- SentinelHub - сервис, предоставляющий данные со спутников Sentinel, имеющий широкий инструментарий по интеграции с различными ГИС-программами и самостоятельно разрабатываемыми web-приложениями и программами. Сервис предоставляет несколько видов продуктов, таких как:
ОСНОВНАЯ ЧАСТЬ
НАУЧНЫЙ РЕЗУЛЬТАТ
Н Г ^ I \\ g Г N t t !. II I rl
Кононов В.М., Асадуллаев Р.Г., Кузьменко Н.И. Алгоритм подготовки
мультиспектральных спутниковых данных для задачи классификации
сельскохозяйственных культур // Научный результат. Информационные технологии. - Т.5, №2, 2020
В результате было выявлено, что для специфики задачи больше всего подходит загрузка данных с сервиса SentinelHub с помощью Evalscript API, так как этот сервис поддерживает запросы, в которых можно фильтровать облачность, выбирать загружаемые каналы и индексы вегетации, приводить скачиваемые данные к одному пространственному разрешению и, самое главное, присутствует возможность задавать географические координаты шейпов полей для выбора загружаемой области и автоматического заполнения нулевыми значениями до прямоугольной формы.
Для решения задачи классификации сельскохозяйственных культур были получены файлы формата geojson, содержащие уникальные идентификаторы полей, координаты точек, образующих форму полей и виды культур, засеянных за 2016 - 2019 год на этих полях.
При этом поля сильно различались в размерах и форме. Самые маленькие поля были площадью 4 га, а самые большие - 600 га. Было решено разработать алгоритм по приведению многоканальных снимков к одному размеру - 224х224 пикселя, при этом использовать различную логику для маленьких полей (до 150 пикселей), для средних полей (150 - 300 пикселей) и для больших полей (свыше 300 пикселей). Используемая схема изменения размеров представлена на рисунке 1.
Ширина/ ширина ширина от 150 ширина от 225 ширина
высота меньше 150 до 224 до 300 больше 300
высота меньше 150 изменение размера с сохранением пропорций апсемплинг по
узкой стороне
высота от 150 до 224 доб. нулей по краям до палмрпа ??4 вырезание центра до и вырезание центра
высота от размера
высота апсемплинг по узкой стороне и нарезка кусками 224x224 с
больше 300 вырезание центра переналожением
Рис. 1. Схема изменения размеров изображений Fig. 1. Images resizing scheme
Для скачивания и отбора данных для набора данных был разработан специальный алгоритм. Работа алгоритма начинается с загрузки и обработки файлов geojson. Для их обработки используется готовая библиотека, извлекающая нужные свойства по каждому полю и передающая их в массив. Далее в цикле происходит перебор дат с 1 апреля до 31 октября текущего года. Затем к дате добавляется 5 дней (временной интервал между снимками Sentinel-2) и формируется HTTP-запрос к серверу SentinelHub на получение спутниковых данных каналов B04-B08, B8A, B11 и B12 (видимые каналы RGB и каналы красного спектра) в заданном промежутке. После получения данных в TIFF-формате, они выгружаются в массив. Затем производится расчет среднего значения индекса вегетации NDVI по полю. Если это значение ниже порога в 0.6 или загруженное изображение слишком малой площади, данное изображение не сохраняется и происходит загрузка следующего. В ином случае массив данных сохраняется как файл в папку с данными классов культур. Алгоритм работы модуля загрузки и отбора спутниковых данных представлен на рисунке 2.
Следующим после загрузки данных шагом является их предобработка и аугментация. Для поставленной задачи решено было использовать следующие методы предобработки: нормализация данных к диапазону от 0 до 1 и приведение данных к нулевому среднему. Данные методы позволяют устранить большой разброс данных и привести данные к одному виду. Эти преобразования используются перед каждым запуском процесса обучения математической модели и получения предсказаний классов для всей выборки.
НАУЧНЫЙ РЕЗУЛЬТАТ
Н Г ^ I f. g Г N t [ !. II I rl
Кононов В.М., Асадуллаев Р.Г., Кузьменко Н.И. Алгоритм подготовки
мультиспектральных спутниковых данных для задачи классификации
сельскохозяйственных культур // Научный результат. Информационные технологии. - Т.5, №2, 2020
Рис. 2. Алгоритм работы модуля загрузки и отбора спутниковых данных Fig. 2. The algorithm of the module for loading and selecting satellite data
Еще один метод, применяемый для предобработки - исключение из обучающей выборки изображений с высокой долей нулевых и облачных значений. Такой метод должен улучшить качество обучения.
Для обучения модели было решено использовать генератор - функцию, создающую аугментированные изображения, собирающую их в пакеты и подающую их на обучение в математическую модель. Таким образом, остается низкая вероятность появления в обучающих примерах исходных изображений, а это приводит к повышению качества обучения математической модели. Генератор позволяет решить такие проблемы как: неоднородность обучающей выборки, раннее переобучение модели, недостаточное число обучающих примеров и переполнение оперативной памяти при загрузке всего набора данных. Так как стандартный генератор используемой библиотеки машинного обучения Keras не поддерживает изображения с числом каналов больше 4, то необходимо было создать аналог такой функции. Алгоритм работы разработанного генератора представлен на рисунке 3. На рисунке 4 представлен пример работы генератора.
НАУЧНЫЙ РЕЗУЛЬТАТ
Н Г ^ I f. g Г N t [ !. II I rl
Кононов В.М., Асадуллаев Р.Г., Кузьменко Н.И. Алгоритм подготовки
мультиспектральных спутниковых данных для задачи классификации
сельскохозяйственных культур // Научный результат. Информационные технологии. - Т.5, №2, 2020
Рис. 3. Алгоритм работы генератора аугментированных изображений Fig. 3. The algorithm of augmented images generator
Рис. 4. Пример аугментаций изображений Fig. 4. An example of the image augmentation
ЗАКЛЮЧЕНИЕ
Для задачи классификации сельскохозяйственных культур был разработан алгоритм подготовки мультиспектральных спутниковых данных. Алгоритм позволяет стандартизировать входные данные и повышает качество работы применяемых для классификации моделей машинного обучения за счет аугментации обучающей выборки и нормализации данных.
Также в ходе данной работы был разработан генератор аугментированных изображений, который позволяет решить проблему нехватки оперативной памяти при полной загрузке набора данных на обучение, а также позволяет перемешивать и аугментировать обучающие данные «на лету».
Разработанный алгоритм может быть полезным для тех, кто занимается обработкой спутниковых данных для их обработки с помощью математических моделей.
НАУЧНЫЙ РЕЗУЛЬТАТ
Н Г ^ I f. g Г N t [ !. II I rl
Кононов В.М., Асадуллаев Р.Г., Кузьменко Н.И. Алгоритм подготовки
мультиспектральных спутниковых данных для задачи классификации
сельскохозяйственных культур // Научный результат. Информационные технологии. - Т.5, №2, 2020
Список литературы
References
НАУЧНЫЙ РЕЗУЛЬТАТ
Н Г ç I \\ g Г N t [ !. 11 I ri
Кононов В.М., Асадуллаев Р.Г., Кузьменко Н.И. Алгоритм подготовки
мультиспектральных спутниковых данных для задачи классификации
сельскохозяйственных культур // Научный результат. Информационные технологии. - Т.5, №2, 2020
Кононов Виктор Митрофанович, кандидат экономических наук, генеральный директор ООО «ЦентрПрограммСистем»
Асадуллаев Рустам Генннадьевич, кандидат технических наук, доцент, доцент кафедры прикладной информатики и информационных технологий
Кузьменко Николай Иванович, студент кафедры прикладной информатики и информационных технологий
Kononov Viktor Mitrofanovich, Candidate of Economical Sciences, General Director of «CentrProgrammSystem», LLC Asadullaev Rustam Gennadievich, Candidate of Technical Sciences, Associate Professor of the Department of Applied Informatics and Information Technologies
Kuzmenko Nikolay Ivanovich, Bachelor Student, Department of Applied Informatics and Information Technologies