Искусственный интеллект в сельском хозяйстве – кейс «АгроТерры» и rdl by red_mad_robot
«АгроТерра» улучшила модель многофакторного анализа (МФА) с помощью rdl by red_mad_robot – компании удалось повысить точность МФА на 20%. «АгроТерра» занимается растениеводством и семеноводством – ежегодно компания производит около 1 млн тонн продукции, а также семена сои и пшеницы, семена гибридов подсолнечника и кукурузы. Модель многофакторного анализа позволяет компании определять факторы, оказавшие наибольшее влияние на урожайность и качество в прошедшем сезоне, и корректировать технологию производства и систему управления с их учетом.
МФА в «АгроТерре» используют уже на протяжении нескольких лет, чтобы определять топ факторов, повлиявших на маржинальность. Например, засеяли 100 полей и собрали урожай. С одного поля урожайность – пять тонн на гектар, с другого – три. Возникает вопрос: «Что не так?» Именно на этот вопрос и отвечает МФА.
Однако саму модель было сложно развивать, дорабатывать и обогащать новыми данными по нескольким причинам. Во-первых, в ее основе лежал закрытый код, а во-вторых, количество данных в сельском хозяйстве ограничено. Тогда «АгроТерра» обратилась к rdl by red_mad_robot – компании, занимающейся искусственным интеллектом, машинным обучением, компьютерным зрением и предиктивной аналитикой в промышленной сфере.
Контекст
В разных отраслях доступны разные объемы данных. Компании, чьи продукты используют миллионы пользователей, собирают много данных – это действительно big data. У агробизнеса их гораздо меньше – он ограничен географией, а производственный цикл здесь длится целый год. Для проверки новых гипотез здесь на помощь приходят синтетические данные. Их основное отличие от обычных заключается в том, что они создаются алгоритмами, а не реальными событиями. Синтетические данные активно применяются для развития моделей машинного обучения.
«Мы привыкли к тому, что инструменты искусственного интеллекта используются в различных сферах, но едва ли многие думают, что модели машинного обучения можно успешно применять и в сельском хозяйстве. В «АгроТерре» мы уделяем большое внимание сбору данных и уже накопили достаточно для того, чтобы на их основе можно было генерировать синтетические данные, позволяющие вывести точность наших аналитических моделей на новый уровень. Для исследования качества этих данных и поиска наиболее подходящих инструментов их анализа мы обратились к экспертизе rdl », – комментирует Николай Кащук, руководитель направления углубленной аналитики.
Решение в синтетических данных
В 2022 году «АгроТерра» приняла решение развивать свои модели на open source – это когда исходный код открыт для анализа и редактирования. Работа над улучшением модели началась с исследования данных, или EDA – Exploratory Data Analysis. Оно состояло из нескольких этапов. Первым этапом стало исследование данных и варианты их обогащения, а вторым – построение разных моделей. После того как были выбраны конкретные метрики достоверности модели, rdl приступили к построению моделей.
Всего «АгроТерре» предложили три модели машинного обучения: случайный лес, бустинг и стекинг. Метод случайного леса основывается на количестве мнений в пользу того или иного фактора урожайности. Например, большинство моделей считают, что количество осадков оказало наибольшее влияние на урожайность – финальная модель учитывает эту информацию и строит прогнозы на ее основании. Другой метод – бустинг, предполагает, что модель поэтапно обучается на выводах предыдущей модели. Причем последующая модель исправляет ошибки предыдущей. К примеру, если фактор осадков не самый важный для урожайности, тогда это температура воздуха, и т. д. Стекинг основывается на том, что каждая модель предсказывает свой результат, а финальная модель использует результаты их предсказаний и выносит вердикт.
«АгроТерра» выбрала метод стекинга, однако оставался вопрос с повышением точности работы модели. Тогда rdl сократили количество факторов, по которым обучали модель, и предложили новые подходы к предобработке данных. В итоге точность модели выросла на 20%.
«Если данных недостаточно, модели при обучении становятся крайне неустойчивыми и при разных параметрах инициализации дают значительно разные результаты. Именно поэтому важно в таких задачах делать выбор в пользу моделей, меньше подверженных влиянию случайных данных, не связанных с решаемой задачей», – комментирует Иван Тимофеев, data scientist rdl by red_mad_robot.
В дальнейшем «АгроТерра» планирует использовать модель в качестве стандартного инструмента анализа сезона. Это позволит выявлять корневые причины отклонений в урожайности, принимать управленческие решения и трансформировать их в технологические и управленческие изменения, способствующие росту маржинальности бизнеса.