Платформа анализа распределенных данных

Основная информация

Название :
Платформа анализа распределенных данных
Основное технологическое направление :
Системы обработки больших объемов данных, машинного обучения и искусственного интеллекта
Дополнительные технологические направления :
Технологии и программное обеспечение распределенных и высокопроизводительных вычислительных систем
Дата публикации:
25.07.2024
Видимость :
Да
Аннотация:
Предлагаемая платформа реализует новые подходы к обработке клиентских данных, производит "обогащение" данных. Реализован прототип платформы машинного обучения распределенных данных без их передачи 3й стороне и без централизованной обработки с использованием технологии федеративного обучения.
Это позволяет:
- использовать в обучении конфиденциальные данные;
- обогащать данные с разных источников;
- снизить стоимость владения BigData.

Решаемые проблемы и области применения

Решаемые проблемы :
Для применения методов искусственного интеллекта и машинного обучения требуются большие данные. Во многих случаях такие данные не удается в достаточном количестве собрать в одном месте для их обработки и использования. Предполагается обучение различных аналитических моделей (регрессионных функций, прогнозных моделей и т.п.) на стороне клиентов (владельца данных) с последующим их обобщение на сервере, но без передачи данных куда-либо.
Актуальность проблемы:
Крупные банки, промышленные корпорации, добывающие и горно-обогатительный предприятия создают огромные ЦОДы, облака, озера для хранения и обработки больших данных. Такой подход требует огромных материальных и финансовых ресурсов. Предлагаемая платформа анализа информации (в т.ч. конфиденциальной, персональной) из разнородных, территориально распределенных источников, строится на принципе обработки информации в местах ее появления с использованием технологии федеративного обучения без ее передачи третьим лицам.
Потенциальный экономический эффект:
Обогащение данных за счет использования при обучении нескольких источников, включая конфиденциальную информацию; Снижение стоимости владения BigData: - не требуются большие объемы дисковой памяти, т.к. данные хранятся там, где формируются; - могут использоваться каналы связи с низкой пропускной способностью, т.к. передаются только результаты анализа; - не требуются большие вычислительные мощности, т.к. анализ выполняется распределено; Снижаются риски «утечки» информации, т.к. данные остаются у своих владельцев и не передаются.
Технологическая схема:
Технология федеративного обучения подразумевает наличие модулей "клиент" на источниках данных и модуля "сервер" для агрегации результатов обучения. Платформа позволяет объединять, с одной стороны, владельцев данных и, с другой стороны, аналитиков, производящих анализ данных. Платформа интегрируется с информационными системами, помогающими руководству компаний принимать взвешенные обоснованные решения.
Области применения:
IT, электроника и приборостроение

Технология

Описание технологии и ее ценность :
Федеративное обучение - предполагает анализ данных и построения различных аналитических моделей (регрессионных функций, прогнозных моделей и т.п.) на стороне владельца данных без их передачи на сервер для обучения. Преимущества технологии: -снижаются риски «утечки» информации, т.к. данные остаются у владельцев -происходит обогащение данных за счет использования многих источников -каналы связи с низкой пропускной способностью, т.к. передаются только результаты анализа -не требуются большие вычислительные мощности
Научная база :
Исследованы существующие фреймворки федеративного обучения: https://www.mdpi.com/1424-8220/21/1/167 https://www.mdpi.com/1424-8220/22/8/2983 Разработана библиотека алгоритмов федеративного обучения - FL4J: https://ieeexplore.ieee.org/document/9396508 Создан стенд для апробации применения технологии для разных прикладных задач; Разрабатываются компоненты для быстрого прототипирования систем федеративного обучения.
Конкурентные технологии :
В настоящее время ведутся разработки библиотек с открытым исходным кодом: например, TensorFlow Federated, PaddleFL, FATE и др. Также разработаны и проприетарные библиотеки NVDIA Flare, IBM FL и HP Swarm Learning. Основные конкурирующие решения разрабатываются в США, Европейском союзе и Китае.
Инновационность технологии, конкурентные преимущества :
В рамках предлагаемого проекта планируется разработка методов ФО для анализа мультимодальных данных от различных источников об одних и тех же объектах и явлениях. Разработанные методы будут реализованы в библиотеке ФО для Java (FL4J) и апробированы на реальных данных. Разрабатываются компоненты для быстрого прототипирования систем федеративного обучения. Предлагаемая платформа является первым и единственным отечественным продуктом, способным конкурировать с мировыми лидерами как по функциональности, так и по показателям возможности работы с различными схемами распределения данных (вертикалтным, горизонтальным, смешанным)
Потенциал импортозамещения :
TensorFlow Federated, PaddleFL, Flower, FATE, NVDIA Flare, IBM FL и HP Swarm Learning

Текущее состояние

Описание текущего состояния :
Библиотека ФО (Federated Learning for Java - FL4J) https://gitlab.fkti.etu.ru/fl4j, алгоритмы и компоненты фреймворка ФО для быстрого прототипирования и MVP; стенд для изучения фреймворков ФО; наборы данных; ПО для аннотирования данных и проведения экспериментов
Интеллектуальная собственность :
Название документа Лицензионный договор с СПбГЭТУ ЛЭТИ на использование и развитие фреймворка ФО реализованного на базе библиотеки FL4J
Название документа Холод И.И., Малов А.В., Родионов С.В. Способ распараллеливания интеллектуального анализа данных в вычислительной среде. // Патент на изобретение №2745018 от 18 марта 2021 г
Название документа Ефремов М.А., Колпащиков М.А., Табаков П.Л. Программный адаптер для управления сервером федеративного обучения. //Свид. о государств. Регистрации программы для ЭВМ № 2021669639 от 23.11.2021.
Название документа Ефремов М.А., Табаков П.Л. Программа для регистрации клиентов федеративного обучения. //Свид. о государств. Регистрации программы для ЭВМ № 2021669370 от 23.11.2021.
Название документа Ефремов М.А., Аристархов И.Е. Программа управления клиентом федеративного обучения. //Свид. о государств. Регистрации программы для ЭВМ № 2021669391 от 23.11.2021.
Текущее финансирование :
10000000
Текущее финансирование (Описание) :
2020-2022: НИОКР «Исследование фреймворков ФО» и «Стенд для исследования и сравнения фреймворков ФО» профинансированы ООО Смартилайзер Рус, более 7 млн.руб. Выполнен грант 2 млн.руб. "Фреймворк для разработки систем анализа конфиденциальной информации"; выигран грант на акселерацию 800 тыс.руб
План развития :

Команда проекта

Численность проектной команды :
13
Структура и компетенции команды :
Учредитель организации, научный руководитель проекта, системный архитектор, 2 программиста бекенд, 1 программист фронтенд, 4 программиста ИИ (специалисты по большим данным), 2 инженера по тестированию, 1 менеджер по маркетингу и коммуникациям
Члены команды :
Филиппов Евгений Васильевич Учредитель К.т.н., доцент. Взаимодействие с партнерами, потенциальными заказчиками, подготовка отчетов. Опыт руководства IT-проектами 25+ лет; опыт в разработке ПО более 40 лет.
Холод Иван Иванович Научный руководитель Д.т.н., доцент, декан факультета КТИ СПбГЭТУ ЛЭТИ. Научное руководство, постановка задач, отслеживание хода работы, подготовка отчетов. Более 25 лет разработки ПО
Новикова Евгения Сергеевна Инженер-исследователь, программист ИИ К.т.н., доцент. Разработка методов, разработка методик проверки, анализ реализации с точки зрения безопасности. Более 8 лет исследований в области ИИ и МО.
Банников Алексей Александрович Системный архитектор Разработка архитектуры системы и отслеживание ее реализации. Более 25 лет разработки ПО.
Ефремов Михаил Александрович Старший программист (бэк-енд) Разработка методов и их программная реализация, разработка методик проверки, проведение испытаний. 5+ лет разработки ПО
Колпащиков Максим Алексеевич Программист (бэк-енд) Программная реализация методов, разработка кода макета (back-end). 3+ года разработки ПО
Сидорова Полина Александровна программист (ИИ) Подготовка наборов данных, разработка моделей, проведение испытаний. 2+ года опыт разработки в ИТ
Авдей Светлана Павловна Старший программист front-end Разработка методов и их программная реализация, разработка кода макета (front-end). 15+ лет разработки ПО
Золотарева Наталья Игоревна Ведущий инженер по тестированию, автоматизатор Руководство группой тестирования, разработка тест-кейсов, автоматизация тестирования. 15+ лет тестирования ПО
Постаногова Светлана Владимировна Менеджер по маркетингу и коммуникациям. Маркетинговые исследования, координация внешних и внутренних коммуникаций проекта. 20+ лет работы в области коммуникаций в IT-сфере
Фомичев Дмитрий Алексеевич Программист (ИИ) Разработка моделей федеративного обучения, проведение испытаний. 3+ года опыт разработки в области МО
Гурова Екатерина Игоревна инженер по тестированию Разработка тест-кейсов, ручное тестирование. 10+ лет тестирования ПО
Медведев Евгений Романович Программист (ИИ) Разработка моделей федеративного обучения, проведение испытаний. 3+ года опыт разработки в области МО

Финансовый профиль

Год Выручка Затраты Прибыль Инвестиции
2022 32559000 29511000 3048000 0

Предложение инвестору / партнеру

Потребность в производственном партнёре :
Ищем партнера имеющего и обрабатывающего большие данные централизованно. Наша технология позволяет производить обработку данных в тех местах, где они появляются, что позволяет работать с конфиденциальными и персональными данными. Можем обрабатывать данные с датчиков, изображения, видео. Технология позволяет: 1) "обогащать" данные, т.е. использовать в машинном обучении те данные, которые ранее были не доступны, 2) существенно снижать стоимость владения большими данными (нет необходимости в централизованном хранилище данных, снижается трафик передаваемых данных). Предполагается совместная работа с партнером по подготовке MVP на данных партнера: - взаимодействие с командой, занимающейся обработкой больших данных, - подготовка наборов данных для их децентрализованной обработки методами федеративного обучения.
Необходимые ресурсы для реализации проекта :
От партнера требуются: Владелец продукта для постановки целей и приоритетов; Наборы данных для их децентрализованной обработки методами федеративного обучения; Поддержка партнера при получении грантов на развитие технологии в ФСИ и в Сколково; Финансовая поддержка проводимых работ.
Дорожная карта развития проекта :
2023
Формирование целей проекта, Подготовка наборов данных, Подача заявки на грант НИОКР, Разработка MVP, Проведение экспериментов и анализ результатов, Формирование бизнес плана и заявки на грант на коммерциализацию.
Прикреплённые файлы к проекту :
Договор_0079731.pdf
Smartilizer Overview (2022-11)_Rus.pdf
Platform_short.pdf
Заявка_С1ИИ-217313.pdf
Support_Skolkovo_(NV_Suetin).pdf
Support_KTZN_(NA_Rogachev).pdf
EFilippov_2022_(Eng).pdf
Бизнес-план-1_Смартилайзер_(Платформа).pdf
Бизнес-план-2_Смартилайзер_(Оптимизация_коммерческой_техники).pdf
Контактная информация