Платформа анализа распределенных данных
Быстрый переход:
Основная информация
Название :
Платформа анализа распределенных данных
Организация-исполнитель :
Автор предложения:
Основное технологическое направление :
Системы обработки больших объемов данных, машинного обучения и искусственного интеллекта
Дополнительные технологические направления :
Технологии и программное обеспечение распределенных и высокопроизводительных вычислительных систем
Дата
публикации:
27.12.2024
Видимость :
Да
Аннотация:
Предлагаемая платформа реализует новые подходы к обработке клиентских данных, производит "обогащение" данных. Реализован прототип платформы машинного обучения распределенных данных без их передачи 3й стороне и без централизованной обработки с использованием технологии федеративного обучения.
Это позволяет:
- использовать в обучении конфиденциальные данные;
- обогащать данные с разных источников;
- снизить стоимость владения BigData.
Это позволяет:
- использовать в обучении конфиденциальные данные;
- обогащать данные с разных источников;
- снизить стоимость владения BigData.
Решаемые проблемы и области применения
Решаемые проблемы :
Для применения методов искусственного интеллекта и машинного обучения требуются большие данные. Во многих случаях такие данные не удается в достаточном количестве собрать в одном месте для их обработки и использования. Предполагается обучение различных аналитических моделей (регрессионных функций, прогнозных моделей и т.п.) на стороне клиентов (владельца данных) с последующим их обобщение на сервере, но без передачи данных куда-либо.
Актуальность проблемы:
Крупные банки, промышленные корпорации, добывающие и горно-обогатительный предприятия создают огромные ЦОДы, облака, озера для хранения и обработки больших данных. Такой подход требует огромных материальных и финансовых ресурсов. Предлагаемая платформа анализа информации (в т.ч. конфиденциальной, персональной) из разнородных, территориально распределенных источников, строится на принципе обработки информации в местах ее появления с использованием технологии федеративного обучения без ее передачи третьим лицам.
Потенциальный экономический эффект:
Обогащение данных за счет использования при обучении нескольких источников, включая конфиденциальную информацию;
Снижение стоимости владения BigData:
- не требуются большие объемы дисковой памяти, т.к. данные хранятся там, где формируются;
- могут использоваться каналы связи с низкой пропускной способностью, т.к. передаются только результаты анализа;
- не требуются большие вычислительные мощности, т.к. анализ выполняется распределено;
Снижаются риски «утечки» информации, т.к. данные остаются у своих владельцев и не передаются.
Технологическая схема:
Технология федеративного обучения подразумевает наличие модулей "клиент" на источниках данных и модуля "сервер" для агрегации результатов обучения. Платформа позволяет объединять, с одной стороны, владельцев данных и, с другой стороны, аналитиков, производящих анализ данных. Платформа интегрируется с информационными системами, помогающими руководству компаний принимать взвешенные обоснованные решения.
Области применения:
IT, электроника и приборостроение
Технология
Описание технологии и ее ценность :
Федеративное обучение - предполагает анализ данных и построения различных аналитических моделей (регрессионных функций, прогнозных моделей и т.п.) на стороне владельца данных без их передачи на сервер для обучения.
Преимущества технологии:
-снижаются риски «утечки» информации, т.к. данные остаются у владельцев
-происходит обогащение данных за счет использования многих источников
-каналы связи с низкой пропускной способностью, т.к. передаются только результаты анализа
-не требуются большие вычислительные мощности
Научная база :
Исследованы существующие фреймворки федеративного обучения:
https://www.mdpi.com/1424-8220/21/1/167
https://www.mdpi.com/1424-8220/22/8/2983
Разработана библиотека алгоритмов федеративного обучения - FL4J:
https://ieeexplore.ieee.org/document/9396508
Создан стенд для апробации применения технологии для разных прикладных задач;
Разрабатываются компоненты для быстрого прототипирования систем федеративного обучения.
Конкурентные технологии :
В настоящее время ведутся разработки библиотек с открытым исходным кодом: например, TensorFlow Federated, PaddleFL, FATE и др. Также разработаны и проприетарные библиотеки NVDIA Flare, IBM FL и HP Swarm Learning. Основные конкурирующие решения разрабатываются в США, Европейском союзе и Китае.
Инновационность технологии, конкурентные преимущества :
В рамках предлагаемого проекта планируется разработка методов ФО для анализа мультимодальных данных от различных источников об одних и тех же объектах и явлениях. Разработанные методы будут реализованы в библиотеке ФО для Java (FL4J) и апробированы на реальных данных. Разрабатываются компоненты для быстрого прототипирования систем федеративного обучения. Предлагаемая платформа является первым и единственным отечественным продуктом, способным конкурировать с мировыми лидерами как по функциональности, так и по показателям возможности работы с различными схемами распределения данных (вертикалтным, горизонтальным, смешанным)
Потенциал импортозамещения :
TensorFlow Federated, PaddleFL, Flower, FATE, NVDIA Flare, IBM FL и HP Swarm Learning
Текущее состояние
Описание текущего состояния :
Библиотека ФО (Federated Learning for Java - FL4J) https://gitlab.fkti.etu.ru/fl4j,
алгоритмы и компоненты фреймворка ФО для быстрого прототипирования и MVP; стенд для изучения фреймворков ФО; наборы данных; ПО для аннотирования данных и проведения экспериментов
Интеллектуальная собственность :
Название документа | Лицензионный договор с СПбГЭТУ ЛЭТИ на использование и развитие фреймворка ФО реализованного на базе библиотеки FL4J |
Название документа | Холод И.И., Малов А.В., Родионов С.В. Способ распараллеливания интеллектуального анализа данных в вычислительной среде. // Патент на изобретение №2745018 от 18 марта 2021 г |
Название документа | Ефремов М.А., Колпащиков М.А., Табаков П.Л. Программный адаптер для управления сервером федеративного обучения. //Свид. о государств. Регистрации программы для ЭВМ № 2021669639 от 23.11.2021. |
Название документа | Ефремов М.А., Табаков П.Л. Программа для регистрации клиентов федеративного обучения. //Свид. о государств. Регистрации программы для ЭВМ № 2021669370 от 23.11.2021. |
Название документа | Ефремов М.А., Аристархов И.Е. Программа управления клиентом федеративного обучения. //Свид. о государств. Регистрации программы для ЭВМ № 2021669391 от 23.11.2021. |
Текущее финансирование :
10000000
Текущее финансирование (Описание) :
2020-2022: НИОКР «Исследование фреймворков ФО» и «Стенд для исследования и сравнения фреймворков ФО» профинансированы ООО Смартилайзер Рус, более 7 млн.руб. Выполнен грант 2 млн.руб. "Фреймворк для разработки систем анализа конфиденциальной информации"; выигран грант на акселерацию 800 тыс.руб
План развития :
Команда проекта
Численность проектной команды :
13
Структура и компетенции команды :
Учредитель организации, научный руководитель проекта, системный архитектор, 2 программиста бекенд, 1 программист фронтенд, 4 программиста ИИ (специалисты по большим данным), 2 инженера по тестированию, 1 менеджер по маркетингу и коммуникациям
Члены команды :
Филиппов Евгений Васильевич | Учредитель | К.т.н., доцент. Взаимодействие с партнерами, потенциальными заказчиками, подготовка отчетов. Опыт руководства IT-проектами 25+ лет; опыт в разработке ПО более 40 лет. |
Холод Иван Иванович | Научный руководитель | Д.т.н., доцент, декан факультета КТИ СПбГЭТУ ЛЭТИ. Научное руководство, постановка задач, отслеживание хода работы, подготовка отчетов. Более 25 лет разработки ПО |
Новикова Евгения Сергеевна | Инженер-исследователь, программист ИИ | К.т.н., доцент. Разработка методов, разработка методик проверки, анализ реализации с точки зрения безопасности. Более 8 лет исследований в области ИИ и МО. |
Банников Алексей Александрович | Системный архитектор | Разработка архитектуры системы и отслеживание ее реализации. Более 25 лет разработки ПО. |
Ефремов Михаил Александрович | Старший программист (бэк-енд) | Разработка методов и их программная реализация, разработка методик проверки, проведение испытаний. 5+ лет разработки ПО |
Колпащиков Максим Алексеевич | Программист (бэк-енд) | Программная реализация методов, разработка кода макета (back-end). 3+ года разработки ПО |
Сидорова Полина Александровна | программист (ИИ) | Подготовка наборов данных, разработка моделей, проведение испытаний. 2+ года опыт разработки в ИТ |
Авдей Светлана Павловна | Старший программист front-end | Разработка методов и их программная реализация, разработка кода макета (front-end). 15+ лет разработки ПО |
Золотарева Наталья Игоревна | Ведущий инженер по тестированию, автоматизатор | Руководство группой тестирования, разработка тест-кейсов, автоматизация тестирования. 15+ лет тестирования ПО |
Постаногова Светлана Владимировна | Менеджер по маркетингу и коммуникациям. | Маркетинговые исследования, координация внешних и внутренних коммуникаций проекта. 20+ лет работы в области коммуникаций в IT-сфере |
Фомичев Дмитрий Алексеевич | Программист (ИИ) | Разработка моделей федеративного обучения, проведение испытаний. 3+ года опыт разработки в области МО |
Гурова Екатерина Игоревна | инженер по тестированию | Разработка тест-кейсов, ручное тестирование. 10+ лет тестирования ПО |
Медведев Евгений Романович | Программист (ИИ) | Разработка моделей федеративного обучения, проведение испытаний. 3+ года опыт разработки в области МО |
Финансовый профиль
Год | Выручка | Затраты | Прибыль | Инвестиции |
---|---|---|---|---|
2022 | 32559000 | 29511000 | 3048000 | 0 |
Предложение инвестору / партнеру
Потребность в производственном партнёре :
Ищем партнера имеющего и обрабатывающего большие данные централизованно. Наша технология позволяет производить обработку данных в тех местах, где они появляются, что позволяет работать с конфиденциальными и персональными данными. Можем обрабатывать данные с датчиков, изображения, видео. Технология позволяет:
1) "обогащать" данные, т.е. использовать в машинном обучении те данные, которые ранее были не доступны,
2) существенно снижать стоимость владения большими данными (нет необходимости в централизованном хранилище данных, снижается трафик передаваемых данных).
Предполагается совместная работа с партнером по подготовке MVP на данных партнера:
- взаимодействие с командой, занимающейся обработкой больших данных,
- подготовка наборов данных для их децентрализованной обработки методами федеративного обучения.
Необходимые ресурсы для реализации проекта :
От партнера требуются:
Владелец продукта для постановки целей и приоритетов;
Наборы данных для их децентрализованной обработки методами федеративного обучения;
Поддержка партнера при получении грантов на развитие технологии в ФСИ и в Сколково;
Финансовая поддержка проводимых работ.
Дорожная карта развития проекта :
2023 |
Формирование целей проекта, Подготовка наборов данных, Подача заявки на грант НИОКР, Разработка MVP, Проведение экспериментов и анализ результатов, Формирование бизнес плана и заявки на грант на коммерциализацию. |
Прикреплённые файлы к проекту :
Договор_0079731.pdf
Smartilizer Overview (2022-11)_Rus.pdf
Platform_short.pdf
Заявка_С1ИИ-217313.pdf
Support_Skolkovo_(NV_Suetin).pdf
Support_KTZN_(NA_Rogachev).pdf
EFilippov_2022_(Eng).pdf
Бизнес-план-1_Смартилайзер_(Платформа).pdf
Бизнес-план-2_Смартилайзер_(Оптимизация_коммерческой_техники).pdf