Транскрибация жестов на видео в текст

Основная информация

Автор предложения:
Основное технологическое направление :
Информационно-телекоммуникационные системы и программное обеспечение
Дата публикации:
16.01.2026
Видимость :
Да
Аннотация:
Проект направлен на создание технологии, которая будет являться расширением к программам, которые используются для онлайн-встреч, данная технология в режиме реального времени будет считывать положение рук собеседника во время видеозвонка и будет писать текст, который соответствует тем или иным жестам.

Разработка программного расширения для программ видеозвонков, которое позволяет транскрибировать жесты собеседника в текст. Программа будет и спользовать алгоритмы машинного обучения для распознавания жестов и их преобразования в текст в режиме реального времени. Инновационность решения заключается в создании моста между визуальной и текстовой коммуникацией, который открывает новые возможности для инклюзивного и эффективного общения.

Процесс работы системы начинается с захвата видеопотока через веб камеру с использованием библиотеки MediaPipe которая специализируется на детекции и отслеживании движений человеческого тела Технология использует продвинутое машинное обучение модели на базе TensorFlow способные с высокой точностью идентифицировать положение и движения рук, выделяя ключевые точки и анализируя их пространственные взаимоотношения. Ключевым элементом системы является нейронная сеть, обученная на массиве размеченных данных жестового языка Она преобразует пространственные координаты движений рук в семантически значимые жесты, используя глубокое машинное обучение и контекстный анализ Встроенный словарь жестов позволяет не только переводить стандартные жесты, но и постоянно расширяться благодаря механизмам адаптивного обучения.

Решаемые проблемы и области применения

Решаемые проблемы :
Психологи теряют потенциальных клиентов — более 200 000 человек, использующих жестовый язык как основное средство коммуникации. Привлечение сурдопереводчика для каждой консультации экономически нецелесообразно (от 2000 руб/час), нарушает конфиденциальность психологической сессии и ограничивает спонтанность записи клиентов.При росте спроса на онлайн-психологию специалисты вынуждены отказывать целому сегменту аудитории из-за технической невозможности коммуникации.
Области применения:
Здравоохранение и медицина

Технология

Описание технологии и ее ценность :
1. Захват видеопотока с камеры собеседника 2. Computer Vision для идентификации положения рук 3. Преобразование движений в семантически значимые жесты 4. Контекстный анализ с учетом диалогового

Текущее состояние

Стадия готовности :
TRL 2. Концепция
Описание текущего состояния :
Продукт прошел первоначальную валидацию, команда фокусируется на создании MVP
Интеллектуальная собственность :
Название документа -
Номер -

Команда проекта

Численность проектной команды :
2
Структура и компетенции команды :
Студенческая команда

Бизнес-модель

Целевые сегменты:
1. Целевая аудитория - Сервисы онлайн-психотерапии, IT-компании - Государственные и муниципальные образования 2. Ранние пользователи
Ценностное предложение:
1. Снижение затрат на коммуникацию Сурдопереводчик для онлайн-сессий стоит от 2000 ₽/час, а штатный специалист — от 60 000 ₽/мес. Технология HandSpeak обеспечивает перевод в реальном времени по подписке 10000 ₽/мес., снижая расходы сервисов на 70–90 %. 2. Расширение клиентской базы Более 200 000 носителей жестового языка в России не имеют доступа к

Предложение инвестору / партнеру

Необходимые ресурсы для реализации проекта :
финансирование, пилотирование
Дорожная карта развития проекта :
2025
2025 год - прохождение обучения в рамках акселерационной программы "Большая разведка", выход в финал акселератора
Контактная информация