Как работают алгоритмы машинного обучения в умной колонке SberBoom

ТЗ
AIСтатья

Научили модель выполнять простые команды без слова «Салют». А в некоторых случаях и в оффлайн-режиме.

Как работают алгоритмы машинного обучения в умной колонке SberBoom

Сначала короткая новость: обновились! В частности, добавили быстрые команды в интеллектуальные колонки SberBoom. Теперь не нужно начинать фразу с «Салют», чтобы выполнить простые действия. Достаточно команды, например: «Громкость 50%». Это удобно и быстро — быстрее, чем устройства выполняют команды обычно.

По этому случаю отвечаем на базовые вопросы о новой фиче и ML-моделях. Как устройство понимает, что ему нужно что-то сделать? Правда ли быстрые команды работают без интернета? И каково будущее умных устройств?

Что такое быстрые команды?

У каждого виртуального ассистента есть условное имя — споттерное слово. Чтобы запустить ассистента голосом, нужно назвать его по имени. «Салют» — это споттерное слово.

Теперь колонки SberBoom могут выполнить множество команд без споттерного слова. Так можно:

  • управлять воспроизведением музыки — например, «следующий трек», «пауза», «выключи».

  • Настраивать громкость. Причём можно сказать не просто «громче», «тише», но и указать точное значение, например, «громкость 8», «громкость 50%».

  • Управлять через экран навигацией в умном телевизоре Sber или ТВ-приставке SberBox: «открой/нажми», «домой», «назад», «левее», «выше» и так далее.

  • Управлять умным домом. Включать и выключать умный свет, менять его цвет и яркость (например,«включи красный свет с яркостью 1%»). Управлять устройствами Sber и брендов-партнёров.

  • Включать и выключать Bluetooth.

Колонка понимает синонимы. Например, вы хотите ещё раз послушать трек, который уже доиграл. Можно сказать: «Предыдущий!». А можно: «Назад!» или «Прошлый!».

Чем конкретно в умном доме можно управлять быстрыми командами SberBoom?

Лампами, лентами, ночниками, розетками с подключёнными к ним приборами — например, вентиляторами, гирляндами, аэраторами в аквариуме и так далее. Ещё умными чайниками, кондиционерами, пылесосами и другими устройствами брендов-партнёров, которые подключены к Умному дому Sber.

Можно включать и выключать всё. Можно настраивать яркость света, его цвет и температуру — например, «ярче», «темнее», «включи тёплый свет в гостиной», «включи красный свет с яркостью 1% в спальне». Названия комнат в быстрых командах колонка тоже понимает.

Как работают алгоритмы машинного обучения в умной колонке SberBoom

Как это работает?

Обычно, когда пользователь произносит активационную фразу, аудио запроса начинает стримиться на облачный сервер. Там речь автоматически распознаётся, текст обрабатывается, вызывается соответствующий навык/функция и так далее.

С быстрыми командами эти процессы происходят прямо в колонке. Условно, в интеллектуальных устройствах Sber появился мини-ассистент, способный выполнить конкретный набор команд. Это не одна, а сразу три ML-модели. Одна распознаёт речь, вторая определяет намерение и параметры команды, а третья фиксирует, что пользователь договорил. Суммарно они занимают на устройстве 6 Мб — меньше, чем некоторые фотографии или песни.

Выходит, быстрые команды выполняются без интернета?

Без интернета работает управление громкостью и воспроизведением, а также включение bluetooth, чтобы стримить музыку с телефона на SberBoom. Можно выводить музыку с телефона на колонку, даже если нет подключения, но музыка скачана на телефон. Или если нет Wi-Fi, но есть мобильный интернет — например, на даче.

Кстати, «управление музыкой» офлайн работает и для треков, которые проигрываются на колонке через Bluetooth.

Как работают алгоритмы машинного обучения в умной колонке SberBoom

Как умные колонки узнают, что я договорил?

Конец команды предсказывает отдельная ML-модель. Для её обучения собирают аудиозаписи, где в финале наступает тишина, и размечают, где запрос закончился — то есть показывают ей правильные ответы. Изучив их, модель вычисляет закономерности и опирается на них, чтобы самой прогнозировать конец запроса.

Что ещё за новые фичи появились?

Функция прямой настройки геолокации на базе нейросетевой модели GigaChat — теперь можно самостоятельно поменять геолокацию голосовой командой. Ещё теперь интеллектуальные колонки Sber (не только SberBoom) могут подсказать, до скольки работает ближайшая аптека, супермаркет и так далее. А в мобильном приложении появились опции родительского контроля и детского профиля для музыки. Кроме того, новая рекомендательная модель в Звуке формирует персонализированную подборку под вкусы пользователя.

Выходит, что однажды споттерное слово перестанет быть нужным? Вообще-вообще?

Всё зависит от девайсов. Чем мощнее они будут становиться, тем больше вычислений смогут производить локально на устройстве (а значит, выполнять больше быстрых команд). При этом некоторые функции в обозримом будущем вряд ли «переедут» на колонку. Например, чтобы включать разные треки быстрыми командами, пришлось бы перенести на устройство всю музыкальную библиотеку.

Быстрые команды определённо будут востребованы для управления умным домом. Кроме того, эта фича понадобится для передвижных устройств — машин, роботов… и других полезных умных вещей будущего, которые мы сейчас даже не можем себе представить.

Источник: https://vc.ru/tech/2156690-algoritmy-mashinnogo-obucheniya-v-kolonke-sberboom?source=advert-feed-recommendations

21

Комментарии (0)

Для добавления комментариев необходимо