Google улучшила качество распознавания рукописного ввода в виртуальной клавиатуре Gboard
12.03.19
Google улучшила работу алгоритмов искусственного интеллекта для более коректного распознавания рукописного текста в своей виртуальной клавиатуре для мобильных устройств. К моменту запуска в 2015 году функция работала с 82 языками, а за прошлый год их количество превысило сотню.
В первоначальном подходе Google строка разбивалась на отдельные письменные символы, каждый из которых ассоциировался с несколькими вариантами подходящих букв, а затем подбирались наиболее вероятные слова. Теперь же происходит анализ последовательности ключевых точек с учётом временных меток и штрихов между ними, которая затем нормализируется и преобразуется в кубические кривые Безье. Этот процесс декодирования символов предоставляет вводные данные для многослойной рекуррентной нейронной сети (RNN). Экспериментируя с различными типами RNN, разработчики Google остановились на квазирекуррентных нейронных сетях (QRNN). Они обеспечивают лучшие результаты прогнозирования, что становится возможным благодаря чередованию свёрточных и рекуррентных слоёв.

Рекуррентная нейронная сеть создает матрицу, в которой каждый столбец соответствует одной входной кривой, а каждая строка соответствует букве в алфавите. Столбец для конкретной кривой можно рассматривать как распределение вероятностей по всем буквам алфавита (яркость ячейки соответствует степени вероятности). Однако каждая буква может состоять из нескольких кривых. Например, g и o на приведённом изображении состоят из четырёх и трёх кривых соответственно. Распознаватель на основе QRNN преобразует последовательность кривых в последовательность вероятностей символов. В матрице декодера встречаются в основном пробелы и яркие точки для символов «g» и «o», в результате чего выводится текст «go».

Новый подход позволил существенно, на 20–40 %, уменьшить количество ошибок при распознавании рукописного текста. Но для обеспечения удобного пользовательского окружения недостаточно добиться точной работы, её нужно сделать ещё и быстрой. Поэтому разработчики сконвертировали обученные в TensorFlow модели в модели TensorFlow Lite, вчетверо сократив нагрузку, и достигли минимальных задержек в клавиатуре Gboard при исполнении всех задач на самом мобильном устройстве.
Не пропустите интересное!
Підписывайтесь на наши каналы и читайте анонсы хай-тек новостей, тестов и обзоров в удобном формате!
Обзор смартфона Oppo A6 Pro: амбициозный
Новый смартфон Oppo A6 Pro — телефон среднего уровня с функциональностью смартфонов премиум-класса. Производитель наделил его множеством характеристик, присущих более дорогим телефонам. Но не обошлось и без компромиссов. Как именно сбалансирован Oppo A6 Pro – расскажем в обзоре.
One UI 8.5: новая жизнь старых смартфонов Samsung — что даёт обновление?
One UI 8.5 приносит старым Samsung Galaxy функции, которые ещё недавно были эксклюзивом новых флагманов. Но действительно ли обновление способно сделать Galaxy S22, S23 и S24 ближе к уровню Galaxy S26? Разбираемся, что меняется после установки прошивки.
Xiaomi YU7 GT показала невозможное: машина без водителя на легендарной трассе
Беспилотная версия кроссовера Xiaomi YU7 GT поставила исторический рекорд автопилотирования, одолев Нюрбургринг за 10 минут и 29 секунд без помощи человека.
Phosgo Go 5 Ultra: Электробайк на солнечных батареях
Phosgo Go 5 Ultra стал одним из самых необычных электробайков года благодаря солнечным панелям в ободах колес и запасу хода до 193 км.


