Популярный мессенджер «Телеграм» теперь понимает марийский язык, создан соответствующий чат-бот. По словам Андрея Чемышева, «Первоначально для распознавания марийской речи необходимо собрать исходные данные. Это аудиокорпус с образцами речи – большой массив озвученных текстов. Причем озвученных не дикторами в студии, а разными людьми с их индивидуальными особенностями произношения, и записанных в реальных условиях, с фоном, характерным для повседневной жизни, таким, как уличный шум, например. Программа должна уметь различать эти нюансы».
На сегодняшний день собраны 257 часов записей текстов на марийском языке, а к концу 2023 года их планируется собрать минимум 300.