Чей-то голос мне пропел [ 1 ]
Сохранить научную школу, вырасти на заказах госструктур, не только выйти на мировой рынок, но и стремиться к лидерству, — все это вместе мало кому удается. Центр речевых технологий этому научился

Рисунок: Константин Батынков

Девять лет назад в Баренцевом море затонула атомная подлодка «Курск». Через год после аварии со дна были подняты 22 кассеты с магнитофонными записями разговоров членов экипажа. За проведение экспертизы не взялась ни одна государственная организация — пленка была основательно изъедена солью и разорвана во многих местах.
Ни на что особенно не надеясь, силовики передали все записи в Центр речевых технологий (ЦРТ), небольшую питерскую компанию, которая была известна в тот момент лишь узкому кругу специалистов. В ЦРТ пленку долго чистили, склеивали, оцифровывали и, вопреки утверждениям о невозможности расшифровки, передали дословное содержание записей в прокуратуру. Дальнейшая судьба расшифровок неизвестна, а вот компания разработала оригинальную цифровую звукозаписывающую систему для кораблей российского флота. Уже несколько лет Центр речевых технологий обеспечивает ВМФ такими системами, более того, питерскую фирму уже знают на всех континентах планеты, треть своей продукции она поставляет за рубеж, в том числе иностранным госструктурам.
«Уникальное преимущество нашей компании в том, что это своеобразный технологический бутик», — рассказывает основатель и генеральный директор Центра речевых технологий Михаил Хитров. В компании умеют делать с речью все — распознавать, синтезировать, вести цифровую запись, убирать шумы, идентифицировать человека по голосу и создавать системы безопасности на основе голосовой верификации, аналогичной верификации по отпечаткам пальцев или радужке глаза. С помощью оригинальных технологий ЦРТ выпускает более двух десятков разных продуктов, многие из которых не имеют достойных аналогов на Западе. В этом году Центр речевых технологий стал победителем Конкурса русских инноваций в номинации «Инновационная компания».
Разговоры на частоту
«Я хочу лететь из Кировограда в Москву», — стараюсь говорить в микрофон обычным голосом. Через несколько секунд на экране ноутбука в окне программы, распознающей русскую речь, появляется текстовый перевод сказанной мной фразы: «Я хочу лететь
Голос представляет собой, по сути, «картинку» из различных частот: звуковые колебания преобразуются в электромагнитные, из которых на экране компьютера выстраивается частотный спектр. Узор, подобный хитросплетению линий на подушечках пальцев, тоже является биометрической характеристикой. Этот набор частот у каждого человека строго индивидуален и зависит не только от строения гортани и голосовых связок, но и от телосложения, ширины лица и даже привычек говорящего (правда, возможность обратного процесса — восстановления физического облика человека по голосу — до сих пор остается лишь многообещающей гипотезой речевиков).
Однако при распознавании речи эта индивидуальность — большой минус. Работа строится так: за каждой фонемой закрепляется собственная акустическая модель — набор частот, описывающий произнесение конкретного звука речи. На основе огромных речевых баз — сотен записей людей разного пола, возраста, с разным тембром голоса и акцентом — создаются усредненные наборы частот для отдельных звуков. В идеале эталон, к примеру, звука «а» должен быть похож на все уникальные «а» тысяч людей. И здесь ключевую роль играет качество речевых баз, ставших основой для акустических моделей. Их сбор давно стал отдельным видом «речевого бизнеса», так как требует немалых временных и финансовых затрат.
На следующем уровне, лексическом, в распознавании также начинаются проблемы: как компьютеру отличать друг от друга слова «луг» и «лук», которые произносятся одинаково. Для решения этой проблемы ученые придумали так называемые языковые модели, которые оценивают речевой контекст и высчитывают степень вероятности употребления одного слова за другим. Последовательность слов можно задать вручную, а можно с помощью текстовых данных большого объема построить статистические модели, отражающие степень вероятности употребления одного слова за другим в численном выражении. (Скажем, словосочетание «репчатый лук» в n раз вероятнее, чем «репчатый луг».) Данные, получаемые от этих двух моделей в ходе распознавания, попадают в декодер — программный компонент, который и выдает конечный результат распознавания в виде текста.
Пока компьютер понимает человека лишь в пределах заранее составляемых разработчиками словарей. К примеру, для покупки билета на самолет в ЦРТ предусмотрели лишь определенный набор фраз: «Я хочу лететь», «Я хочу билет», «Из Урюпинска в Москву». В ответ программа может синтезировать голос, который также произносит лишь строго определенные фразы — предлагает выбрать направление полета, сообщает расписание рейсов по выбранному направлению.
Но даже такая «ограниченная» программа сегодня ценится на рынке — с ее помощью, к примеру, можно автоматизировать
Клятва инноватора
Северная столица — родина мировой речевой науки. В 1942 году в блокадном Ленинграде молодой советский
«На создание компании меня вдохновил мой старинный приятель, который тогда был в Болгарии, занимался, кажется, компьютерами, — вспоминает Михаил Хитров. — В “Дальней связи” мы работали в основном по заказам правоохранительных органов. Делали, например, дешифратор гелевой речи, слышали про такое? Это когда акванавт спускается на глубину, он дышит уже не кислородом, а гелевой смесью, и голос меняется до неузнаваемости — становится квакающим, булькающим. Мы сделали дешифратор. И вот мой приятель предложил заняться обработкой и распознаванием речи для гражданки. У них тогда в стране было свободнее, западные
Вокруг предприимчивого инженера за несколько месяцев собралась небольшая группа речевиков, из которой впоследствии сложился будущий костяк ЦРТ. Сергей Коваль, например, которого Хитров позвал тогда из «Дальней связи», до сих пор работает в компании. Придумали название — Центр речевых технологий и написали устав. «Смешной устав был, там один из пунктов гласил: “Обязуемся работать в области создания исключительно высокотехнологичной продукции, связанной с обработкой речи”», — улыбается Михаил Хитров своей «клятве инноватора».
Никаких кредитов брать не стали — и потому, что тогда это было почти невозможно, и потому, что попросту не умели. Сняли офис на окраине Питера, где «чуть ли не ветер выл в коридорах и помещения никем не убирались». Раньше там располагался
Однако далеко уйти от государственного спроса у компании сразу не получилось. Заказы, поддерживавшие финансовую устойчивость бизнеса, все равно были государственными. Одними из первых в Центр речевых технологий обратились представители МВД с просьбой разработать для ведомства систему анализа и визуализации речевых сигналов. По мнению некоторых бывших коллег по «Дальней связи», это далеко не случайно: Михаил Хитров имел доступ к базе заказчиков НИИ, и многие госструктуры, числившиеся в ней, впоследствии стали работать с ЦРТ. Так или иначе, Центр речевых технологий почти с самого начала и в России, и за рубежом стали воспринимать как преемника учреждений советской речевой науки.
Собирание речевиков
— Мы, частная компания, умудрились в области речевых технологий заменить собой все институты и академии. У нас треть сотрудников — ученые, что тоже является инновацией. Ведь это идет вразрез со всем, что только есть: считается, что ученые должны работать в Академии наук и в разных институтах, — с гордостью рассказывает Юлия Хитрова, коммерческий директор ЦРТ.
Правда, Центр речевых технологий совершенно не похож на среднестатистический российский, а тем более советский НИИ, которому он наследовал. Почти все питерские
В период развала советской речевой науки фирма стала центром «собирания речевиков». В ЦРТ до сих пор приезжают работать специалисты из других регионов страны — Владимира, Томска, Липецкой области. Питерцы даже наладили научный аутсорсинг: в разработках участвуют специалисты из Белоруссии, у которых в свое время сформировалась собственная школа речевых технологий.
Специфика речевого научного знания заключается в его междисциплинарности: в ЦРТ работают люди десятков специальностей.
Компания старается восполнить пробел в государственном образовании своими силами. «Всерьез мы столкнулись с нехваткой кадров года три назад. По нужной нам специальности в российских университетах специалистов не готовят. И мы решили сделать университет “на дому”: сами подготовили курс лекций, набрали в группу двадцать студентов, платили им деньги, засчитывая обучение за испытательный срок в компании. В итоге из двадцати человек у нас работают трое», — делится опытом Юлия Хитрова. Низкая отдача несколько смутила руководство компании, и ЦРТ решил ограничиться тем, что платит стипендии лучшим студентам старших курсов ведущих питерских вузов, а также проводит конкурсы на лучшую курсовую работу по речевой тематике. «Мы сейчас подобны сеятелям: сеем семена и надеемся, что они взойдут», — подытоживает коммерческий директор компании.

Михаил Хитров, гендиректор ЦРТ: «Наша компания — своеобразный технологический бутик»
Автомат научит
Рынок речевых технологий делают государственные структуры. Системы шумоподавления, профессиональные диктофоны, программы фонографического анализа речи, программы, изменяющие голос свидетелей при даче показаний, — классика, которую у Центра речевых технологий неизменно приобретают силовики и криминалисты. В Совете Федерации и в Государственной думе установлены питерские системы документирования выступлений «Нестор». Все речи заседающих оцифровываются в режиме онлайн и поступают на сервер, где специальная программа делит запись на части, а затем каждая из них обрабатывается машинисткой с возможностью в любой момент повторно прослушать фрагмент.
Однако в последние годы компания начала проникать на рынок коммерческих заказов. Клиентами ЦРТ становятся
«Биометричность» голоса открывает другие перспективные направления в речевом бизнесе. В ЦРТ разработали технологию верификации Voice Key. При произнесении человеком парольной фразы специальная программа анализирует на соответствие «узор» голоса с записанными ранее образцами. Технология демонстрирует высокую надежность: вероятность отказа в регистрации «своему» — 2%, вероятность пропуска «чужого» — 0,75%, в то время как для верификации по отпечаткам пальцев эти показатели равны 4 и 2,5% соответственно, для верификации по радужке глаз — 7 и 6%.
На основе технологии Voice Key в ЦРТ уже разработали программу для идентификации пользователей в интернете для ограничения доступа к платежным системам,
Бревна летят
Речевой биометрией в мире занимается довольно много компаний, но питерская технология языко и акцентонезависима. Это позволяет ЦРТ активно работать на международном рынке. Многоканальные системы регистрации и записи телефонных звонков, установленные в службе «02»
По словам Юлии Хитровой, в каждой стране есть своя специфика работы с клиентами. «Когда мы первый раз приехали в Китай и привезли наши продукты для идентификации личности по голосу, китайцы сидели открыв рот — все им нравилось, они восхищались разработками, но первое, что спросили: “У вас тут стоит
В свое время экспорт помог компании пережить кризис 1998 года. «Мы нарастили свои экспортные возможности на 50–60 процентов», — говорит Михаил Хитров. Даже в нынешний кризис годовая выручка компании в долларовом эквиваленте все равно вырастет — как раз за счет экспорта.
Единственное препятствие для ЦРТ на международном уровне — российская таможня. «Покупатель хочет оплатить сегодня, а получить товар максимум завтра. В той же Америке не понимают, что такое растаможка. У нас уже были случаи, когда сделка срывалась: пока мы оформляли документы,
В ближайшем будущем в ЦРТ прогнозируют появление речевой инновации, которая может сильно повлиять на развитие не только речевых технологий, но и, скажем, интернета. Юлия Хитрова считает, что уже в скором времени появятся полноценные аудиоконкуренты Google — системы поиска по аудиозаписям. В глобальной сети накопился огромный аудиомассив, от песен до записей выступлений на научных конференциях. Питерцы ведут активные разработки в этом направлении. «Мы уже сейчас тестируем рабочую систему, когда человек, допустим, пожелает найти ближайшее к определенной станции метро отделение
Питерская компания намерена стать флагманом технологических преобразований в отрасли. «У нас при разработке технологий не то что щепки — бревна летят», — шутит Михаил Хитров. В его планах — за два года увеличить обороты ЦРТ втрое. По данным инновационного бюро «Эксперт», сейчас ежегодная выручка компании составляет около 30 млн долларов. На внутреннем рынке питерцы намерены активно продвигать системы голосового самообслуживания в коммерческом секторе и системы автоматической обработки речи для силовых структур, а на международном — лаборатории по криминалистическому анализу речи.




