Один из соискателей вакансии в российско-американской IT-компании DataArt решил пройти дистанционное собеседование на знание английского языка с помощью мобильного телефона, двух компьютеров, Google Translate, программ распознавания и синтеза речи и, наконец, звукового фильтра. Ему почти удалось.
История опубликована в
Опишу суть: я использовал два компьютера, подключённых к интернету, и Google Translate с распознаванием и синтезатором речи. Для этого аналоговый тракт своего мобильного телефона я соединил с аудиокартами двух системных блоков.
На одном системном блоке работал гугл-переводчик с английского на русский, чтобы соискатель понимал, что у него спрашивают, а на другом — с русского на английский.
Таким образом я видел английский текст и слышал оригинал, видел перевод, а наговаривая ответ на второй компьютер, я синтезировал его в речь. Поскольку Google говорит женским голосом, я использовал цифровые фильтры Fruity Loops для придания ему мужского низкого тембра и в аналоговый тракт телефона отправлял уже обработанный звук.
Неестественность голоса маскировалась шумами. Проблемы начались из-за того, что 3G-модем прямо во время собеседования стал падать, и перевод застопорился. Тогда соискатель попытался отвечать на вопросы по-английски самостоятельно и провалил тест.
Когда в DataArt узнали о трюке, то решили встретиться с человеком, проявившим такую смекалку. Об этом
Чувак пытался пройти у нас собеседование на английском с помощью двух компьютеров, Google Translate и систем распознавания и синтеза речи. Мы позвали его поговорить, но он, увы, не прошёл техническое собеседование.
В комментарии пришёл бывший топ-менеджер компании <<Центр речевых технологий>>, которая занимается разработками программ синтеза и распознавания речи и продаёт их по всему миру, Алексей Хитров:
Это успех технологий! Мы сделали это!
В письме к работодателю горе-соискатель утверждает, что технология реально рабочая, нужно только немного её прокачать:
Cистему нужно усовершенствовать: сделать предобработку сигнала с микрофона, отрезав шумы, не дававшие эффекта тишины, важной для Google. Тогда он сам сможет прерывать обработку и выделять составляющую голоса, что позволит сократить исходящий трафик, поднять скорость соединения и не терять пакеты UDP. В этом случае система получается достаточно боевой. Переносим это на два Raspberry PI и получаем переводчик в реальном времени.
Возьмётся ли DataArt за такой проект, компания не сообщает.