Задушевный разговор с компьютером

Представьте такую картину: пришли вы к врачу, а он, дружелюбный и внимательный, не перебивая, выслушивает все ваши жалобы, уточняет детали, а затем подробно разъясняет, какие вам необходимы анализы и какими средствами он собирается вас лечить. В конце встречи эскулап не занимается заполнением бумаг - за него это делает компьютер, который, подслушав разговор врача с пациентом, самостоятельно заполнит вашу медицинскую карту и выдаст на печать направления в лабораторию и все назначенные процедуры и рецепты.

Фантастика? Пока да, но есть обоснованная надежда, что в не очень отдаленном будущем так и будет. А сегодня над этой задачей - освободить врача от рутинной писанины - трудятся многие ведущие мировые разработчики. Среди них – калужская научно-производственная фирма «Эверест», специализирующаяся на научных исследованиях и разработке информационных систем. Молодой исследователь этой компании Александр Коновалов, который еще учится на втором курсе КФ МГТУ им. Н.Э. Баумана, на прошедшем недавно конкурсе «УМНИК» стал одним из победителей, представив проект «Разработка системы достоверного распознавания речи».

Поймите меня правильно!

Сегодня в мире пока не существует машинных систем, чтобы понимали человека с полуслова. Уже создано много систем, способных слышать людей и фиксировать текст, но хорошо понимают они только заранее выбранный ограниченный список слов, и произносить их надо четко, дикторским голосом, и между словами должны быть паузы, чтобы речь не сливалась. И при этом в лучшем случае правильное распознавание составляет процентов 85. Однако этого мало – даже 90 процентов, когда каждое десятое слово воспринимается неверно, превращают общение в мучительное непонимание. Если система предназначена для узкопрофессиональных пользователей, 95 процентов распознавания – это сейчас предел.

Как мы говорим в реальной жизни? Часто проглатываем окончания, промежутков обычно не делаем, произнося слитно целые фразы, нередко ошибаемся и заикаемся, подбираем слова, близкие по смыслу, меняя одно на другое, – и при этом понимаем друг друга! То есть кроме словарного запаса существует еще смысл этих слов, который можно донести до собеседника разными путями. А некоторые люди к тому же имеют дефекты произношения, которые для сегодняшнего компьютерного мозга становятся непреодолимым препятствием. Но в конечном итоге ученые собираются научить машину понимать именно такую речь – не очень внятную и без четких формулировок!

Английский опережает

В 80-е годы двадцатого века, когда по всей планете победно зашагали персональные компьютеры, наука планировала вот-вот преподнести человечеству искусственный интеллект, способный непринужденно вести беседу на любую тему. Но оказалось, что имитация работы человеческого мозга – задача невероятно сложная, и сроки ее решения все время отодвигались.

И все же за минувшие годы достигнуты значительные успехи в машинном распознавании человеческой речи. Правда, существенная доля работ велась на английском языке. В Соединенных Штатах были сделаны колоссальные вливания на такие исследования, и теперь уровень распознавания английской речи на десятилетия опережает достижения в русском языке. В частности, совсем недавно, в последние три-четыре года, в нескольких крупных клиниках США были внедрены программы, помогающие врачам тратить примерно вдвое меньше времени на записи, чем раньше, а значит, они могут принять больше пациентов. Несмотря на то, что эти программные средства очень недешевые, расходы быстро окупаются.

Родная речь

У нас в стране таких клиник еще нет. И таких программ для русского языка еще нет, хотя имеется несколько научных центров, где занимаются этими вопросами. Поэтому проект молодого калужанина привлек внимание членов жюри конкурса своей социальной направленностью, особенно учитывая, что распознавание речи требуется не только в медицинских приложениях. На эту тему состоялась наша беседа с лауреатом «УМНИКа» Александром Коноваловым и его научным руководителем Владимиром Кирилловым, директором НПФ «Эверест» по исследованию и развитию.

Как выяснилось из разговора, толчком к идее стали многочисленные жалобы врачей, которым остро не хватает времени на больных – чересчур много приходится заполнять бумаг!

Проект возник не на пустом месте, он будет осуществляться на основе уже созданных программных систем с открытым кодом, а главное его преимущество – предполагается достичь гарантированной точности распознавания не менее 99,5 процента. Для этого выбран математический аппарат искусственных нейронных сетей, который имитирует сети нервных клеток живого организма и сегодня признан одним из наиболее перспективных способов создания сложных компьютерных систем.

Через два года – на такой срок дается грант «УМНИКа» - должны быть выбраны оптимальные алгоритмы и разработана действующая технология. Созданный прототип системы планируется протестировать в одной из клиник Калуги.

- Мы хотим, чтобы врачи больше уделяли внимания пациенту, а не бумагам! – подчеркнул Владимир Юрьевич, отметив, что системы речевого ввода пользуются огромным спросом, и этот рынок скоро превысит миллиард долларов в год. Даже нынешние несовершенные системы ежегодно дают прирост более 20 процентов, и значение этой работы трудно переоценить.

Где еще можно применить подобную систему? Для работы за компьютером людей с ограниченными возможностями – незрячих, больных церебральным параличом или инвалидов, не способных работать с клавиатурой или мышью. Голосовой ввод позволит им полноценно трудиться, в том числе и на производстве, где можно подавать речевые команды различным механизмам.

А в дальнейшем по мере своего развития голосовой ввод, которым смогут пользоваться миллионы обычных, не очень продвинутых граждан, совершит настоящий прорыв в распространении информационных технологий. Подходишь к какому-либо современному устройству, сообщаешь ему, чего хочешь, – и не нужно нажимать никаких кнопочек.

Дерзать не вредно

Еще раз подчеркнем – задача надежного распознавания речи в мире окончательно не решена и в ближайшие пять-семь лет не ожидается – ни на английском, ни на испанском, ни на японском… А в нашей родной Калуге взялись за решение этой грандиозной проблемы на русском языке, где вообще работы непочатый край. Кажется, слишком уж широко замахнулись!

- В этом направлении очень серьезно работают гиганты индустрии «Apple», «Google», «Microsoft», «Yandex», и уже сейчас продвинутые пользователи применяют «Siri» или «О’кей, Google», - комментирует Александр Коновалов. - Я не тешу себя иллюзией, что смогу конкурировать с ними в понимании произвольного текста. Но надеюсь, что нам удастся превзойти их в выбранной нами области – распознавании речи с высокой точностью для корпоративных систем.

По окончании работы автор проекта планирует с помощью НПФ «Эверест» получить патенты на интеллектуальную собственность и создать предприятие, которое будет интегрировать голосовые решения в промышленные системы.

Его научный руководитель Владимир Кириллов тоже настроен на достижение поставленной цели:

- Думаю, что Саша Коновалов – достаточно толковый студент. Пока у нас есть хорошая идея, мы рассмотрели несколько возможных алгоритмов для реализации и считаем, что задача выполнима. Поэтому сегодня настроение у нас эйфоричное, а дальше посмотрим!

Тамара Кулакова

Источник: Весть-news