Голосовое управление машиной на русском языке [Архив] - PCCar.ru

Rai220

20.11.2012, 13:37

Во многих машинах сегодня есть голосовое управление, но работает оно всегда ужасно.
Надо нажимать кнопочку, потом говорить определенную команду.
Распознавание не всегда срабатывает, списки команд запомнить сложно.

Я хочу управлять машиной более свободно, чтобы мочь сказать фразу в любой момент, без предварительной активации. И чтобы пассажир мог сказать. И чтобы команды не заучивать.

Казалось бы, это очень сложно? Но у меня есть домашний проект, который мог бы с этим справиться. Собственно, вот он (http://www.youtube.com/watch?v=u1HW5wVtUd0).

Что хорошо: интернет не требуется, шума не боится. Язык команд может быть очень развитыми. Например, таким (http://www.youtube.com/watch?v=zNIlF-dxn-s) (тут другой движок распознавания речи, не тот, что в первом ролике - его я в машину ставить не хочу).
Что плохо: работает пока только под windows, x86 и прочие сопутствующие...

Собственно вопрос к сообществу: интересна ли такая технология в машине? Что бы вы сделали, будь у вас действительно качественная система голосового управления? Может быть только одного меня коробит, что мой автомобиль со мной не здоровается.

admin

21.11.2012, 01:38

Можно про движек распознавания по подробнее?
Про Гугл не спрашиваю, так как Вы написали что интернет не используется.
Вы используете софт от компании Nuance Communications?
Или своя Нейронная сеть? Обучалась каким количеством дикторов?

Hamster

21.11.2012, 02:07

Посмотрел первое видео и хотел уже автора банить :) Как-то не убедительно было.
После второго видео понял, что разработка реальная. Особенно после того как продукт добрался до инета и популярно объяснил, почему Путин краб :)

Rai220, давай подробности!

Phantom_spb

21.11.2012, 02:23

интересно....подробности будут?

admin

21.11.2012, 02:28

Я думаю что он ищет спонсора и обьявление все таки рекламное.
Посмотрим, может быть я ошибаюсь и автор появится

Hamster

21.11.2012, 02:33

Я думаю что он ищет спонсора и обьявление все таки рекламное.

Возможно. Я банить хотел за "враки" :)
По функционалу вторая ссылка соизмерима с Siri, но вот какова нагрузка на комп, если мы не используем кнопки активации и "волшебные слова" я не могу оценить.
Вообщем, будем поглядеть :)

admin

21.11.2012, 02:48

У меня есть подобный проект (http://cyber-place.ru/showthread.php?t=280), только я использую гугловскую распознавалку
ВИДЕО (http://www.youtube.com/watch?v=r8r2LvNs5CQ&feature=player_embedded)

Rai220

21.11.2012, 12:53

Разработка не фейк, банить не надо :) Собственно, в англоязычном сегменте таким распознаванием никого не удивишь.

Распознавание речи использует решение от Microsoft. От меня к нему добавилась только правильная настройка и знание о том, как его готовить. Обучение компьютера не требуется, обучение человека в принципе тоже, но одни понимает идеально, других хуже. Вот ребенка моего (3.5г), понимает с десятого раза.

Требования к компьютеру умеренные. Думаю, заработает на любой машине, где можно поставить windows 7 и .net 4.5. На ARM, конечно, это никак не портировать, но в данный момент я как раз работаю над проектом, который будет иметь аналогичный функционал на Cortex A10.

А вот требования к микрофонам серьезные. Для дома нужен очень чувствительный микрофон с АРУ. Я использую контроллер Kinect c решеткой из 4-х микрофонов. В машине для водителя можно обойтись более дешевыми решениями. Но вот простого микрофона будет недостаточно совершенно точно. Нужно ориентироваться на цену 1500-2000 рублей в рознице.

Я не очень хочу выкладывать само решение в открытом виде, так как хочется привлечь под него деньги и сделать стартап - либо про умный дом, либо про умный автомобиль. Но инвесторы в очередь не выстраиваются, а сделать что-то хорошее хочется :)

Поэтому хочу написать бесплатный модуль для голосового управления чем-либо. Собственно, хочется оценить, применимо ли это к CarPC, насколько распространен на них windows (подойдет только win 7 и выше) и чем в машине хотелось бы управлять.

У меня есть подобный проект (http://cyber-place.ru/showthread.php?t=280), только я использую гугловскую распознавалку

Здорово! Занимаемся аналогичными проектами. Собственно, выше упомянуто видео про "путин - краб", там тоже гугловская распознавалка используется. А вы свой проект не думали на авто применять? Понимаю, что требования к интернету здесь критичны, но я, например, со своим гугл смартфоном вполне сносно могу поговорить череж 3g, сидя в пробке.

admin

21.11.2012, 13:05

Система для управления умным домом уже есть и судя по их форуму она не не пользуется огромным спросом
http://www.youtube.com/watch?v=YFATnBe9p1s&feature=player_embedded

awtoap

21.11.2012, 13:41

Читал про голосовое и умный дом в частности на форумах в ознакомительных целях и спросом действительно не пользуется. У людей очень разные понятие "что нужно для счастья" в доме. А ценники порой не адекватные. И нужно изначально закладывать инфраструктуру коммуникаций по дому (проводку), что означает порой полный ремонт дома. По видео выше видно, что это идеализированное представление, в реальности, думаю, работает хуже. И постоянно произносить кодовое слово (тоже Ева) задолбает. Даже в авторском варианте пауза для распознавания довольно большая и как сам пишет распознает одних нормально, а других с 10 раза, по этому скажем меня это точно бы вывело бы из себя после третьего повтора команды ))).

В авто тоже можно попробовать распознавалку, но я не вижу особого смысла в этом ибо не так много нужно совершать действий в авто, а тем более повторяющихся операций (я не беру в расчет дергание коробкой).

Конечно можете выложить библу в ознакомительных целях. Даже самому стало немного интересно. Скажем постановка на охрану(запуск двигла и тд) голосом у многих прохожих вызовет шок. А тем более чикса приятным голосом дублирует команды(правда её еще нужно записать) )))

Hamster

21.11.2012, 13:50

Меня от умного дома остановило только одно - ремонт хороший, а для того, чтобы сделать все красиво необходимо дофига коммуникаций заново проложить :( А если на радиореле строить - без штанов останешься.
Поэтому остановился пока на банальной видеорегистрации с возможностью удаленного просмотра.

admin

21.11.2012, 14:03

По видео выше видно, что это идеализированное представление, в реальности, думаю, работает хуже. И постоянно произносить кодовое слово (тоже Ева) задолбает.
Я сделал управление проще, можно слово триггер и команду произносить в одном предложении
например: "Ева, включи свет"
Мало того можно говорить что угодно, но главное произнести в предложении триггер и команду, например: "Евачка дура, давай включай быстрее свет" или так
"включай быстрее свет Евачка тупица"

Все это реализовал на роутере WR703N (http://cyber-place.ru/forumdisplay.php?f=38), но так как я с линуксом пока еще на Вы, то не могу разобраться с драйвером звуковой карты.
При ресемплировании тормозит, а без ресемплирования получается огромной длины фаил, что приводит к большим паузам между командой и ее выполнением
Как настроить драйвер Alsa что бы по дефолту частота была 8000Гц , а не 44000 Гц я не знаю.

awtoap

21.11.2012, 14:09

Так вот и вопрос...нужно обучать систему на корневые составляющие слова или сама поймет? Типа включи, включай, вкличинах свет(освещение, люстру)?

И самое главное какая помехозащищенность в распознавание скажем при работающем телеки (радио и тд)?

admin

21.11.2012, 14:32

Если говорить о собеседнике, то он сам поймет, если его этому обучали в процессе общения

Если рассматривать командный процессор , то нужно будет написать корни всех возможных команд и триггеров в конфиге

И самое главное какая помехозащищенность в распознавание скажем при работающем телеки (радио и тд)?
У системы можно настроить порог срабатывания.
При средней громкости телевизора работает нормально, ложные срабатывания где то 10%

Rai220

21.11.2012, 14:54

Читал про голосовое и умный дом в частности на форумах в ознакомительных целях и спросом действительно не пользуется.

Потому и не пользуется, что работает плохо. Я на форуме этого проекта выложил свое видео, там тоже возникло мнение, что это фейк :) Дескать мы уже много лет над распознаванием работаем, не мешай... :)

даже в авторском варианте пауза для распознавания довольно большая

Нет, на видео тормозит как ни странно синтез. В другом моем проекте (http://www.youtube.com/watch?v=80o9OMQGcDU&feature=relmfu) используется тот же механизм распознавания и железо мощнее, скорость ответа близка к живому человеку.

Как настроить драйвер Alsa что бы по дефолту частота была 8000Гц , а не 44000 Гц я не знаю.

А нет смысла настраивать на 44000. Если используете google через нелегальный api от хрома, то его родная частота - 16кГц.

Гугл плохо подходит для умного дома как раз потому, что распознать что-либо на расстоянии с ним очень проблематично. Попробуйте записать голос с трех метров и распознать - ничего не получится.

Помехозащищенность конкретно в моем случае спорная. Простые шумы вроде, вроде звука вытяжки или даже пылесоса особо не мешают. Но вот если в одной комнате кто-то болтает, то отдать системе команду практически невозможно. Необходимо, чтобы за пару секунд до команды все остальные люди перестали громко говорить хотя бы в течении пары секунд. С телевизором скорее всего будет та же ерунда.

В машине с этим проще бороться, т.к. мы точно знаем, где сидит "командир" и можем навести на него микрофоны.

awtoap

21.11.2012, 15:28

В том то и проблема, что в авто может находится не один человек...ну скажем дети на заднем сиденье и сказать что бы они замолкли, а то я буду заклинание произносить с первого раза вряд ли получиться ))).

По этому для продвижения на рынок в том виде, в котором оно сейчас есть мало перспективно...игрушка и не более. А в нашей стране люди хотят сегодня лимон вложить, но завтра (в буквальном смысле слова) уже получить десять и не о каких годах внедрения и речи быть не может!

Зы. В видяхе пылесос какой то медлительный )))

admin

21.11.2012, 15:57

Гугл плохо подходит для умного дома как раз потому, что распознать что-либо на расстоянии с ним очень проблематично. Попробуйте записать голос с трех метров и распознать - ничего не получится. У меня используется микрофон с АРУ и распознает отлично с 5 метров

А нет смысла настраивать на 44000. Если используете google через нелегальный api от хрома, то его родная частота - 16кГц.
Вот поэтому я и ищу решение, как настроить драйвер. Использовать постоянно включенный компьютер, тоже является серьезным тормозом развития этой технологии

Но вот если в одной комнате кто-то болтает, то отдать системе команду практически невозможно. Необходимо, чтобы за пару секунд до команды все остальные люди перестали громко говорить хотя бы в течении пары секунд. С телевизором скорее всего будет та же ерунда.
Если настроить чувствительность на повышенный тон, то все прекрасно работает

В машине с этим проще бороться, т.к. мы точно знаем, где сидит "командир" и можем навести на него микрофоны.
А вот в автомобиле эта технология не особо востребована, потому как мне проще нажать кнопку, благо они в автомобиле все рядом или на руле.

Rai220

24.11.2012, 15:57

Я познакомился с разработчиками iCar DS и решил попробовать сделать плагин голосового управления для этой системы. Но прежде всего буду проводить "полевые испытания" того, как система себя чувствут в автомобиле с точки зрения её акустического комфорта.

Сегодня собрал "автомобильную" версию словаря, которая позволяет командовать светом. Вот она:

http://www.youtube.com/watch?v=v0_83xKzCco

Теперь вопросов к скорости реакции лично у меня нет. К "ключевым словам" вне контекста тоже очень устойчива.

В примере словарь описывает 1500 выражений, отличающихся по смыслу и около 10 000 различных выражений. Всякие окончания (два-две-двух) фильтруются как погрешность.

Осталось проверить на улице.

P.S. Вопрос не в тему, но хотелось бы подключить эту штуку, напрямую к авто. Машина toyota prius 3. Кто-нибудь знает, есть ли шанс управлять в ней чем-нибудь с помощью elm327, или эта штука только читает?

admin

24.11.2012, 17:18

У Тойоты есть CAN и Avc-Lan

Rai220

03.12.2012, 01:50

Первая проба подружить голос и CarDS в авто. Получается интересно, но точно есть, куда двигаться.

http://youtu.be/0U842AGUQBM

Hamster

03.12.2012, 02:06

Очень жизненно :) Т.е. я имею ввиду, что в условиях машины система ведет себя очень адекватно и предсказуемо :) И хоть на мой взгляд фраза "Включить навигацию" не сильно круче нажатия кнопки Navi на торпеде - идея безусловно имеет право на реализацию, да что там - просто здорово :)
Большой плюс этой системы будет тогда, когда она позволит голосом проговаривать не простые команды (которые сейчас дублируются физическими кнопками в авто), а гораздо более сложные. Ну, к примеру:
- найти ближайшую заправку на маршруте и проложить маршрут через нее
- сообщить мне, если мы будем проезжать недалеко от отделения Альфабанка
Т.е. на сколько я понимаю - распознать голос тут будет не сложно, а вот заставить софт установленный в carpc сделать это будет весьма непросто.

З.Ы. И это, аккуратнее при съемках за рулем.... Мало ли что - и ночью такие дебилы на дорогах попадаются, мама не горюй...

wladkom1953

03.12.2012, 02:33

Занятное видео,заманчивые перспективы для авто. Буду с интересом наблюдать за этой темой.

sirota

05.12.2012, 09:56

Rai220

Когда можно будет затестить ''управление''?

Rai220

10.12.2012, 01:30

Rai220
Когда можно будет затестить ''управление''?

Надеюсь, что на зимних праздниках у меня будет время все доделать и выпустить бета-версию. Но обещать не буду, т.к. проект любительский и делается от раза к разу, когда выдается свободная минутка.

Новости о ходе разработки буду выкладывать в этом топике.

Только что протестировал работу с направленными микрофонами. Стало лучше. Система хорошо меня понимает, даже если я включаю музыку на 50% громкости (сложно, конечно, объяснить, сколько это в дБ... у меня штатная тойотовская система на 8 колонок с усилком. 50% это довольно громко, просто так столько не включаю). Если по радио идет сплошная болтовня, то допустимая громкость снижается до 40%, что тоже неплохо.

Работа с микрофонами продолжается.

Вот видео (http://www.youtube.com/watch?v=l-LUBSdmS-0), где система отвечает на вопросы о регионах (что за регион 197?).

admin

10.12.2012, 01:40

А микрофон на webcam Logitech не тестил?

Rai220

10.12.2012, 09:34

А микрофон на webcam Logitech не тестил?

Нет, в машине логитеч пока не пробовал. Пробовал хорошую камеру Creative. Но с камерами проблема общая - они хорошо слышат все, а АРУ к тому же все звуки выводит на один уровень.

(Кстати, чуть оффтоп - у меня действительно получилось распознавать гуглом с пяти метров! Правда только в небольших комнатах с большим количеством мебели. Чуть места становится больше, реверберация начинает всё запарывать).

sirota

10.12.2012, 10:18

Надеюсь, что на зимних праздниках у меня будет время все доделать и выпустить бета-версию.

Ждем с нетерпением.:yes4:
Думаю эта интересная феничка(безопастного управление компом, во время движения) многим понравится, и тем более у кого нет рулевых кнопок, и джостиков.

filinmd

10.12.2012, 10:32

Ждем с нетерпением.:yes4:
Думаю эта интересная феничка(безопастного управление компом, во время движения) многим понравится, и тем более у кого нет рулевых кнопок, и джостиков.

+1!! Я хотел реализовать подобное на плате распознавания голоса (http://www.ebay.com/itm/280793964171?ssPageName=STRK:MEWNX:IT&_trksid=p3984.m1439.l2649) , но по сравнению с этот системой , мой вариант нервно курит в сторонке :)

toyotik

10.12.2012, 15:59

+1. Ох как хочется уже потестить)))

toyotik

12.12.2012, 15:12

Rai220 у меня есть еще стимул для применения в своей сфере ( системы безопасности) Прикольно будет если охранник будет брать под охрану здание голосом)))

CyberSubaru

12.12.2012, 16:29

Распознавание речи использует решение от Microsoft.

Так и подумал сразу - Микрософт Спич.

Тоже работаю с этим. Только синтезом.

CyberSubaru

12.12.2012, 16:31

А вообще распознание речи в машине - дело проблематичное.
Например у меня постоянно ОРЕТ музыка.
И что можно распознать на таком фоне?
И я не одинок.

MiD_E34

12.12.2012, 16:36

А вообще распознание речи в машине - дело проблематичное.
Например у меня постоянно ОРЕТ музыка.
И что можно распознать на таком фоне?
И я не одинок.
Ларингофоны )

CyberSubaru

12.12.2012, 16:47

Очень жизненно :) Т.е. я имею ввиду, что в условиях машины система ведет себя очень адекватно и предсказуемо :) И хоть на мой взгляд фраза "Включить навигацию" не сильно круче нажатия кнопки Navi на торпеде - идея безусловно имеет право на реализацию, да что там - просто здорово :)
Большой плюс этой системы будет тогда, когда она позволит голосом проговаривать не простые команды (которые сейчас дублируются физическими кнопками в авто), а гораздо более сложные. Ну, к примеру:
- найти ближайшую заправку на маршруте и проложить маршрут через нее
- сообщить мне, если мы будем проезжать недалеко от отделения Альфабанка
Т.е. на сколько я понимаю - распознать голос тут будет не сложно, а вот заставить софт установленный в carpc сделать это будет весьма непросто.

З.Ы. И это, аккуратнее при съемках за рулем.... Мало ли что - и ночью такие дебилы на дорогах попадаются, мама не горюй...

Не один ТС озадачен этим :-)

Rai220

12.12.2012, 21:11

Rai220 у меня есть еще стимул для применения в своей сфере ( системы безопасности) Прикольно будет если охранник будет брать под охрану здание голосом)))

Если есть коммерческое предложение, то можем обсудить :) Я, кстати, тоже в сфере безопасности работал в свое время. Писал ПО Lyrix.

А вообще распознание речи в машине - дело проблематичное.
Например у меня постоянно ОРЕТ музыка.

Это решаемо. Во-первых нужен направленный микрофон (вернее решетка микрофонов с фокусировкой), во-вторых часть музыки можно убрать, с помощью вычитания эха, если сигнал проходит через CarPC.

admin

13.12.2012, 02:05

А вообще распознание речи в машине - дело проблематичное.
Например у меня постоянно ОРЕТ музыка.
И что можно распознать на таком фоне?
И я не одинок.
У меня в автомобиле штатное распознавание установленно.
Так там все просто, нажал кнопку на руле, все что играло, сразу заткнулось и в ответ приятный женский голос предлагает, что бы я голосом надиктовал команду

Rai220

13.12.2012, 12:09

У меня в автомобиле штатное распознавание установленно.
Так там все просто, нажал кнопку на руле, все что играло, сразу заткнулось и в ответ приятный женский голос предлагает, что бы я голосом надиктовал команду

Да, у меня точно такое же... нажал кнопку, прослушал инструкцию, сказал после сигнала один из 10-15 вариантов. Работает очень хорошо, но меня не впечатляет.

Некоторые функции находятся аж на третьем уровне вложенности, команды надо запоминать, т.к. если читать их с экрана, то смысл теряется.

А еще кнопка на руле - вещь не удобная, т.к. в повороте на неё нажимать не удобно (а ведь бывают и затяжные повороты (баблочка + пробка)).

В итоге я в этой системе использую только команду "домой", хотя она позволяет и выбирать категории POI и музыкой рулить по всей программе и по телефону звонить.

CyberSubaru

13.12.2012, 17:32

Я не очень хочу выкладывать само решение в открытом виде, так как хочется привлечь под него деньги и сделать стартап - либо про умный дом, либо про умный автомобиль. Но инвесторы в очередь не выстраиваются, а сделать что-то хорошее хочется :)

Если и выстроятся - то эдак лет через 20. Сейчас не те условия. Люди не готовы ставить себе в автомобиль дорогостоящее оборудование, чтобы покататься 2-3 года и автомобиль продать. Салонам тоже невыгодно - резко вырастит стоимость авто.
То что нужно - ученые уже разработали. Несколько лет назад роботы ездили по США и вполне успешно.
Массового пользователя сложно заинтересовать инновациями. Потому как людям что надо от автомобиля:
* чтобы перевез попу из точки А в точку Б - большинству
* чтоб был повыше, дабы не цеплять бордюры - для девушек
* чтоб рычал и пшыкал - для стритейсеров
* чтоб в нем было много места, 4вд - семейный
* чтоб был крутой - для имиджа
* джип - типа круто, даже если все время по городу ездить
* чтоб просто ездил и не ломался - низкобюджетный
* чтоб был вот такого цвета - для капризных
* ну и частные случаи там оффроудеры всякие

Вот такие сейчас тенденции на автомобильном рынке.
Большинству по-барабану всякие там няшечки, рюшечки и прочее.
У меня многие видели в машине комп - но вряд ли кто себе такое же захотел. Ибо весь тюнинг музыки как проходит в большинстве случаев - пойти на рынок/магазин и купить другую магнитолу. Если вообще не мп3-фм-модулятор.

Говорю как человек, который профессионально приобретает автомобили несколько лет. Что хотят люди от автомобиля мне куда виднее.

Вообще я делаю подобную вещь. Давай спишемся?

saber_vs

10.01.2013, 13:52

неужели тема заглохла?

Rai220

12.01.2013, 14:10

неужели тема заглохла?

Тема не заглохла, но остро встал вопрос тестирования. Нужно собрать данные о том, когда программа хорошо работает, а когда лажает.

Я был бы очень рад, если бы нашлись желающие проверить работу программы, показанной выше, которая отвечает на вопрос "что за регион XXX"?

filinmd

12.01.2013, 14:35

С удовольствием потестирую программу :)

Vlad-bodryi

12.01.2013, 15:19

как-только внедрю системный блок, тоже захочу привязать данную программку к своей лошади!

sirota

12.01.2013, 17:00

Все на готове...ждемс.

admin

12.01.2013, 20:57

Я тоже встану в очередь

kostya740

13.01.2013, 00:03

google speech api (https://www.google.com/speech-api/...) ?

admin

13.01.2013, 02:22

Для гугловской рапознавалки интернет нужен

kostya740

13.01.2013, 10:21

почитал первую страницу. там говррится про Microsoft Speech API. Но он не имеет распознования на русском. Только синтезатор есть русского языка. Его слышно в демонстрации. Это мужской цифровой голос.
по распознованию знаю не по наслышке. В прошлом году готовил доклад и сравнивал гугл и мс.

Rai220

20.01.2013, 23:26

Спасибо всем, кто откликнулся и изъявил желание протестировать мою софтину! Выкладываю.

Только я почти уверен, что с первого раза система мало у кого заведется, т.к. компонентов в ней получилось немало, а протестировать её на чем-либо кроме парочки своих ноутбуков я не могу... (собственно, ради этого я сейчас и выкладываю).

Системные требования
1. OS Windows 7 home premium и выше. (Будет ли работать на Home basic и xp, надо проверять).
2. Веб-камера со встроенным микрофоном. Программа заработает и на обычном микрофоне, но распознаваться почти ничего не будет. На данный момент лучше всего работают камеры InPerson HD (http://market.yandex.ru/model.xml?modelid=7755153&hid=4684840&text=inperson%20hd&srnum=25).
3. Установленный .NET 4.5. Скачать можно тут (http://www.microsoft.com/ru-ru/download/details.aspx?id=30653).

Инструкция по установке:
1. Качаем (http://yadi.sk/d/9u0sM36p2-KK2) архив со всем необходимым, распаковываем.
2. Устанавливаем speech_platform_sdk.msi.
3. Устанавливаем ms_recognition.msi.
4. Устанавливаем RHVoice-v0.2.161-setup.exe
5. Распаковываем recognizer.zip в любое место.
6. Идем в настройки записи звука ОС и делаем микрофон камеры устройством записи по-умолчанию (правой кнопкой). В настройках камеры выставляем средний уровень записи и отключаем усиление (далее этими показателями можно поиграть для лучшего распознавания).
7. У хороших камер часто можно включить дополнительную обработку звука, которая находится на закладке "дополнительное". Если есть - отлично! Включаем!
8. Запускаем KinectMicrophone.exe, жмем activate.
9. Сказать голосом "что за регион NN" (цифры отдельно, например что за регион один-семь-семь, а не сто-семьдесят-семь) и в идеале услышать ответ. Процесс распознавания будет отражаться на экране. Цифры в скобочках означают достоверность распознавания. Система срабатывает на фразы с достоверностью >= 0.85, причем всякий мусор с достоверностью <0.5 она будет слышать всегда, даже в тишине. На него надо просто не обращать внимания (программа так и делает).

В машине
У меня лучше всего получалось распознавание, когда я взял камеру inPersonHD и закрепил её на водительском козырьке. При этом я включил у неё опцию формирования луча направленности (в камере 4 микрофона) и убавил чувствительность почти до минимума. Так камера стала слушать меня и игнорировать музыку и шум. Подозреваю, что для других камер такая модель поведения тоже может быть оптимальной. Демонстрация работы именно такой связки есть на последнем видео.

Есть подозрение, что так же очень хорошо система будет работать с сенсором kinect. Дома это так, но в машине я пока его не проверил, т.к. ему нужно дополнительное питание, а взять негде.

В данный момент я занимаюсь разработкой собственной микрофонной решетки с АРУ и поиском алгоритмов обработки для неё. С ней результат обещает быть в разы лучше.

Dens-v

21.01.2013, 18:51

После нажатия кнопки "активэйт" прога вылетает :(

Rai220

21.01.2013, 21:16

После нажатия кнопки "активэйт" прога вылетает :(

Просто вылетает и все? Никакой ошибки на экран не выдается?
Можете сказать, какая у вас версия windows?

Dens-v

21.01.2013, 22:45

Windows 7 максимальная 64бит, пишет что микрософт сожелеет и программа будет закрыта

goga7615

21.01.2013, 23:35

При установке speech_platform_sdk.msi вылетает окно "этот установочный пакет не поддерживается этим типом процессора". Операционка тоже Windows 7 Максимальная.

Hamster

22.01.2013, 00:22

При установке speech_platform_sdk.msi вылетает окно "этот установочный пакет не поддерживается этим типом процессора". Операционка тоже Windows 7 Максимальная.

Та же фигня. Правда у меня винда под виртуальной машиной Parallels запущена, поэтому не стал сначала писать. Но, видать я не один такой...
Windows 7 Ultimate видит проц так:
29469

saber_vs

22.01.2013, 18:49

прога запускается но после нажатии на активэйт то выдает ошибку:
Сигнатура проблемы:
Имя события проблемы: CLR20r3
Сигнатура проблемы 01: kinectmicrophone.exe
Сигнатура проблемы 02: 1.0.0.0
Сигнатура проблемы 03: 50fc29a6
Сигнатура проблемы 04: mscorlib
Сигнатура проблемы 05: 4.0.30319.19050
Сигнатура проблемы 06: 50b5a7b2
Сигнатура проблемы 07: 161a
Сигнатура проблемы 08: 70
Сигнатура проблемы 09: System.IO.FileNotFoundException
Версия ОС: 6.1.7601.2.1.0.768.2
Код языка: 1049
Дополнительные сведения 1: 5e19
Дополнительные сведения 2: 5e19ee1c696ef6172247e218fb962904
Дополнительные сведения 3: e0f2
Дополнительные сведения 4: e0f232445a44e91e718244947c5b3175

Ознакомьтесь с заявлением о конфиденциальности в Интернете:
http://go.microsoft.com/fwlink/?linkid=104288&clcid=0x0419

Если заявление о конфиденциальности в Интернете недоступно, ознакомьтесь с его локальным вариантом:
C:\Windows\system32\ru-RU\erofflps.txt

Windows 7 home basic x64
я думаю проблема в .NET framework

если запустить программу и закрыть то пишет это :

Bandit

22.01.2013, 23:41

Windows 7 x64, проц i3-330M, все поставил как в инструкции, ошибка обычная - без пояснений, как здесь: http://www.pccar.ru/showpost.php?p=243742&postcount=51. Т.е. прога вроде запустилась и все ок, нажимаем Активейт, проходит гдето 1-2 секунды и вылетает ошибка...

Rai220

27.01.2013, 21:39

Да... печальные результаты. Получается ни у кого программа так и не заработала.

Это сказывается мой нулевой опыт в разработке под Windows, похоже :(

Ладно, надо попробовать исправляться.

Попробуйте пожалуйста установить Microsoft Speech Platform Runtime 11. Там можно выбрать под x86 или под 64 соответственно (http://www.microsoft.com/en-us/download/details.aspx?id=27225) и снова запустить.

Если не получится, то буду разбираться на чистой виртуальной машине. У самого получилось запустить аж на четырех разных компьютерах, но все под win7 (64 и 32).

Hamster

27.01.2013, 23:03

Попробуйте пожалуйста установить Microsoft Speech Platform Runtime 11... и снова запустить.

У меня после установки (на всяк пожарный перезагрузился) все та же фигня "ваш тип процессора не поддерживается".

Bandit

28.01.2013, 10:37

Да... печальные результаты. Получается ни у кого программа так и не заработала.

Это сказывается мой нулевой опыт в разработке под Windows, похоже :(

Ладно, надо попробовать исправляться.

Попробуйте пожалуйста установить Microsoft Speech Platform Runtime 11. Там можно выбрать под x86 или под 64 соответственно (http://www.microsoft.com/en-us/download/details.aspx?id=27225) и снова запустить.

Если не получится, то буду разбираться на чистой виртуальной машине. У самого получилось запустить аж на четырех разных компьютерах, но все под win7 (64 и 32).

win7x64 - после установки Microsoft Speech Platform Runtime 11 запустилась!

Bandit

28.01.2013, 10:39

Кстати, ставлю на невиртуальную машину - может в этом засада у многих?

saber_vs

28.01.2013, 16:11

после установки Microsoft Speech Platform Runtime 11 все прекрасно заработало.теперь буду тестить.

goga7615

29.01.2013, 00:02

У меня после установки (на всяк пожарный перезагрузился) все та же фигня "ваш тип процессора не поддерживается". Тоже самое!!!

Bandit

29.01.2013, 00:59

тестирую с обычным микрофоном Genius и пробую на встроенном на ноуте Toshiba A500, с музыкой и без - конечно это не направленные, врядли в машине со всеми шумами они также отработают, имхо, но пока при 20см только улавливают довольно таки громкий спич...

sirota

29.01.2013, 09:42

Нужно бы в инструкцию добавить: при установки NET 4.5, сначало надо установить net 4.(тогда у меня пошло....система на вынь 7/64)
Тестил(в машине) микрофоном камеры с920. Работает сервис велликолепно...разпознает слова при включенной музыки в 95%(проговаривал в пол голоса)...при отключенной музыки при проговаривании почти шопотом, разпознается 100%, хотя камера с микрофоном стоит за солонным зеркалом.
---------------------------------------------------------------------
Продолжение.
Не всегда почему то проговаривает номер региона, хотя пишет(словами) правельно.

sirota

01.02.2013, 22:25

В среднем(у меня) циферки скачат от 75 до 94 единиц(при громкости произедений, чуть ниже среднего уровня).

А дальше(по проэкту).....продолжение будет?

Rai220

02.02.2013, 13:03

Я очень рад, что появились люди, у кого это работает! Большое спасибо за тестирование!

С проблемой неподдерживаемого типа процессора буду бороться. Для джависта это все, конечно, очень дико, но что делать :-)

В среднем(у меня) циферки скачат от 75 до 94 единиц(при громкости произедений, чуть ниже среднего уровня).
А дальше(по проэкту).....продолжение будет?

Это очень хорошие значения. Сама Miscrosoft в своих примерах доверяет результатам от 0.5 Для обычных фраз и от 0.3 для длинных выражений.

Продолжение будет конечно. Как-то медленно все двигается, но двигается :)

Нужно бы в инструкцию добавить: при установки NET 4.5, сначало надо установить net 4.(тогда у меня пошло....система на вынь 7/64)
Тестил(в машине) микрофоном камеры с920. Работает сервис велликолепно...разпознает слова при включенной музыки в 95%(проговаривал в пол голоса)...при отключенной музыки при проговаривании почти шопотом, разпознается 100%, хотя камера с микрофоном стоит за солонным зеркалом.
---------------------------------------------------------------------
Продолжение.
Не всегда почему то проговаривает номер региона, хотя пишет(словами) правельно.

Спасибо, приятно слышит, что все работает. В инструкцию к следующей итерации обязательно добавлю (ох уж этот .net).

c920, кстати, камера очень неплохая, я тоже на ней тестировался. Но у неё был косяк - она очень сильно хватает шум. Я в комнате тестировал, где вытяжка работала, так вот на записи с камеры она её улавливала как сильный вой, хотя в реальной жизни (и на других камерах) её почти не слышно.

Номер регионов говорит только в том случае, если он есть в базе программы. Возможно, там не все.

тестирую с обычным микрофоном Genius и пробую на встроенном на ноуте Toshiba A500, с музыкой и без - конечно это не направленные, врядли в машине со всеми шумами они также отработают, имхо, но пока при 20см только улавливают довольно таки громкий спич...

Почти для всех встроенных и "обычных" микрофонов помогает задирание чувствительности микрофона до максимума в нстройках ОС. Так же можно включить "усиление микрофона на 75% от максимума". Значения, конечно, усредненные, но обычно помогают. Но все равно, проводные и встроенные микрофоны решительно не подходят, т.к. в них нет АРУ. Даже в дорогих ноутбуках, в которых заявлен хороший микрофон, результат был ужасный. (Исключение - маки).

Кстати, ставлю на невиртуальную машину - может в этом засада у многих?

Может, но я всё тестировал на невиртуальных, иначе целиком бы сюда машину бы выложил :)

Bandit

02.02.2013, 14:34

Номер регионов говорит только в том случае, если он есть в базе программы. Возможно, там не все.

Вроде и в базе есть, и отображает/понимает правильно, но вот иногда (редко, но бывает) просто не проговаривает...

Почти для всех встроенных и "обычных" микрофонов помогает задирание чувствительности микрофона до максимума в нстройках ОС. Так же можно включить "усиление микрофона на 75% от максимума". Значения, конечно, усредненные, но обычно помогают. Но все равно, проводные и встроенные микрофоны решительно не подходят, т.к. в них нет АРУ. Даже в дорогих ноутбуках, в которых заявлен хороший микрофон, результат был ужасный. (Исключение - маки).

Вопрос от ньюба в этом: какой лучше микрофон для этого подойдет? Чтобы еще и по скайпу говорить :blush:
Поиск по нету показал по типу такого: http://www.remicon.ru/prod/dict/571/ или такого: http://www.tehnoman.ru/mik_9/ (и как с 3-мя проводками подключать?) - или это совсем не то?

sirota

02.02.2013, 16:25

Вроде и в базе есть, и отображает/понимает правильно, но вот иногда (редко, но бывает) просто не проговаривает...

По моему дело все в цифровых значениях....все что ниже цифры 0,70(точную цифру не помню, но где то около того) не проговаривает, а когда значение выше, то говорит.

Neos

06.02.2013, 01:50

Возможно добавить свою команду?

yuriy m

26.03.2013, 23:34

Чет тема умерла...Куда автор делся ?

Rai220

26.08.2013, 17:52

Всем привет!
Прошу прощение за долгое молчание, но проект скорее всего дальше не будет развиваться, так как я увлекся другим. Если кому-нибудь будет интересно его использовать, я готов выложить наработки как open source на github.

Сейчас я пошел в другом направлении - разговор на свободном языке, вот что получилось:

http://www.youtube.com/watch?v=AL_UGf1CG5k
(Видео на youtube (http://www.youtube.com/watch?v=AL_UGf1CG5k))

Думаю, истина будет лежать в интеграции этих двух технологий.

sirota

26.08.2013, 21:25

Какие системные платформы будут поддерживаться?

ВладимирC

26.08.2013, 22:42

Всем привет!

О, сосед, у меня дача под Вереей, в Митяево. А разработка - супер)).

Rai220

26.08.2013, 23:46

Какие системные платформы будут поддерживаться?

Пока только Android.

О, сосед, у меня дача под Вереей, в Митяево. А разработка - супер)).

О, правда соседи! У меня тоже дача в Митяево (СПК Русь). На речке-то уж точно встречались :)

sirota

27.08.2013, 00:06

О, правда соседи! У меня тоже дача в Митяево (СПК Русь). На речке-то уж точно встречались

Да уж!!!
Митяево наверное точка временного континуума....я тоже там бываю....не забываемая дорога к деревни под названием "перебери подвеску" :rofl:

kristal0211

05.09.2013, 14:18

Rai220 Когда мы увидим в свет проект КУБ на андроиде. Проект бомба, за этим будущее. Готов стать тестером.

yuriy m

21.09.2013, 00:25

И где выложенный проект ?...

yuriy m

06.10.2013, 21:25

Спасибо Rai220 выложил https://github.com/Rai220/SpeechCommands Но есть вопрос - как поменять команды ,привязать их к кнопкам и как собрать в исполняющий файл ? Я думаю многим будит интересно.

kristal0211

07.10.2013, 13:59

Спасибо Rai220 выложил https://github.com/Rai220/SpeechCommands Но есть вопрос - как поменять команды ,привязать их к кнопкам и как собрать в исполняющий файл ? Я думаю многим будит интересно.

Это я так впонял, для Win'а, а где для андроида.

yuriy m

08.10.2013, 18:47

Может кто нибудь из программистов,сможет выложить видео (хотя бы краткое)как и где поменять фразы,привязать к кнопкам и чем все это дело собрать(скомпилировать) ? Скажем так,- направить на путь истинный... Для толкового программиста,я думаю не слишком много времени понадобится...,но возможно многим поможет. Заранее СПАСИБО !

yuriy m

14.10.2013, 00:43

Что никому эта тема не интересна ?

Zhirnov

14.10.2013, 01:52

Мне интересна. Главное, чтоб автору темы был интерес. Готов платить за работающий проект.

Vlad-bodryi

14.10.2013, 07:17

мне интересна, тоже слежу.
мне бы привязать для 7/8 надо.

kristal0211

14.10.2013, 08:09

Думаю всем интересна. Но от автора пока тишина. Я так понял, что проект на вине пока остановлен, если вообще на заброшен. Сейчас основная работа ведется с андроид, что очень кстати. Мне крайне интересен проект, и можно сказать жизненно необходим для авто. Но инфы пока крайне мало, разве что только видео. Жду развития, готов даже спонсировать. И 500-1000р. не жалко за такое, если прога будет платной, да и просто как поддержка. Готов и тестером стать.

mendisabal

14.10.2013, 10:33

+1 с удовольствием поддержу проект .

agressor.vs

14.10.2013, 17:46

На каком движке распозналка работает ?

guga

14.10.2013, 20:22

+1
Готов поддержать проект финансово.
Особенно интересно голосовое управление в ICarDS.

yuriy m

15.10.2013, 00:11

Тот проект под винду,он писал что делать не будет , но выложит исходники... Исходники он выложил,на 77 посту ссылку я давал. Посмотрел вроде как ничего сложного нет,но я не программер,я электронщик... Для программиста там работы должно быть не много, В принципе достаточно видео о том как поменять команды,привязать к клаве и собрать в исполняющий файл... То бишь хотя бы направить на путь истинный ,что сделать с этим исходникам . Может кто из наших программеров поможет... ?:blush: Хотя бы пару примеров...

kristal0211

15.10.2013, 09:29

На каком движке распозналка работает ?

Тот что для андроида, софт на java, голосовой поиск я так понял гугловский. Сам преобразователь голоса, я бы на Nuance TTS сделал т.к. на данном этапе он более совершенен, особенно с голосом Милена. Но точно сказать не могу.

sirota

15.10.2013, 10:24

+1
Готов поддержать проект финансово.
Особенно интересно голосовое управление в ICarDS.

Нужно поговорить с "Bersenev "....о внедрении голосового управления в икар, тем более, что исходники есть(тем более, что я их уже на себе тестил, и скажу, что работало прилично).

Много думаю нам не нужно.
Например хорошо бы озвучить основные функции икара(привязать голосовую команду к конкретной клавише) которыми большенство пользуются, это такие как...навигация, регистрация, музыка, радио, видео, следующий трек, предедущий трек, и т.д. И безопасность вождения от такого новшества, думаю повысится в разы.

(ИМХИ) Не знаю как все это правильно обыграть, может каким то плагином? при желании который можно включать, или выключать, по желанию пользователя.

Bersenev

15.10.2013, 10:52

Нужно поговорить с "Bersenev "....о внедрении голосового управления в икар

Ненужно, уже внедряю.

sirota

15.10.2013, 10:54

Ненужно, уже внедряю.

:shok: Вот эта новость отличная!!!

Мне свой пост удалить? :smile2:

vladj

15.10.2013, 13:56

Печалька, ибо не всем-же нужен монструозный ICarDS, но видать автор не хочет заниматся отдельным распространением программы из-за мороки с получением оплаты за неё. Как я понимаю, голосовой движок из фронтенда не вырвать. Была надежда и испарилась, жаль...

sirota

15.10.2013, 14:09

Печалька, ибо не всем-же нужен монструозный ICarDS

Вы не любите кошек? Да Вы просто не умеете их готовить!

А если серьезно, то даже с моими не богатыми познаниями в винде, после установки ICarDS, забыл как страшный сон все остальные поделки на эту тему.

p.s просите разработчика проги...может он и не взойдет до наших молитв.

Я так понимаю, что нужно просто привязать выполнение голосовых команд к горячим клавишам так?

vladj

15.10.2013, 17:24

С большим уважением отношусь к авторам ICarDS, никаких сомнений про платность программы, честный заработок.
У меня (наверное и ещё у многих, частный случай). Не нужен инет в машине, навигация, работа с телефоном, просто
медиацентр, позволяющий играть буквально всё без какого-либо напряга и пара программ от Валентина.
Фронтенды перебробованы буквально все и я-бы не сказал, что они поделки. Главным в некоторых являлось для меня то,
что там можно полностью интерфейс под себя простыми движениями переделать. Да, ICarDS может сейчас проиграть с помощью
фубара все форматы Аудио, но вот с Видео напряг, как впрочем во всех старых фронтендах. Авторы не захотели прислушатся и
построить видео на PotPlayer, в котором сразу идут все форматы без дополнительных настроек. Что интересно, в нём тоже
основой служит ffcodec, но в него не нужно лезть что-то настраивать, он не сидит в трее во время работы программы, не требуется
устанавливать в систему пресловутый KLite кодек пак или для тех, кто поумней, только обычный ffdshow.
Что касается голосовых команд, это не только привязывание к горячим клавишам, ведь нам в примере был показан худо-бедно, но
интерактив, что и было самым интересным. В любом случае я готов приобрести программу, если она выйдет отдельно, например через
тот-же наш клубный магазин, для винды естественно.

yuriy m

15.10.2013, 21:27

Ненужно, уже внедряю.
Было бы не плохо расписать как менять и т.д. Что бы каждый (кто в состоянии) немножко под себя настроить, если не трудно ...:blush:

mendisabal

16.10.2013, 00:02

для винды естественно.
полюбому ,эмуляторы не предлагать ) мне казалось ,что к ICarDS потом прикручивается ,после всех всех успешно пройденных тестов в винде.

avic

16.10.2013, 10:42

Опробовавшие, сопоставьте с программой http://speechka.org/. Тоже голосовое управление, распознавание - гугл

sirota

16.10.2013, 10:50

Опробовавшие, сопоставьте с программой http://speechka.org/. Тоже голосовое управление, распознавание - гугл

Это немножко не то.... тут нужно Интернет должен быть подключен иначе распознавания не будет.

А хочется работать автономно.:spiteful:

Но обязательно затестю..

sirota

16.10.2013, 14:17

Затестил.
Работает, ...как я и говорил нужен тырнет. при том стабильный...иногда приходилось перегружать 3G модем.
В гугле например нет слова открыть икар, пришлось обозвать "открыть папку". Ну и последнее неудобство...это при озвучивании команды нужно на клаве зажать Ctrl+win, а затем отпустить, что крайне затруднительно в движении.
А так игрушка рабочая, но не больше того.

Bersenev

17.10.2013, 18:22

:shok: Вот эта новость отличная!!!

А вот и промежуточный результат http://www.pccar.ru/showthread.php?t=19766

filinmd

15.11.2013, 07:48

Нашел на Хабре очень интересный проект ссылка (http://habrahabr.ru/company/ifree/blog/202132/) . Очень похож на этот проект

agressor.vs

16.11.2013, 12:21

Нашел на Хабре очень интересный проект ссылка (http://habrahabr.ru/company/ifree/blog/202132/) . Очень похож на этот проектОпять же все завязано на движке гугл ,а он без инета не работает, это большой минус.

filinmd

16.11.2013, 13:44

Опять же все завязано на движке гугл ,а он без инета не работает, это большой минус.

Вы сначала установите приложение а потом сделайте вывод. Без интернета софт без проблем установил напоминание с нужным текстом и на нужное время, установит будильник и позвонит нужному абоненту. А вот для новостей , погоды и афишы нужен интернет

lti1

16.11.2013, 14:16

Опять же все завязано на движке гугл ,а он без инета не работает, это большой минус.
Установка голосовой библиотеки от google для offline распознавания речи на android.

VoHMjwBdB4Q&list=UU7aH7HVqDvwB1xNHfSl-fDw

agressor.vs

16.11.2013, 16:17

Вы сначала установите приложение а потом сделайте вывод. Без интернета софт без проблем установил напоминание с нужным текстом и на нужное время, установит будильник и позвонит нужному абоненту. А вот для новостей , погоды и афишы нужен интернет
ну вот установил , потестю скажу ,мож подскажешь как перевести в ландшафтный вид .

agressor.vs

16.11.2013, 16:21

Установка голосовой библиотеки от google для offline распознавания речи на android.

VoHMjwBdB4Q&list=UU7aH7HVqDvwB1xNHfSl-fDw

А вам большое человеческое спасибо,не знал

filinmd

17.11.2013, 01:42

ну вот установил , потестю скажу ,мож подскажешь как перевести в ландшафтный вид .

Не задавался этим вопросом , по этому не знаю.

filinmd

17.11.2013, 01:44

А вам большое человеческое спасибо,не знал

+1 , очень интересный мануал

voyageman

17.11.2013, 12:43

Может кто выложит apk этой программы. Андроид девайса нет, чтобы скачать с гугл плей. На блекберри хочется протестировать, переконвертировав программу..