Помню лет 20 назад появился российский "распознаватель речи", который продавался на компакт-диске - Горыныч. Распознавал он очень хреново, почти ничего не распознавал. И про него в компьютерных журналах писали умные статьи, что, мол, это очень трудно, научиться распознавать речь, почти невозможно. И перспективы рисовали не самые радужные.
Сейчас в каждом телефоне безошибочно распознается самая сложная речь, за секунды. Что же произошло. За счет чего этот скачок от "полной невозможности" до элементарной простоты? Чего не знали или что упустили создатели Горыныча?
Аналогично, в умных научно-популярных передачах и статьях утверждалось, что практически невозможно реализовать робота, который был бы прямоходящим как человек или повторял движения крыльев птицы. Сейчас выпущено сотни роботов-собак, прямоходящих как человек и летающих как птица, и, как видно, ничего сложного. Что же произошло? В чем этот скачок от полной невозможности до элементарности?
Техника
"Горыныч" и другие распознаватели речи
связано с прорывом в нейросетевых подходах, которые особенно выстрелили в области компьютерного зрения и natural language processing
называть это алгоритмами не корректно, т.к. формально это уже не алгоритмы, а именно нейросетевой подход; алгоритмы задают правила, и говорят, найди мне решение; нейросети задают решение, и говорят - определи как оно было найдено
таким образом, создатель нейросети сам толком не знает, как она работает; зато он знает ее структуру и что делает каждый из ее компонентов
важную сыграло и изобретение тензорных процессоров, которые помогли работать с нейросетями в сотни тысяч раз быстрее чем компьютеры конца 90-хх
в отличие от сложного алгоритма, готовая нейросеть не требует большой вычислительной мощности для классификации сигнала, а вот ее тренировка - да
именно поэтому современные распознаватели речи спокойно запускаются на смартфонах
называть это алгоритмами не корректно, т.к. формально это уже не алгоритмы, а именно нейросетевой подход; алгоритмы задают правила, и говорят, найди мне решение; нейросети задают решение, и говорят - определи как оно было найдено
таким образом, создатель нейросети сам толком не знает, как она работает; зато он знает ее структуру и что делает каждый из ее компонентов
важную сыграло и изобретение тензорных процессоров, которые помогли работать с нейросетями в сотни тысяч раз быстрее чем компьютеры конца 90-хх
в отличие от сложного алгоритма, готовая нейросеть не требует большой вычислительной мощности для классификации сигнала, а вот ее тренировка - да
именно поэтому современные распознаватели речи спокойно запускаются на смартфонах
Хуршид Тошов
А я думал, что там база данных известных слов, сразу сравнивает форму волны по целым словам, а в горыныче пытались по буквам распознавать. Нет?
Хуршид Тошов
Аналогично, сейчас в любом браузере проверка орфографии - мгновенно исправляет неправильные слова. Как так быстро подгружается база что ли?
Горыныч был реально туповат, и ему не 20 лет, а все 25. Тогда ещё P-CAD 8/5 рулил, и развести плату ему не под силу было, а в 2001 году Spectra уже справлялась на ура, на том же компе.
Алгоритмы, милок, алгоритмы...
Алгоритмы, милок, алгоритмы...
Скорость - частота и запчасти
Вычислительной мощности, на которой должен был работать "Горыныч", он же "Дракон Диктатор" (Dragon Dictate) сейчас не хватит на запуск "Тетриса". И кстати диктор на радио распознавался прекрасно.
Что до качества современных распознавалок, попробуй поставить ей речь Брежнева на каком-нибудь съезде.
Что до качества современных распознавалок, попробуй поставить ей речь Брежнева на каком-нибудь съезде.
Речь распознается ни разу не "в телефоне". Телефон записывает речевой фрагмент и отфутболивает его на распознвание удаленной системе, принадлежашей разработчику операционной системы (Google или Apple). А там этим занимается толстый серверный кластер, у которого с содной стононы принципиально иные по сравнению с этим вашим Горынычем вычислительные мощности, а с другой -- есть способность к обучению (его обучают операторы, транскрибируя милионы речевых фрагментов вручную).
Локальное распознавание речи (on-device speech recognition) на сегодня функциклирует только в ограниченном режиме. На iOS, например, оно появилось только в версии 15 (июнь 2021, если слероз не изменяет) и понимает только ограниченный набор голосовых команд (управление будильником и напоминаниями, запуск прилолжений, управление проигрыванием музыки и небольшой круг системных настроек). А если команда локально не распознается и нет подключения к Интернет, показывается соответствующее сообщение:
_

Локальное распознавание речи (on-device speech recognition) на сегодня функциклирует только в ограниченном режиме. На iOS, например, оно появилось только в версии 15 (июнь 2021, если слероз не изменяет) и понимает только ограниченный набор голосовых команд (управление будильником и напоминаниями, запуск прилолжений, управление проигрыванием музыки и небольшой круг системных настроек). А если команда локально не распознается и нет подключения к Интернет, показывается соответствующее сообщение:
_

Про роботов - тут разница подходов
Игрушечная птица - одно дело
Но если попробовать сделать реально полезный БПЛА, то возникает целая куча проблем:
- энергоэффективность (слишком тяжелые двигатели и энергоносители), птица будет очень слабой или ее придется делать очень большой. Игрушки как правило слабы, попробуй что-нибудь поднять игрушкой и убедишься
- если игрушка будет большой и не похожей на городского голубя, то это даже хорошо, а вот для БПЛА это резко снижает интерес военных
- для взлета надо подпрыгивать, с помощью крыльев это не получится, а с лапками уже сильно усложняется конструкция. Игрушке можно и не уметь взлетать без человека, а БПЛА прячется, садится аварийно, имеет несколько остановок на маршруте и т.д.
- от игрушки не требуют ремонтопригодность. БПЛА вероятнее всего будет делаться для асимметричной войны, очень бедным государством или организацией, поэтому будут требовать. А с лапками и прочим получается сложная конструкция, как швейцарские часы
Вспоминается ситуация со станками
Станок может стоить 15.000 рублей, а рядом с виду почти такой же, но 315.000 рублей
И еще первый весит 15 кг, а второй 215 кг
Ну вот первый - игрушка и даже сверлить более-менее точно нельзя, а на втором можно даже фрезеровать
Игрушечная птица - одно дело
Но если попробовать сделать реально полезный БПЛА, то возникает целая куча проблем:
- энергоэффективность (слишком тяжелые двигатели и энергоносители), птица будет очень слабой или ее придется делать очень большой. Игрушки как правило слабы, попробуй что-нибудь поднять игрушкой и убедишься
- если игрушка будет большой и не похожей на городского голубя, то это даже хорошо, а вот для БПЛА это резко снижает интерес военных
- для взлета надо подпрыгивать, с помощью крыльев это не получится, а с лапками уже сильно усложняется конструкция. Игрушке можно и не уметь взлетать без человека, а БПЛА прячется, садится аварийно, имеет несколько остановок на маршруте и т.д.
- от игрушки не требуют ремонтопригодность. БПЛА вероятнее всего будет делаться для асимметричной войны, очень бедным государством или организацией, поэтому будут требовать. А с лапками и прочим получается сложная конструкция, как швейцарские часы
Вспоминается ситуация со станками
Станок может стоить 15.000 рублей, а рядом с виду почти такой же, но 315.000 рублей
И еще первый весит 15 кг, а второй 215 кг
Ну вот первый - игрушка и даже сверлить более-менее точно нельзя, а на втором можно даже фрезеровать
Хуршид Тошов
Учел, но реально сейчас эти роботы-собаки (не игрушки) на многое способны. А раньше рассуждали вот примерно как вы написали.
Похожие вопросы
- Вопрос про тяжелый мотоцикл "Днепр" или "Урал"?
- Какова причина того что называют "гравитация" ?
- Является ли этот конденсатор "пусковым"?
- А чем "дырочки" отличаются от "отверстиев"?.. (или это в "Лингвистика" надо спрашивать?)
- Российская армия – Почему используют "носатые" грузовики?
- Вопрос о "Гигантомании"
- В чем суть "первой" второй пятой или десятой космической скорости ?
- У всех в домах раньше были розетки проводного вещания ("Радио") . Не говорите, что не было, обязательно устанавливались
- Вопрос по конденсаторам-"флажкам".
- Что вы думаете об "интеллектуальных" зарядных устройствах? Стоит ли покупать?