Tecnologia de voz de empresa chinesa torna muito mais fácil usar um smartphone

SuperGeeks
SuperGeeks News
Published in
4 min readDec 14, 2016

--

Interfaces de voz têm sido um sonho de tecnólogos e escritores de ficção científica por muitas décadas. Mas nos últimos anos, graças a alguns avanços impressionantes, o controle de voz se tornou muito mais prático e eficiente. Ele possibilita aos usuários de smartphones ignorar as telas de toque em favor de algo muito mais eficiente e intuitiva: a sua voz.

A ferramenta de busca mais popular da China, o Baidu, vem fazendo um progresso impressionante no uso da tecnologia de voz para criar interfaces de voz eficazes para o maior mercado de Internet do mundo, especialmente com a precisão de seu reconhecimento de voz e a capacidade de compreensão da linguagem natural.

Os 691 milhões de usuários de smartphones da China agora podem dispensar os pequenos teclados ao usar o Baidu, que vem tornando as interfaces de voz mais práticas e úteis. A empresa, fundada em 2000 como a resposta da China ao Google (atualmente bloqueado no País), domina o mercado de buscas domésticas chinês, com 70% de todas as consultas. E evoluiu para um fornecedor de muitos serviços, desde música e streaming de filmes até bancos e seguros. “Estamos nos aproximando de um ponto em que usar o comando de voz poderia se tornar tão confiável que você nem sequer precisa pensar nisso. A melhor tecnologia é muitas vezes invisível”, diz Andrew Ng, cientista-chefe da Baidu e professor associado na Universidade de Stanford. “

Esses sistemas dificilmente são perfeitos, e podem às vezes interpretar erroneamente os comandos de voz, mas vêm melhorando constantemente. A tecnologia já não se limita a apenas um pequeno conjunto de comandos predeterminados e as interfaces agora funcionam mesmo em um ambiente ruidoso, como ruas movimentadas.

Andrew Ng, do Baidu, acredita que a voz pode em breve ser confiável o suficiente para ser usada para interagir com todos os tipos de dispositivos. Robôs ou eletrodomésticos, por exemplo, poderiam ser mais fáceis de lidar se você pudesse simplesmente falar com eles. A empresa possui equipes de pesquisa em sua sede em Pequim e em uma instalação no Vale do Silício que se dedicam a promover a precisão do reconhecimento de fala e trabalhar para tornar os computadores melhores ao analisar o significado das frases.

Jim Glass, cientista sênior de pesquisa no MIT que vem trabalhando em tecnologia de voz nas últimas décadas, concorda que o momento pode finalmente ser adequado para o controle de voz. “Na minha experiência, quando as pessoas podem falar com um dispositivo em vez de através de um controle remoto, eles preferem fazer isso”, afirma.

Em novembro passado, o Baidu alcançou um importante marco com sua tecnologia de voz, anunciando que seu laboratório no Vale do Silício tinha desenvolvido um poderoso novo mecanismo de reconhecimento de fala chamado Deep Speech 2. Ele consiste em uma vasto banco de dados que aprende a associar Sons com palavras e frases, uma vez que é alimentado com milhões de exemplos de falas. Como resultado, o Deep Speech 2 pode reconhecer as palavras faladas com uma precisão impressionante. Na verdade, os pesquisadores descobriram que às vezes o mecanismo pode interpretar falas em mandarim com mais precisão do que uma pessoa.

O progresso do Baidu é ainda mais impressionante porque o mandarim é foneticamente complexo e usa tons que transformam o significado de uma palavra. Porém, a maioria dos comandos de voz que o motor de busca da Baidu ouve hoje são perguntas simples — sobre o clima do amanhã ou níveis de poluição, por exemplo. Cada vez mais, porém, os usuários querem fazer perguntas mais complicadas. Para atender a essa demandas, a empresa lançou no ano passado seu próprio assistente de voz, chamado DuEr, como parte de seu aplicativo móvel principal. O DuEr pode ajudar os usuários a encontrar horários de exibição de filmes ou reservar uma mesa em um restaurante.

O grande desafio para o Baidu será ensinar seus sistemas de inteligência artificial a entender e responder inteligentemente a mais frases faladas. Eventualmente, o Baidu gostaria que o DuEr participasse de uma conversa significativa, incorporando informações mutáveis na discussão. Para chegar lá, um grupo de pesquisa nos escritórios de Baidu em Pequim dedica-se a melhorar o sistema que interpreta as perguntas dos usuários. Isso envolve o uso do tipo de tecnologia de rede neural que o Baidu aplicou no reconhecimento de voz, mas também requer outros truques. E o Baidu contratou uma equipe para analisar as consultas alimentadas a DuEr e corrigir erros, assim gradualmente formação do sistema para um melhor desempenho. “No futuro, eu adoraria que pudéssemos conversar com todos os nossos dispositivos e fazer com que nos entendam”, diz Ng. “Espero que algum dia tenhamos netos que ficam surpresos com a forma como, em 2016, se você dissesse ‘Olá’ para o seu forno de microondas, ele ficaria rudemente parado lá e ignoraria você”.

E quanto a você, já experimentou usar algum tipo de interface de voz em seu celular? O que achou do recurso? Compartilhe suas impressões conosco!

Fonte: Will Knight / Technology Review.

--

--

Primeira e Maior Escola de Programação e Robótica para crianças e adolescentes do Brasil.