Tecnología
La voz, la próxima pantalla del móvil
Los sistemas de reconocimiento de voz se vuelven más inteligentes. El último en llegar, el HomePod de Apple
Abra los ojos y mire a su alrededor. Los avances tecnológicos han dibujado en las sociedades un ecosistema en donde los aparatos electrónicos quieren ayudar a las personas en algunas tareas diarias . Llegamos a la era del todo-conectado cuyas implicaciones socio-económicas son todavía algo sombrías. Pero hasta ahora, el método en que el ser humano interactuaba y controlaba esos aparatos se había basado en dos elementos, pantallas y texto. Ahora la voz quiere cambiarlo todo.
Desde hace tiempo la industria de la tecnología busca un nuevo método para dar instrucciones a las máquinas . El empleo de la voz empieza a ser una alternativa a seguir. En una primera fase ha llegado al mundo de la telefonía, donde muchos modelos actuales cuentan con asistentes virtuales que reconocen las palabras y actúan en consecuencia.
El último en llegar se llama HomePod , tiene forma de altavoz y llega, según Tim Cook, «para reinventar la música en casa, igual que el iPod reinventó la música en nuestros bolsillos». Home Pod, es cilíndrico, compacto y ligero, tiene profundidad espacial e incorpora siete altavoces direccionales y un subwafer. El HomePod cuenta, además, con seis micrófonos, de modo que podemos dirigirnos a él a través de Siri , pedirle que se conecte a iTunes y nos ponga la canción que queramos. Pero también es posibles preguntarle cosas como «ponme algo de Madonna», o «¿Cuál es el último album de Adele?» Y no solo eso, sino que HomePod también es capaz de leernos noticias, decirnos el tiempo, enviar mensajes, configurar alarmas, convertir medidas, traducir ... Y puede detectar lo que decimos aunque estemos en el otro extremo de la habitación.
Capacidades inteligentes
Samsung, que recientemente ha presentado su nuevo buque insignia, el Galaxy S8, incorpora un novedoso mayordomo llamado Bixby . Ha sido desarrollado por los creadores de Siri, integrado en productos de Apple. Esta aparición refleja que la batalla por popularizar estos sistemas no ha hecho más que comenzar . El siguiente paso es incorporarlo de una manera más natural en los dispositivos y dotarle de capacidades «inteligentes» que dejen a un lado los comandos de voz convencionales y traten a la persona con un lenguaje natural. Pero Bixby, de ambiciosa propuesta, debutará en el nuevo terminal con un catálogo de opciones limitadas , aunque la firma surcoreana aspira a que pronto otros fabricantes y desarrolladores adopten esta nueva forma de interactuar en sus servicios. Un gran paso en comparación con otros rivales es que es capaz de ejecutar instrucciones desde la propia pantalla una vez que el usuario lo invoca, logrando minimizar las interrupciones que se producen cuando se le da una instrucción.
A diferencia de su competencia, se basa en dos pilares , la Inteligencia Artificial (capaz de «aprender» sobre la marcha y mantener auténticas conversaciones con el usuario) y la cámara (al reconocer objetos). Pronunciando las palabras adecuadas una persona puede activar y gestionar algunas de las aplicaciones principales. La voz está integrada en el terminal, de tal forma en que se le puede pedir que seleccione una imagen determinada y la coloque como salvapantalla. Sin embargo, por ahora solo entiende dos idiomas , inglés y español.
El reto tecnológico en la actualidad es que estos mayordomos digitales sean más eficientes, aprendan a captar el tono de las palabras , sean más precisos en el reconocimiento y hasta comprendan del comportamiento humano al tiempo que formen parte de la fauna electrónica que nos rodea.
Y se han dado pasos importantes . Gran parte procedente de los superodenadores. Ejemplo es Watson, desarrollado por IBM, y que está basado en computación cognitiva. Intenta emular y superar al cerebro humano. Para ello, se centra en interpretar el lenguaje natural y aprender a medida que opera y registra nueva información. Es decir, a través de un entrenamiento continuado, al igual que AlphaGo, desarrollado por Google. «Actualmente ya nos comunicamos con dispositivos a través de la voz. Lo que iremos viendo es una evolución en los próximos años para que más y más dispositivos utilicen la voz como la forma de comunicarse . Esto no quiere decir que la forma en la que la actuamos actualmente desaparecerá, sino que las utilizaremos cuando lo necesitemos», señala a este diario Elisa Martín, directora de tecnología de IBM.
Temor a ser escuchado
Esa idea de «hablarle» a las máquinas y equipos informáticos no es nueva, pero en los últimos años se ha visto un gran interés en la industria de la tecnología de consumo por incorporar en sus productos estos mayordomos digitales capaces de controlar algunas funciones. Siri (Apple), Alexa (Amazon), Assistant (Google) o Cortana (Microsoft) son algunos de los más sonados y al que se le une Bixby. Pero todavía tienen muchas limitaciones y sufren fallos habituales. Además, existen otras dudas importantes en materia de privadidad. ¿Tienen algo de malo los micrófonos de los que hacen uso? Según la firma de seguridad Kaspersky Lab sí, ya que puede filtrar información personal y corporativa . «Los ciberdelincuentes podrían usar para ganar dinero con estas escuchas», señalan.
Aún así, el futuro de la voz está ahí. ¿Estamos llegando al punto de madurez para que la voz se imponga sobre la pantalla? «Claramente. Los últimos años los márgenes de error de reconocimiento han bajado. Antes era de un 20%. De cada cien palabras podría equivocarse en veinte . Y había que corregirlo. Ahora estamos en torno al 3%. Si coges el móvil y le dices que te busque algo de manera coloquial, funciona. Eso va a transformar la manera en la que te comunicas con el móvil», apunta Sergio Guadarrama, ingeniero de aprendizaje profundo de Google. Aunque por ahora están disponibles en dispositivos móviles y altavoces inteligentes, los gigantes de la tecnología trabajan para que estos mayordomos digitales estén presentes en infinidad de aparatos que nos rodean , desde neveras, televisores, termostatos o sistemas domóticos.
Estos sistemas operan a través de una base de datos cargadas previamente, pero los expertos creen que el uso continuado por parte de las personas contribuirá a ser más eficientes en sus comportamiento y ampliarán, con ello, las tareas que son capaces. «Cuando hablamos de aprendizaje informático hablamos de técnicas que permiten a partir de ejemplos intentar extraer cómo se han producido, es decir, cuál es el comportamiento del humano que las ha generado. Del hecho de extraer el comportamiento de muchas personas se pueden utilizar escrituras en un futuro y dar mejores respuestas», opina por su parte José Manuel López Molina, catedrático del departamento de Informática de la universidad Carlos III de Madrid.