Asistentes virtuales, interfaces de voz, prototipos y algo más

Locura en su cara y en mí,
el mundo que había visto.
Cuándo mi alma verá la noche para ser la misma

Locura de Deep Gimble I, algoritmo de Karmel Allison

¿Cómo diseñamos la relación entre las personas y la tecnología cuándo sólo el habla es posible?

En el área de la inteligencia artificial existe una disciplina que me inquieta y fascina a partes iguales. El procesamiento del lenguaje natural (NLP, Natural Lenguage Processing) es el campo donde las máquinas y las personas podrían llegar a comunicarse.

Parte de la belleza reside en la simplicidad aparente del objeto de estudio de las NLP: las palabras. Sin embargo, el habla y la comunicación verbal de las personas es mucho más compleja de lo que creemos. Aprender a diseñar para la interacción humana con sistemas computacionales mediante la palabra y, más concretamente, mediante la voz me parece apasionante.

Qué son las interfaces de voz

Las interfaces de voz nos permiten interactuar con servicios digitales mediante el habla. Google Assistant, Alexa o Siri son ejemplos de asistentes virtuales dirigidos por voz. Éstos se encargan de automatizar y facilitar la realización de tareas que haya sido ordenada por la persona mediante el lenguaje natural.

Desde el punto de vista de la experiencia, las expectativas que genera una solución por voz son muy altas. Las personas queremos ser entendidas y reconocidas inmediatamente y sin ambigüedad. Cualquier problema que pase por la incapacidad de los asistentes a entendernos y/o a responder con naturalidad nuestras peticiones creará una experiencia impostada.

Hacia el diseño de interacción por voz

Hace unos meses, comencé a trabajar en el terreno de los asistentes virtuales, a medio camino entre el Natural-Language Understanding (NLU) y la interfaz gráfica. Esto me llevó a cursar un taller de prototipado de interfaces conversacionales, a seguir la lecturas recomendadas, entre ellas Conversation with Things, y a descubrir otros recursos interesantes como la guía de Diseño Conversacional de Google. Unos meses después, en el Hackathon Alexa: Impacto Social, tuve la oportunidad de experimentar de nuevo con una idea sencilla que se tradujo en una skill para Alexa llamada ‘Tareas Invisibles’. De este proceso quiero compartir algunas conclusiones a las que llegué sobre qué caracteriza a las interfaces de voz desde el punto de vista de la experiencia de usuario:

(Nota: todo esto son conclusiones personales que pueden estar equivocadas. Si te gustaría charlas sobre las mismas estaré encantada de escucharte)

  • Las conversaciones son altamente emotivas. El tono, las palabras y la intención ofrecen una respuesta emocional en las personas significativa respecto a otras interfaces.
  • La voz para quien no tiene capacidad de ver o tocar una pantalla, ya sea circunstancial, temporal o permanentemente, mejora la accesibilidad.
  • La proyección de una personalidad favorece la simpatía de los asistentes, lo que se presta a soluciones donde el juego forme parte de esa percepción de utilidad. Sin embargo…
  • No todo tiene por qué estar gamificado. Los asistentes pueden resultar muy útiles para tareas sencillas que requieran poca información de entrada y no requieran mantenerse conectado mucho tiempo.
  • La privacidad es un componente relevante, tanto por lo que se dice como por lo que se escucha o se ‘obtiene’ del contexto de la persona. La transparencia de los asistentes para comunicar de qué información disponen es esencial.
  • El descubrimiento de las capacidades de los asistentes es un reto. A la naturalidad se le une la oportunidad. Saber elegir en qué momento de una conversación puede el asistente ayudarnos a conocer nuevas funcionalidades es complejo.
  • La monotonía y predictibilidad de la conversación con máquinas aburre, no es interesante y por tanto puede resultar irrelevante para los humanos.
  • A pesar de lo que creemos, las personas acaban adaptándose de forma natural a un lenguaje de comunicación artificioso. Lo hacemos cuando interpretamos patrones de interacción en otro tipo de interfaces y en el caso de la voz sucede también el fenómeno de adaptación. Esta adaptación sin embargo no tiene por qué hacernos sentir cómodos.

Algunas otras reflexiones

Ahora tocaría ponerse filosófica y plantear las preguntas clásicas ¿qué pasaría si una máquina pudiese expresar ideas y emociones igual que un humano? ¿cómo sería esa conversación?

Pero esa mirada a la ciencia ficción me resulta menos interesante que la simple imagen presente de vernos posthumanos, asistidos y ampliados por la tecnología que creamos. Hoy podemos hablar con máquinas, la conversación antes de desarrollarse deberá ser diseñada. Hoy podemos diseñar y crear nuevas narrativas que conecten a las personas y las máquinas para algo más que para ordenar y servir. Eso es lo que me interesa hoy, de eso quiero saber más.