viernes, 6 de marzo de 2015

La estadística detrás de Duolingo (aproximación)

Duolingo se ha convertido  en una de las paginas mas populares para aprender idiomas y en parte su éxito lo debe a la buena capacidad que tiene el programa  para detectar lo que  personas que no hablan el idioma intentan decir  y calificarlo como bueno malo o regular.

Para poder lograr lo anterior el programa Duolingo debe saber procesar los datos de personas que no son hablantes nativos del idioma que están aprendiendo.Entonces por ejemplo para el ingles Duolingo no debe procesar la voz de la persona cuando habla al igual que hablara un nativo si no que debe diseñar un programa que permita reconocer cuando quien le habla es una persona proveniente de China o de Colombia la cual tendría un acento bastante diferente.

Esta habilidad para reconocer el acento de personas no nativas es también necesaria para los software de traducción los cuales deben identificar la palabra a pesar de que este en un acento diferente. Es también necesaria cuando hay ruidos externos como un ventilador o trafico.

Desde el punto de vista estadístico cuando una persona  intenta hablar un idioma diferente a su idioma nativo debe considerarse como una desviación al estándar, pues lo que diga se alejara de la media que seria la pronunciación perfecta.

Cunado un software debe lidiar con desviación estándar producida por una persona que no es un hablante nativo debe utilizar primero el método del modelo oculto de markov para identificar y reconocer la voz y posteriormente debe hacer una clasificación por el  método  del K-nearest neighborg (el vecino mas cercano).


Paso 1. El modelo oculto de Markov.

Este método es una extensión de las cadenas de Markov pero a diferencia de las cadenas de Markov no busca la aplicación de eventos dependientes sino independientes y es el mas usado para el reconocimiento de voz.El reconocimiento de voz es un evento independiente porque lo que se diga al principio no afecta a lo que se diga después.

Paso 2. La clasificiacion por le K-nearest Neighbor.

Cuando el programa de reconocimiento de voz usa el método de clasificación del K-nearest neighbor debe hacer la comparación de lo que se le dijo al sistema en contraste con una base de datos .Normalmente una base de datos  de este tipo,esta compuesta por 100 personas que pronunciaron la palabra en cuestión. Dentro de ese grupo de personas deben encontrarse individuos de diferentes grupos de acentos extranjeros ademas de la pronunciación hecha por expertos.







No hay comentarios:

Publicar un comentario