Un grupo de ingenieros franceses puso a disposición del público un novedoso sistema conversacional de voz que piensa y habla al mismo tiempo, pero en inglés (por ahora).

Por Juan Carlos Luján, colaborador.

Realmente estoy anodado por este nuevo producto, no solo porque viene desde Francia y porque fue desarrollado por ocho ingenieros en apenas seis meses, sino que este nuevo modelo de lenguaje de IA generativa por voz es bastante fluido, natural y nos hace pensar en lo que vendrá en unos años. No fue desarrollado por OpenAI, lo hicieron ingenieros de una pequeña empresa llamada Kyutai.

Se llama Moshi y por ahora solo piensa y habla en inglés al mismo tiempo y puedes probarlo directamente durante un período de cinco minutos usando tu cuenta de correo en este sitio web.

El equipo de ingenieros de Kyutai presentó su prototipo experimental el martes último y lo probamos anoche. Si bien el producto está aún en su fase experimental, la prueba que hicimos realmente nos sorprendió. Moshi parece tene una persona dentro y, claro, cuando no sabe algo, te dice eso y no inventa nada.

Asume roles y da recetas

Sus creadores dicen que puede asumir roles e incluso darte recetas y en una primera conversación lo hizo, con la Lasagna, pero en una segunda dijo no saber cómo prepararlo. Lo cierto es que está en fase de prueba y no solo habla sino que al mismo tiempo reproduce textualmente el diálogo. Y ahí no falla, ofrece una gran interacción cuando conoce el tema que le preguntes.

Señalan, además, que Moshi puede ejecutarse de forma segura en un dispositivo desconectado. Kyutai quiere ir más allá y contribuir a la investigación abierta en IA y al desarrollo del ecosistema completo. Por eso, han señalado que compartirán los códigos de los modelos de forma gratuita, lo que permitirá a investigadores y desarrolladores estudiar, modificar y ampliar esta tecnología según sus necesidades.

Laboratorio sin fines de lucro

Sorprende, también, que Kyutai sea una suerte de ONG, es decir un laboratorio tecnológico sin fines de lucro dedicado a la investigación abierta en IA. Fue fundado en noviembre de 2023 por el Grupo iliad, CMA CGM y Schmidt Sciences. En su sitio web indican que empezaron con un equipo de seis científicos top que venían de grandes laboratorios de tecnología en EE.UU. Ahora son una docena y continúan creciendo, ofreciendo prácticas a estudiantes de maestría en investigación y preparando sus primeras tesis de doctorado.

Su investigación se enfoca en modelos de propósito general con altas capacidades y en la multimodalidad, es decir, la capacidad de un modelo para trabajar con diferentes tipos de contenido como texto, sonido e imágenes. Para llevar a cabo su trabajo, Kyutai usa la potencia de computación del superpod Nabu 23 de Scaleway, una subsidiaria del Grupo iliad.

Prueba Moshi aquí.