Crea tu propio ChatGPT en 10 minutos con Ollama, Pinokio y Llama3

0:01

[NO-DO] En esta luminosa jornada, damos la bienvenida a una nueva era tecnológica con el episodio de hoy, donde los vastos horizontes de los grandes modelos de lenguaje se despliegan ante nosotros.

0:11

[NO-DO] Exploraremos cómo estas maravillas de la computación moderna pueden ejecutarse en la propia morada de cada curioso e inquieto oyente, transformando el beincón más humilde en un bastión de conocimiento y desarrollo.

0:23

[NO-DO] Con entusiasmo y rigor abordaremos la manera en la que estos colosos digitales pueden ser domesticados para servir como fieles asistentes de programación.

0:31

[NO-DO] prometiendo una revolución en el modo en que escribimos y entendemos el código.

0:35

[NO-DO] Así, cada entusiasta de la tecnología podrá, desde su estudio o salón, erigir puentes hacia futuros de innovación sin precedentes.

0:42

[NO-DO] Unámonos en este viaje por el troceloso mal de la tecnología avanzada, donde cada descubrimiento nos acerca más a la construcción de una era digital digna de nuestros sueños más audaces.

0:52

[NO-DO] Y recuerda, en "Se Nos Va De Las Manos", cada episodio es una nueva aventura en el mundo fascinante de la tecnología.

0:58

[NO-DO] Sin más preámbulos, damos paso a nuestros ilustres locutores, Galileo y Germán Martín, quienes nos guiarán en esta apasionante travesía.

1:33

[Germán] Bienvenidos un mes más.

1:35

[Germán] Ya estamos aquí otra vez.

1:37

[Germán] Lo vamos consiguiendo, vamos manteniendo la cadencia de un programa mensual.

1:44

[Germán] Bienvenidos, se nos va de las manos.

1:47

[Germán] Estamos aquí, yo me presento, soy Germán Martín y conmigo está Galileo.

1:51

[Germán] ¿Cómo estás?

1:52

[Galileo] Muy buenas a todos.

1:55

[Germán] Bueno, pues el último programa estuvimos hablando, bueno, entre otros temas, hablamos de la presentación del modelo de Llama 3 y hoy lo traemos aquí.

2:09

[Germán] Lo vamos a enseñar en directo.

2:11

[Germán] Vamos a enseñar cómo se puede usar, qué requisitos tiene y nada, vamos a lío.

2:21

[Germán] Vamos a...

2:22

[Galileo] Es importante que nos deis el feedback de qué es lo que os gusta más, de qué queréis que tiremos.

2:28

[Galileo] Como sabéis a Germán se le conocía por Mr. ESP8266.

2:32

[Galileo] Podemos decir ESP32.

2:32

[Germán] ESP32

2:32

[Galileo] Según fue pasando.

2:34

[Galileo] Cuando saquen el ESP64 pues será ese.

2:35

[Germán] Sí, sí.

2:45

[Galileo] Pero vamos, si queréis que tiremos más por ahí o por allá, esta vez estamos haciendo como una introducción a cómo se usan los modelos, que yo creo que puede ser muy interesante.

2:55

[Galileo] Cuando estábamos en programar fácil, hicimos también algunos tutoriales de cómo instalar Visual Studio Code o cómo hacer funcionar un SDR.

3:06

[Galileo] Entonces, el feedback es muy importante para saber por dónde tenemos que tirar.

3:08

[Germán] Para quien no le suene mucho esto de los modelos que acabáis de llegar por aquí, ¿a qué nos referimos?

3:09

[Galileo] Y nada, a ver, ¿qué nos vas a contar, Germán?

3:24

[Germán] Nos referimos a algo similar a lo que tenemos con ChatGPT, que más o menos a todos nos sonará.

3:32

[Galileo] en el mundo, en el mundo, en el mundo.

3:32

[Germán] un modelo de lenguaje al cual le hacemos preguntas y nos responde con una información que se le ha dado durante el entrenamiento.

3:39

[Germán] Hay veces que patina, pero normalmente funciona bastante bien.

3:43

[Germán] Digamos que ChatGPT es la referencia en cuanto a modelos de lenguaje.

3:52

[Germán] Bueno, no ChatGPT, el modelo es GPT, pero bueno, el ChatGPT es la aplicación de chat que tiene OpenAI y es la referencia en cuanto a calidad como el top ahora mismo de modelos de lenguaje.

4:05

[Germán] Hay otros modelos como el de Anthropic, Claude, que hablan bastante bien de él, incluso hay quien dice que lo supera, pero la pega que tiene es que en Europa no se puede utilizar probablemente por restricciones

4:22

[Germán] de privacidad, que bueno, es algo que los divulgadores que hablan de temas de inteligencia artificial pues no están muy de acuerdo, no creen que ..., bueno, no sé, es debatible, es un debate que

4:37

[Galileo] Sí, el servicio de memoria no se puede usar tampoco en Europa.

4:41

[Germán] Exactamente, sí.

4:42

[Germán] Han sacado ahora OpenAI, en ChatGPT, memoria, es decir, que recuerde ciertas cosas de las que le vamos preguntando.

4:52

[Galileo] que es muy útil.

4:53

[Galileo] Por ejemplo, tú coges y dices pues dame una receta y luego tú le dices pero soy diabético y entonces coge y eso ya lo apunta.

4:59

[Germán] Sí.

5:01

[Galileo] No va a apuntar todo, va a apuntar lo que él considera que es importante.

5:05

[Galileo] Luego vas a poder incluso borrar, flaxearle ahí como en la película, esas zonas que tú no quieres que recuerde.

5:12

[Galileo] Pero aquí en Europa toda esa funcionalidad está prohibido usarla por protección de datos.

5:16

[Germán] Bueno, pues eso son aplicaciones que corren en la nube, en ordenadores ajenos al nuestro.

5:25

[Germán] Y aquí de lo que vamos a hablar es correr modelos del mismo tipo, pero en nuestra máquina.

5:32

[Germán] Entonces, para ello, ¿qué necesitamos?

5:35

[Germán] Necesitamos un PC más o menos potente.

5:39

[Germán] con ciertas limitaciones, no hace falta que sea el último modelo de todos.

5:44

[Germán] Sobre todo si tenemos una GPU, es decir, una tarjeta gráfica con memoria suficiente para alojar el modelo.

5:50

[Germán] Normalmente hay modelos de diferentes tamaños.

5:53

[Galileo] Evitivo.

5:53

[Germán] El mínimo que se recomienda para poder correr estos modelos son 8 gigas en la memoria de la tarjeta de vídeo.

6:04

[Germán] No hace falta, si alguien se quiere introducir en este mundo, no hace falta irse al último o el ultimísimo modelo de tarjetas gráficas de NVIDIA.

6:14

[Germán] Por ejemplo, la 4090 está por unos 2.500 euros, que es una barbaridad.

6:18

[Germán] Hay tarjetas que están muy bien de precio, sobre todo las que están mejor en relación calidad-precio.

6:28

[Germán] son las de la serie 30, la 3060, la 3070 están muy bien y por 200, 250, 300 euros tienes una gráfica con hasta 12 gigas de memoria que yo es la que tengo, lo que vais a ver va a ser con una 3060 modelo de 12 gigas que le tengo que dar las gracias a César García del canal de YouTube de Laura Maker

6:56

[Germán] que la recomendó ahí.

6:58

[Germán] Yo, la verdad, que no tenía mucha idea y gracias a esa recomendación, pues decir la verdad que estoy súper contento de haberle hecho caso.

7:05

[Galileo] Y funciona también para juegos, me refiero a que

7:08

[Germán] y funciona para juegos.

7:09

[Germán] Si eres jugón, pues ya te digo, por una inversión razonable, tienes una máquina muy buena para jugar y también para experimentar con modelos de inteligencia artificial, no solo los LLM, los modelos de lenguaje, sino también modelos de imagen, modelos de voz, que ya hablaremos otro día.

7:14

[Galileo] Bueno.

7:33

[Germán] Bueno, pues hoy vamos a hablar de Llama 3, hablaremos también de otros modelos y vamos a ver cómo tenerlo en casa.

7:41

[Galileo] un inciso a ver si reconocéis la voz de dónde viene la que ha sonado de introducción y todavía queda pendiente de dos programas anteriores que descubráis la canción que suena del juego antiguo de qué juego es entonces nada bueno vale lo pondré por twitter

7:59

[Germán] La canción yo creo que para el próximo ya lo vamos a decir.

8:03

[Germán] Y si tenéis curiosidad, si habéis oído el programa desde el principio, en el primer minuto es una voz muy característica, sobre todo si tenéis cierta edad, si ya peináis alguna cana y si vivís en España, os sonará mucho esa voz.

8:23

[Germán] Y nada, si queréis tener curiosidad sobre las anteriores, si oís el primer minuto, no hace falta oír el programa entero, si oís el primer minuto de los dos programas anteriores vais a ver la otra voz, también es bastante conocida en España.

8:37

[Galileo] Pero no es mal dato.

8:37

[Germán] No doy más datos.

8:38

[Galileo] Es súper reconocible.

8:43

[Germán] ¿Cómo hacemos esas cosas con la voz?

8:45

[Germán] Ya hablaremos otro día.

8:46

[Germán] Hoy vamos a hablar de modelos de lenguaje.

8:49

[Germán] Entonces, lo primero que tenemos aquí Bueno, aquí tengo la página abierta de Yama 3 Yama 3 es de Meta Meta igual Facebook, Instagram, Whatsapp ¿Vale?

9:04

[Germán] Pero que quede una cosa clara No hay problemas de privacidad porque este modelo va a correr en tu máquina sin conexión a Internet ¿Vale?

9:12

[Galileo] ¡Gracias!

9:12

[Germán] Todo se queda en casa, no hay problemas de preguntarle

9:16

[Germán] Bueno, si tienes una empresa y tienes miedo de darle información confidencial de tu empresa, pues puedes utilizar un modelo como este para utilizarlo a la hora de ayudarte a hacer documentación, por ejemplo, o a hacerle preguntas.

9:33

[Germán] En cuanto a rendimiento, se acerca bastante a ChatGPT.

9:37

[Germán] Y ya te digo, no hace falta un ordenador

9:41

[Galileo] y son los modelos en coma flotante directos o tienen cuantificación cuantización

9:47

[Germán] Estos, pues si te digo la verdad, no lo sé.

9:50

[Germán] Ahora lo vamos a ver porque vamos a ver cómo a la hora de instalarlos vamos a utilizar una herramienta muy sencilla tanto de instalar como de usar y ahí tienes información de los modelos.

10:02

[Germán] Ahora lo vemos y comentamos qué es eso de la cuantización.

10:09

[Germán] Vale, bueno, pues esto es una comparativa entre el modelo de Yama 3, el modelo de este que pone 8B, es que tiene 8 billones... Bueno, 8 billones americanos, es decir, 8.000 millones de parámetros.

10:21

[Germán] Es decir, hay una red neuronal que tiene 8.000 millones de parámetros corriendo en tu máquina, que es... Solo de imaginarme el número ya me explota la cabeza.

10:32

[Germán] El modelo 8B normalmente se puede ejecutar en máquina local.

10:39

[Germán] ¿Qué tal se me oye, por cierto?

10:40

[Galileo] Sí, bien, bien, bien.

10:40

[Germán] ¿Se oye bien?

10:41

[Germán] Bien.

10:44

[Germán] Luego tenemos el modelo de 70.000 millones de parámetros, que es ella.

10:48

[Germán] Hace falta una tarjeta más seria, sobre todo por memoria, porque ese modelo ocupa unos 40 gigas.

10:56

[Germán] y una tarjeta gráfica que tenga 40 gigas, ya estamos hablando de mucho dinero.

11:02

[Germán] De esto nos olvidamos.

11:04

[Germán] Aquí lo compara con Yama 3 con el modelo Gemma de Google, el 7b también es un modelo local, el modelo Mistral que es de

11:14

[Germán] de Antropic.

11:16

[Galileo] creo que sí

11:17

[Germán] No recuerdo quién es Mistral.

11:20

[Germán] Son remodelos equivalentes en cuanto a número de parámetros y aquí resaltan, lógicamente, esta es la página de meta y resaltan lo bueno, pero lo que vienen a decir es que es superior a estos otros dos modelos.

11:33

[Galileo] y eso son como benchmark aunque había mucha controversia con los benchmark porque decían que había algunos benchmark que se se podían haber introducido de hecho también este fin de semana hablaban en muchos sitios de que la que digamos que la inteligencia artificial había aprendido a mentir para al final la inteligencia artificial lo que busca es conseguir el objetivo que tú lo has planificado sea lo que sea y si mentir es una de las herramientas que se puede usar pues la usa

12:00

[Germán] Sí.

12:03

[Galileo] y estaban ahora asustados un poco porque mentía.

12:06

[Germán] Claro, si a la hora de entrenarle se le hacen las mismas preguntas que se le hacen en estos Benchmark, al final aprende a resolverlo.

12:18

[Germán] Estos diferentes, esto que veis aquí, el MMLU, el GPQA, son una forma organizada

12:27

[Germán] digamos, científica, de comparar modelos.

12:31

[Germán] Es decir, no vamos a ir directamente a preguntarle a HGPT, a Yama, a Yema, cuál es el sentido de la vida, por ejemplo, porque unos responderán mejor que otros o unos de manera más original que otros, pero no tenemos... Ahí sería un resultado subjetivo.

12:48

[Germán] A lo que nos interesa es tener un resultado subjetivo, darle mismas pruebas de tipo, pues imagino que serán

12:53

[Germán] de tipo matemático, de tipo lógico, deductivo y demás, y pues son una serie de pruebas estandarizadas.

13:01

[Galileo] hay una curiosidad y es que muchos de estos modelos cuando tú le preguntas de quién eres y tú de quién eres pues cogen y los modelos que no no no los ha hecho en este caso pues el de Mistral pues no lo ha hecho OpenAI pero han utilizado se han conectado a través de los plugins de la API

13:20

[Germán] Bueno.

13:20

[Galileo] perdón, se han conectado a ChubbGPT entonces si tú les preguntas y tú de quién eres muchos sin ser de OpenAI te dicen que son de OpenAI porque resulta que se han entrenado con el modelo de OpenAI entonces es una curiosidad pero vamos que tú coges a un modelo de estos de la llama y le dices y tú de quién eres y que no te asustes dice ah pues yo soy de OpenAI y es que tienen ese sesgo

13:44

[Germán] O hay quien también le pregunta de qué fecha es su entrenamiento, y mienten también.

13:53

[Germán] O qué tamaño de contexto, es decir, cuántos datos de las últimas preguntas le has hecho y qué de las respuestas recuerda, y también mienten.

14:03

[Germán] Porque son preguntas...

14:08

[Germán] Yo entiendo también que los que entrenan el modelo no quieren ser totalmente transparentes en ese aspecto.

14:15

[Germán] Pero bueno, vais a ver ahora.

14:16

[Galileo] Bueno, no sé si fue en Mistral que cogieron y le metieron un montonazo de información y de repente luego le pusieron una información de cómo se hace una pizza o algo así.

14:31

[Galileo] en un texto muy grande porque muchas veces lo que pasa con el contexto es que o coge lo del principio o coge lo del final pero lo del medio como que se olvida y entonces el modelo dijo ah los ingredientes de la pizza son estos por cierto creo que estás probando a ver qué tal de listo soy entonces es súper súper curioso

14:38

[Germán] Sí, sí.

14:58

[Germán] Eso lo oí, sí, que era capaz de detectar si le estabas poniendo a prueba.

15:02

[Galileo] exacto esos datos sí y ésta no sale ahí pero ésta esta semana apareció un gpt2 que hubo también bastante controversia con eso

15:03

[Germán] Es lo que comentábamos, que es probable que algunos de los entrenamientos estén sesgando estas pruebas.

15:12

[Germán] Pero van apareciendo pruebas nuevas para que eso no ocurra.

15:23

[Germán] GPT-2L.

15:24

[Galileo] L sí que parece que es una versión pequeñita o bueno a lo mejor es fíjate que vamos a tener un anuncio en breve de OpenAI y hablan algo de eso aunque todo el mundo dice que será de los busca el buscador que se prevé vaya a lanzar pero también puede ser de un modelo reducido qué importancia tiene tener modelos reducidos que un modelo reducido lo puedes meter en un móvil entonces es lo que estoy buscando que Apple está trabajando también en ello

15:25

[Germán] Sí.

15:35

[Germán] En un móvil.

15:49

[Germán] Eso es... Bueno, un modelo reducido también te elimina la necesidad de tener una GPU.

15:58

[Germán] Es decir, si tienes un PC sin GPU,

16:02

[Germán] medianamente potente.

16:02

[Galileo] Sí.

16:02

[Galileo] Sí.

16:03

[Germán] También hay modelos, lógicamente, que funcionan bastante peor, pero funcionan y para algunas cosas pueden servir.

16:12

[Germán] Pero hay modelos de ese tipo y lo que vamos a enseñar también se pueden instalar.

16:16

[Germán] Bueno, entonces, ¿qué vamos a utilizar para instalar YAML?

16:22

[Germán] Pues vamos a utilizar una herramienta que se llama Oyama.

16:26

[Germán] Oyama es como el Docker de los modelos de lenguaje.

16:31

[Galileo] explica para los que no sepan nada que es un docker

16:36

[Germán] ¿Cómo explico Docker sin hablar de contenedores?

16:40

[Germán] Docker es, por ejemplo, una forma de ejecutar un servidor web con un comando solamente.

16:47

[Germán] Un servidor web o un... ¿Qué voy a decir?

16:53

[Germán] Dime un servicio de...

16:54

[Galileo] a ver yo diría como al final tú lo que tenías antiguamente que fue el bombazo de la nube y todo esto fue la virtualización entonces al principio lo que se hacía era tú virtualizabas una máquina entera cogías y tenías tu bios metías tu sistema operativo por ejemplo cuando metes un lamp que es un servidor web pues lo metías encima de ese sistema operativo pero entonces aparecieron los de docker y dijeron para qué vamos a

17:00

[Germán] ¿No?

17:20

[Galileo] virtualizar toda una maquina si solo necesitamos virtualizar unos ciertos servicios para dar ese LAN entonces al final los contenedores es eso es la mínima expresión de una máquina virtual que te permite ejecutar esos servicios que tú necesitas para dar ese servicio para un servidor de lo que tú quieras y es mucho más eficiente

17:45

[Germán] Para el caso, lo que nos facilita Docker es que tenemos una forma muy fácil de ejecutar un servicio muy complejo.

17:57

[Galileo] Bueno, yo creo que es muy importante.

17:57

[Germán] es una forma con una línea de comandos, ponemos en marcha algo que nos costaría mucho tiempo poner a andar.

17:57