El chisme no aprende si no lo entrenas. Le cuentas algo ahora, y la siguiente vez que lo lanzas ya no se acuerda.
Se puede entrenar, pero necesitas un PC mucho más potente para entrenar que para inferencia. Hay sitios en la web en los cuales puedes entrenar modelos, pero tienes que pagar por el tiempo de GPU. Creo recordar que hay un curso en Coursera de Andrew Ng donde te explican como hacerlo. Tb este mismo autor tiene un sitio que se llama Deeplearning.ai para aprender todo tipo de cosas con IA generativa.
Para tener acceso a archivos, la gente usa una cosa que se llama RAG (Retrieval augmented generation) Si tienes que programarlo tú, creo que hay librerías que creo que te ayudan a hacerlo. (No he hecho esto nunca)
Hay otra cosa que se puede hacer, que es pasar más tiempo con el prompt. Microsoft publicó un artículo el año pasado sobre esto, una cosa que llaman Medprompt. Tienen una variedad de técnicas para que cambiando el prompt, puedas hacer que el modelo responda mucho mejor.
- Una es poner algo del contenido en el prompt para explicarle al modelo el tema sobre el cual estás hablando. Por ejemplo, si quieres que el chisme hable sobre un par de leyes de un tema en particular, le pones un resumen de las leyes pequeño de manera estructurada. Yo lo formateo en markdown para que el chisme se entere mejor. Los resultados que Microsoft tuvo con esto eran muy buenos.
- Otra es ponerle unos ejemplos del tipo de resultado que quieres.
- Otra es hacer lo que llaman el Chain of thought. Una manera fácil de hacerlo, es poner en el prompt "Let´s think step by step" y el chisme te explica los pasos y se aclara mejor.
La idea es muy buena, porque te permitiría usar modelos pequeños a los cuales pones prompts muy especializados, que te permitirían llegar cerca del rendimiento de los modelos grandes.
Hay más técnicas para mejorar el prompt. El resúmen más accesible que he encontrado, está en Medium, hecho por un tipo de Singapur, Sau Sheong, que se dedica a la informática, y creo que ahora está en nosequé cosa del gobierno de tecnología. Está detrás de un paywall, si tienes suscripción a Medium, es interesante de leer.
Medprompt
Experiments in prompt engineering