Criando um LLM do zero - Sebastian Raschka
- Victor Hugo Germano
- 2 de mai.
- 2 min de leitura
Atualizado: 4 de mai.

Nas últimas 2 semanas me dediquei ao livro Build A Large Language Model, de Sebastian Raschka. Me coloquei como meta finalizar a implementação do livro para que eu pudesse aprofundar meu entendimento sobre os mecanismos por trás de LLMs, e assim ter mais propriedade em criticar tecnologicamente o que já venho falando por aqui há bastante tempo. Como estava em Spring Break do mestrado, foi um ótimo passatempo!
Sebastian Raschka conseguiu produzir um ótimo tutorial sobre a implementação de Transformers e Attention Mechanism que vale muito a pena explorar! Gostei bastante do livro. Aproveitei para compartilhar minhas anotações e o código que gerei usando o livro no Github, para quem tiver interesse em conhecer mais sobre a parte técnica de geradores de texto probabilísticos.
Acredito que é um conceito importantíssimo para o momento atual - apesar de acreditar que estou chegando um pouco atrasado no assunto, já que estamos chegando no poço das desilusões com a capacidade de LLMs. E cada vez mais evidência de que esse modelo não vai avançar sem colocar o planeta inteiro em risco de catástrofe. Puramente focar em escala do poder computacional para IA é um caminho sem muito futuro: não só para a tecnologia, mas para o planeta.

Me chamou bastante atenção o conceito de Attention e o processamento dos dados para compor um dataset adequado para treinamento. Bastante engenhoso! E o conhecimento em processamento de matrizes ajuda demais a aprofundar o entendimento.
O livro é super detalhado e o próprio repositório do autor tem várias referências e soluções diferentes. Recomendo!
Apesar disso, eu me peguei inúmeras vezes usando o material criado por Grant Sanderson, para facilitar a visualização do meu próprio modelo mental de como LLMs funcionam, e como o processo de Attention se dá.
A visualização de conceitos que ele conseguiu na séria de vídeo é simplesmente fenomenal:
Caso você queira, existe uma palestra de 1 hora, dele apresentando de maneira mais profunda os conceitos: Visualizing transformers and attention | Talk for TNG Big Tech Day '24
Foram duas semanas para percorrer o livro, implementar os exemplos e resolver alguns problemas que surgem. PyTorch é uma baita ferramenta que simplifica muito o trabalho!
Disponibilizei todo meu aprendizado num projeto no GitHub, que pode ser útil para quem quiser conhecer mais sobre os termos e detalhes da implementação:
LLM deep dive - https://github.com/victorhg
Legal voltar a programar em python :D
Comments