Criando um LLM do zero - Sebastian Raschka

Victor Hugo Germano
2 de mai.
2 min de leitura

Atualizado: 4 de mai.

Build a Large Language Model - Sebastian Raschka

Nas últimas 2 semanas me dediquei ao livro Build A Large Language Model, de Sebastian Raschka. Me coloquei como meta finalizar a implementação do livro para que eu pudesse aprofundar meu entendimento sobre os mecanismos por trás de LLMs, e assim ter mais propriedade em criticar tecnologicamente o que já venho falando por aqui há bastante tempo. Como estava em Spring Break do mestrado, foi um ótimo passatempo!

Sebastian Raschka conseguiu produzir um ótimo tutorial sobre a implementação de Transformers e Attention Mechanism que vale muito a pena explorar! Gostei bastante do livro. Aproveitei para compartilhar minhas anotações e o código que gerei usando o livro no Github, para quem tiver interesse em conhecer mais sobre a parte técnica de geradores de texto probabilísticos.

Acredito que é um conceito importantíssimo para o momento atual - apesar de acreditar que estou chegando um pouco atrasado no assunto, já que estamos chegando no poço das desilusões com a capacidade de LLMs. E cada vez mais evidência de que esse modelo não vai avançar sem colocar o planeta inteiro em risco de catástrofe. Puramente focar em escala do poder computacional para IA é um caminho sem muito futuro: não só para a tecnologia, mas para o planeta.

Yann LeCun acredita que LLMs já são obsoletas

Me chamou bastante atenção o conceito de Attention e o processamento dos dados para compor um dataset adequado para treinamento. Bastante engenhoso! E o conhecimento em processamento de matrizes ajuda demais a aprofundar o entendimento.

O livro é super detalhado e o próprio repositório do autor tem várias referências e soluções diferentes. Recomendo!

Apesar disso, eu me peguei inúmeras vezes usando o material criado por Grant Sanderson, para facilitar a visualização do meu próprio modelo mental de como LLMs funcionam, e como o processo de Attention se dá.

A visualização de conceitos que ele conseguiu na séria de vídeo é simplesmente fenomenal:

Caso você queira, existe uma palestra de 1 hora, dele apresentando de maneira mais profunda os conceitos: Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Foram duas semanas para percorrer o livro, implementar os exemplos e resolver alguns problemas que surgem. PyTorch é uma baita ferramenta que simplifica muito o trabalho!

Disponibilizei todo meu aprendizado num projeto no GitHub, que pode ser útil para quem quiser conhecer mais sobre os termos e detalhes da implementação:

LLM deep dive - https://github.com/victorhg

Legal voltar a programar em python :D

Criando um LLM do zero - Sebastian Raschka

Posts recentes

Comentários