top of page

Criando um LLM do zero - Sebastian Raschka

Atualizado: 4 de mai.


Build a Large Language Model - Sebastian Raschka

Nas últimas 2 semanas me dediquei ao livro Build A Large Language Model, de Sebastian Raschka. Me coloquei como meta finalizar a implementação do livro para que eu pudesse aprofundar meu entendimento sobre os mecanismos por trás de LLMs, e assim ter mais propriedade em criticar tecnologicamente o que já venho falando por aqui há bastante tempo. Como estava em Spring Break do mestrado, foi um ótimo passatempo!


Sebastian Raschka conseguiu produzir um ótimo tutorial sobre a implementação de Transformers e Attention Mechanism que vale muito a pena explorar! Gostei bastante do livro. Aproveitei para compartilhar minhas anotações e o código que gerei usando o livro no Github, para quem tiver interesse em conhecer mais sobre a parte técnica de geradores de texto probabilísticos.


Acredito que é um conceito importantíssimo para o momento atual - apesar de acreditar que estou chegando um pouco atrasado no assunto, já que estamos chegando no poço das desilusões com a capacidade de LLMs. E cada vez mais evidência de que esse modelo não vai avançar sem colocar o planeta inteiro em risco de catástrofe. Puramente focar em escala do poder computacional para IA é um caminho sem muito futuro: não só para a tecnologia, mas para o planeta.


Yann LeCun acredita que LLMs já são obsoletas

Me chamou bastante atenção o conceito de Attention e o processamento dos dados para compor um dataset adequado para treinamento. Bastante engenhoso! E o conhecimento em processamento de matrizes ajuda demais a aprofundar o entendimento.




O livro é super detalhado e o próprio repositório do autor tem várias referências e soluções diferentes. Recomendo!


Apesar disso, eu me peguei inúmeras vezes usando o material criado por Grant Sanderson, para facilitar a visualização do meu próprio modelo mental de como LLMs funcionam, e como o processo de Attention se dá.


A visualização de conceitos que ele conseguiu na séria de vídeo é simplesmente fenomenal:



Caso você queira, existe uma palestra de 1 hora, dele apresentando de maneira mais profunda os conceitos: Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Foram duas semanas para percorrer o livro, implementar os exemplos e resolver alguns problemas que surgem. PyTorch é uma baita ferramenta que simplifica muito o trabalho!


Disponibilizei todo meu aprendizado num projeto no GitHub, que pode ser útil para quem quiser conhecer mais sobre os termos e detalhes da implementação:






Legal voltar a programar em python :D



 
 
 

Comments


©2024 by Victor Hugo Germano

bottom of page