Faustino Chanhola Bonito Sachimuco

                                                Universidade do Minho, Braga, PT

Resumo

Este trabalho investiga o uso de Large Language Models (LLMs) na geração de imagens com o Midjourney AI, que combina LLMs com Difusion Models. A metodologia envolveu a busca e análise de informações em várias fontes e a utilização do Midjourney AI para auxiliar na análise. Embora os detalhes técnicos do Midjourney AI permaneçam em segredo, aqui é apresentada uma ideia geral do seu funcionamento.

1 Midjourney AI

O Midjourney é um laboratório de pesquisa independente, fundado por David Holz, co-fundador da Leap Motion. Ele conta com uma pequena equipe auto-financiada, focada em design, infraestrutura humana e IA. Além dos funcionários em tempo integral, há um conselho composto por quatro renomados consultores, entre eles engenheiros do Vale do Silício, incluindo o CEO do GitHub, o fundador do Second Life,o criador da Avid Technology e um executivo com experiências na Apple, Tesla e Intel. Durante uma entrevista concedida à Forbes, Holz admitiu que o Midjourney utiliza conjuntos de dados abertos sem o consentimento dos criadores das obras de arte utilizadas para treinar o modelo, expressando a esperança de futuramente oferecer aos artistas a opção de recusar o uso de suas imagens para geração de novos conteúdos visuais.

O Midjourney AI é acessado por meio de um servidor Discord, onde os usuários interagem com bot em canais específicos. O serviço de geração de imagens do Midjourney foi aberto para beta em 12 de julho de 2022. No momento, está na versão Alpha, o que significa que ainda está em desenvolvimento e sujeito a melhorias futuras.

1.1 Large Language Models (LLM)

Os LLMs são modelos de aprendizado profundo (Deep Learning) que utilizam muitos parâmetros (geralmente bilhões ou possivelmente mais) para aprender com grandes quantidades de texto não rotulado, realizando diversas tarefas de processamento de linguagem natural (Natural Language Processing - NLP).

Eles fazem parte dos Large Foundation Models (LFMs), representando um subcampo da inteligência artificial conhecido como IA generativa. LLMs utilizam modelos transformadores (Transformers models) e são treinados com conjuntos de dados volumosos, o que lhes permite reconhecer, traduzir, prever ou gerar texto e outro conteúdo com precisão e eficácia.

Fig. 1: Localização das LLM no    campo da IA

Fig. 1: Localização das LLM no campo da IA

1.2 Diffusion Models

Os modelos de difusão são treinados através de várias etapas que envolvem a adição de ruído aleatório (noising) a uma imagem, e em seguida, prever como reverter esse processo de difusão por meio do denoising (remoção de ruído). Ou seja, é adicionado um ruído ou uma pequena perturbação aleatória na imagem original e, em seguida, o modelo tenta prever como remover o ruído e restaurar a imagem original. As previsões feitas pelo modelo são baseadas na descrição da imagem.

Caso a imagem resultante após o processo de denoising não corresponder com a descrição fornecida, os pesos (weights) da rede neural do modelo são ajustados para aprimorar a capacidade do modelo em prever corretamente a imagem com base na descrição fornecida. Uma vez que o modelo é treinado, ele pode transformar ruído aleatório em uma imagem que corresponde à descrição fornecida no prompt. O processo de denoising é ilustrado na figura 2.

                                                         Fig. 2: Processos de difusão (nosing e denosing)

                                                     Fig. 2: Processos de difusão (nosing e denosing)

1.3 Ideia de como funciona o Midjourney AI

O Midjourney AI é um serviço de código fechado, e devido à falta de artigos que descrevam sua arquitetura interna, porque é um segredo, será apresentada uma ideia de seu funcionamento. O Midjourney AI utiliza opiniões divergentes sobre modelos, com referências tanto a CNN (Convolutional Neural Network) quanto a GAN (Generative Adversarial Network). Ele passa por múltiplas etapas no processo de geração de imagens. Inicialmente, utiliza um LLM (modelo de linguagem grande) treinado em pares texto-imagem para entender e interpretar as descrições de texto fornecidas, o prompt. O LLM analisa o prompt em suas ideias centrais, e traduz esses conceitos em um vetor latente (são representações intermediárias, ver Espaço Latente), retendo detalhes como paleta de cores e formas. Em seguida, o modelo combina o vetor latente com os dados em que foi treinado para entender a solicitação. Para a geração da imagem final, um modelo de difusão é aplicado. Esse tipo de IA produz imagens a partir de padrões supostamente aleatórios, refinando lentamente a imagem adicionando detalhes controlados pelo vetor latente. É por essa razão que, durante o processo, as imagens podem parecer desfocadas antes de se transformarem em criações artísticas.