Turing-NLG: O Modelo Gerador de linguagem da Microsoft

Seguindo a tendência de que maiores modelos de linguagem natural levam a melhores resultados, o Microsoft Project Turing está a introduzir Turing Natural Language Generation (T-NLG), o maior modelo já publicado em 17 mil milhões de parâmetros, que supera o estado da arte numa variedade de referências de modelação de linguagem e também prima quando aplicado a numerosas tarefas práticas, incluindo o resumo e respostas a perguntas.

Este trabalho não seria possível sem avanços produzido pela biblioteca DeepSpeed (compatível com pyTorch) e pelo optimizador ZeRO, que pode ser explorado mais neste blog que o acompanha. A T-NLG avançou o estado da arte na geração de linguagem natural, proporcionando novas oportunidades para a Microsoft e para os nossos clientes.

Além de poupar tempo aos nossos utilizadores resumindo documentos e e-mails, a T-NLG pode melhorar as experiências com a suite do Microsoft Office, oferecendo assistência escrita aos autores e respondendo a perguntas que os leitores podem fazer sobre um documento. Além disso, abre caminho para chatbots mais fluentes e assistentes digitais, como a geração de idiomas nativos pode ajudar as empresas com a gestão e vendas de relacionamento com o cliente, conversando com os clientes. Por exemplo, este resumo foi gerado pelo próprio modelo linguístico Turing-NLG.

Sobre o Project Turing: T-NLG faz parte de uma iniciativa maior chamada Project Turing, um grupo de investigação aplicado que trabalha para fazer evoluir produtos da Microsoft com a adoção de aprendizagem profunda tanto para o processamento de texto como para imagem. O trabalho está a ser integrado ativamente em vários produtos da Microsoft, incluindo o Bing, Office e Xbox. Turing Natural Language Generation (T-NLG) é um modelo de linguagem de 17 mil milhões de parâmetros da Microsoft que supera o estado da arte em muitas tarefas a jusante do NLP (natural language processing). Apresentamos uma demonstração do modelo, incluindo a sua geração freeform, resposta a perguntas e capacidades de resumo, para académicos para fins de feedback e investigação.

Modelos linguísticos de aprendizagem massiva (LM), como BERT e GPT-2, com biliões de parâmetros aprendidos essencialmente com todo o texto publicado na internet, melhoraram o estado da arte em quase todas as tarefas de processamento de linguagem natural a jusante (PNL), incluindo a resposta a perguntas, agentes conversacionais, e compreensão de documentação , entre outros. Uma melhor geração de linguagem natural pode ser transformadora para uma variedade de aplicações, tais como ajudar os autores a compor o seu conteúdo, poupando tempo, resumindo uma longa peça de texto, ou melhorando a experiência do cliente com assistentes digitais.

Estamos em lançamento de uma demonstração privada da T-NLG, incluindo a sua geração ´freeform´, resposta de perguntas e capacidades de resumo, para um pequeno conjunto de utilizadores dentro da comunidade académica para testes e feedback iniciais. A T-NLG é um modelo gerador de linguagem baseado em Transformer, o que significa que pode gerar palavras para completar tarefas textuais abertas. Além de completar uma frase inacabada, pode gerar respostas diretas a perguntas e resumos de documentos de entrada. Modelos geradores como o T-NLG são importantes para tarefas de NLP, uma vez que o nosso objetivo é responder da forma mais direta, precisa e fluente como os humanos o fazem em qualquer situação. Anteriormente, os sistemas de resposta e resumo de perguntas baseavam-se na extração de conteúdos existentes a partir de documentos que pudessem servir de resposta ou resumo, mas muitas vezes parecem não naturais ou incoerentes. Com a T-NLG podemos naturalmente resumir ou responder a perguntas sobre um documento pessoal ou um segmento de um e-mail.

Observámos que quanto maior o modelo e mais diversificados e abrangentes os dados de pré-treino, melhor se realiza a generalização a múltiplos tarefas a jusante, mesmo com menos exemplos de treino. Portanto, acreditamos que é mais eficiente formar um grande modelo centralizado multi-tarefas e partilhar as suas capacidades em inúmeras tarefas em vez de treinar um novo modelo para cada tarefa individualmente. Qualquer modelo com mais de 1,3 mil milhões de parâmetros não pode caber numa única GPU (mesmo uma com 32GB de memória), pelo que o modelo em si deve ser paralelo, ou dividido em pedaços, através de múltiplas GPUs. Aproveitámos vários avanços de hardware e software para conseguir treino T-NLG:

1. Aproveitámos uma configuração de hardware NVIDIA DGX-2, com ligações InfiniBand para que a comunicação entre GPUs seja mais rápida do que previamente alcançada.

2. Aplicamos o corte de tensores para fragmentará o modelo em quatro GPUs NVIDIA V100 no quadro NVIDIA Megatron-LM.

3. DeepSpeed com ZeRO permitiu-nos reduzir o grau de modelo-paralelismo (de 16 para

4), aumentar o tamanho do lote por nó em quatro vezes, e reduzir o tempo de treino
por três vezes. DeepSpeed torna o treino de modelos muito grandes, mais eficiente com menos GPUs, e treina em tamanho de lote de 512 com apenas 256 GPUs NVIDIA em comparação com 1024 GPUs nvidia necessários usando apenas Megatron-LM. DeepSpeed é compatível com PyTorch.

O modelo T-NLG resultante tem 78 camadas de Transformer com um tamanho oculto de 4256 e 28 ´attention heads´. Para tornar os resultados comparáveis ao Megatron-LM, pré-treinámos o modelo com os mesmos hiperparâmetros e agenda de aprendizagem que o Megatron-LM, usando uma perda de geração autorregressiva para 300.000 passos de lote tamanho 512 em sequências de 1024 tokens. O programa de aprendizagem seguiu 3.200 passos de aquecimento linear até uma taxa máxima de aprendizagem de 1,5×10-4 e um cosseno acima de 500.000 passos, com FP16. Treinámos o modelo no mesmo tipo de dados em que os modelos Megatron-LM foram treinados. Também comparámos o desempenho do modelo T-NLG pré-treinado em tarefas linguísticas padrão como a perplexidade WikiText-103 (mais baixa é melhor) e uma precisão ´LAMBADA´ de previsão de próxima palavra (mais alto é melhor).

*A IA Aberta utilizou um processamento adicional (filtragem de palavras-stop) para obter números mais elevados do que o modelo alcançado sozinho. Nem Megatron nem T-NLG usam esta técnica de filtragem de stopword.

Muitos utilizadores de pesquisa na Web estão habituados a ver um cartão de resposta direta exibido no topo da página de resultados quando fazem uma pergunta. A maioria destes cartões mostram uma frase de resposta no contexto do parágrafo de onde se originou. O nosso objetivo é satisfazer mais claramente as necessidades de
informação dos utilizadores respondendo diretamente à sua pergunta. Por exemplo, a maioria dos motores de busca destacaria o nome “Tristan Prettyman” abaixo ao mostrar a passagem completa :

Pergunta a quem jason Mraz estava noivo? Passage Mraz foi noiva do cantor/compositor e amigo de longa data Tristan Prettyman na véspera de Natal de 2010; quebrou o noivado seis meses depois. Resposta “direta” Jason Mraz estava noivo de Tristan Prettyman.

Em vez disso, a T-NLG responderá diretamente à pergunta com uma frase completa. Esta capacidade é mais importante fora da pesquisa web – por exemplo, isto poderá reforçar a capacidade de assistentes IA para responder inteligentemente quando um utilizador faz uma pergunta sobre os seus dados pessoais, tais como e-mails ou documentos de Word. O modelo também é capaz de resposta a perguntas “zero shot”, ou seja, responder sem uma passagem de contexto. Para os exemplos abaixo, não havia uma passagem dada ao modelo, apenas a pergunta. Nestes casos, o modelo baseia-se no conhecimento adquirido durante a pré-formação para gerar uma resposta. Uma vez que resultados ROUGE , que marcam com a resposta da verdade básica, não captura outros aspetos de qualidade, como a correção factual e a correção gramatical, pedimos anotadores humanos para avaliar essas qualidades para o nosso sistema de base anterior – um modelo LSTM semelhante ao CopyNet – e o nosso modelo T-NLG atual.

Há ainda trabalho a ser feito para permitir a avaliação automática da correção factual. Notamos também que um modelo pré-treinado maior requer menos casos de tarefas a jusante para as aprender bem. Só tínhamos, no máximo, 100.000 exemplos de “direto” resposta-resposta de resposta a triplos, e mesmo depois de apenas alguns milhares de casos de treino, tivemos um modelo que superou o LSTM linha de base que foi treinado em várias épocas dos mesmos dados. Esta observação tem impacto real no negócio, uma vez que é caro recolher dados supervisionados anotados.

Existem dois tipos de ´sumarização´ na literatura ´NLP´: extrativo — tomando um pequeno número de frases do documento como substituto de um resumo — e abstrativo – gerando um resumo com um modelo NLG, como um humano faria. Em vez de copiar conteúdo existente, o nosso objetivo para a T-NLG é escrever, como humano, resumos abstrativos para uma ampla gama de documentos de texto: e-mails, posts de blog, documentos word, e até folhas excel e apresentações de PowerPoint. Um dos principais desafios é a falta de dados de formação supervisionados para todos estes cenários: os seres humanos nem sempre resumem explicitamente cada um destes tipos de documentos. O poder da T-NLG é que já é tão adepto de compreender texto que não precisa de muita supervisão, para superar todas as técnicas que temos empregue anteriormente. Para tornar o T-NLG o mais versátil possível para resumir diferentes tipos de texto, ajustámos o modelo T-NLG de forma multi-tarefa em quase todos os conjuntos de dados de resumo públicos disponíveis, que ascendem a aproximadamente quatro milhões de casos de formação. Relatámos pontuações de ROUGE (um proxy para o quão bem o gerado resumo corresponde exatamente aos unigramas e bigrams num resumo de referência) para comparar com outro recente modelo de linguagem baseado em Transformer conhecido como PEGASUS , e modelos de última geração.

Note que a T-NLG é treinada de forma multi-tarefa, onde é treinado em todos os conjuntos de dados simultaneamente. Uma vez que a avaliação ROUGE é conhecida por ser imperfeita para tarefas de resumo, (um bom resumo abstrato pode ser escrito de muitas maneiras), incluímos alguns resumos de saída de artigos publicamente disponíveis para
comparação.

Fonte: Microsoft

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui