Alexa está prestes a ficar muito mais poderosa com uma tecnologia mais avançada

O serviço de voz de computação em nuvem da Amazon, Alexa, está prestes a ficar muito mais poderoso, já que a equipe do Amazon Alexa migrou a grande maioria de suas cargas de trabalho de inferência de máquina baseada em GPU para instâncias do Amazon EC2 Inf1.

Essas novas instâncias são fornecidas pela AWS Inferentia e a atualização resultou em latência de ponta a ponta 25% menor e custo 30% menor em comparação com instâncias baseadas em GPU para as cargas de trabalho de texto para fala do Alexa.

Como resultado da mudança para instâncias EC2 Inf1, os engenheiros do Alexa agora poderão começar a usar algoritmos mais complexos para melhorar a experiência geral dos proprietários do novo Amazon Echo e de outros dispositivos com o Alexa.

Além dos dispositivos Amazon Echo, mais de 140.000 modelos de alto-falantes, luzes, plugues, TVs inteligentes e câmeras inteligentes são alimentados pelo serviço de voz baseado em nuvem da Amazon.

A cada mês, dezenas de milhões de clientes interagem com Alexa para controlar seus dispositivos domésticos, ouvir música e rádio, se manter informado ou ser educado e entretido com as mais de 100.000 habilidades Alexa disponíveis para a plataforma.

Em um comunicado à imprensa, o técnico da AWS Sébastien Stormacq explicou por que a equipe do Amazon Alexa decidiu mudar de cargas de trabalho de inferência de máquina baseadas em GPU, dizendo:

“Alexa é um dos serviços de aprendizado de máquina em hiperescala mais populares do mundo, com bilhões de solicitações de inferência todas as semanas. Das três principais cargas de trabalho de inferência de Alexa (ASR, NLU e TTS), as cargas de trabalho TTS eram executadas inicialmente em instâncias baseadas em GPU. Mas a equipe Alexa decidiu mudar para as instâncias Inf1 o mais rápido possível para melhorar a experiência do cliente e reduzir o custo de computação do serviço. ”

AWS Inferentia

AWS Inferentia é um chip personalizado desenvolvido pela AWS para acelerar as cargas de trabalho de inferência de aprendizado de máquina e, ao mesmo tempo, otimizar seu custo.

Cada chip contém quatro NeuronCores e cada núcleo implementa um motor de multiplicação de matriz de matriz sistólica de alto desempenho que ajuda a acelerar massivamente as operações de aprendizado profundo , como convolução e transformadores.

Os NeuronCores também vêm equipados com um grande cache on-chip que reduz os acessos à memória externa para reduzir drasticamente a latência e aumentar o rendimento.

Para usuários que desejam aproveitar as vantagens do AWS Inferentia, o chip personalizado pode ser usado nativamente a partir de estruturas de aprendizado de máquina populares, incluindo TensorFlow, PyTorch e MXNet com o kit de desenvolvimento de software AWS Neuron.

Além da equipe Alexa, Amazon Rekognition também está adotando o novo chip para executar modelos, como a classificação de objetos em instâncias Inf1, resultando em latência oito vezes menor e taxa de transferência dobrada em comparação com a execução desses modelos em instâncias de GPU.

Fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui