Apple Rouba Dados do YouTube para Treinar IA

Nos últimos anos, os chatbots e outras aplicações de inteligência artificial (IA) têm evoluído de forma impressionante, demonstrando capacidades notáveis em manter conversas fluidas, responder a perguntas e analisar dados. No entanto, para alcançar este nível de sofisticação, as empresas de IA necessitam de treinar os seus modelos de linguagem com vastas quantidades de dados.

Este processo de treinamento é, atualmente, um tema controverso, especialmente devido à falta de transparência sobre a origem desses dados.

A Origem dos Dados de Treinamento

Recentemente, uma investigação da Proof News revelou que empresas como Apple, Anthropic, Nvidia e Salesforce utilizaram dados do YouTube para treinar os seus modelos de IA. Esta descoberta levanta questões importantes sobre a ética e a legalidade do uso de tais dados.

Subtítulos do YouTube como Fonte de Dados

De acordo com o relatório, uma organização sem fins lucrativos chamada EleutherAI recolheu os subtítulos de 173.536 vídeos do YouTube, provenientes de mais de 48.000 canais. Estes dados, que consistem em texto sem formatação e, muitas vezes, incluem traduções para diferentes idiomas, foram utilizados para criar um conjunto de dados denominado “YouTube Subtitles”.

Este conjunto de dados inclui material de criadores de conteúdo populares como MrBeast e Marques Brownlee, bem como de canais educativos como Khan Academy, MIT e Harvard. Os subtítulos do YouTube fazem parte de um conjunto de dados maior chamado “Pile”, que é composto por 22 conjuntos de dados, incluindo material do Parlamento Europeu e da Wikipedia em inglês.

A Utilização dos Dados

O Pile está disponível ao público, permitindo que académicos e empresas utilizem estes dados para os seus projetos de IA. As empresas mencionadas anteriormente não obtiveram os dados diretamente do YouTube, mas sim através do trabalho realizado pela EleutherAI.

Os Termos de Serviço do YouTube

Este cenário levanta questões sobre o papel dos termos de serviço do YouTube. No início do segundo trimestre do ano, o CEO do YouTube, Neal Mohan, esclareceu que, embora certos conteúdos do YouTube, como títulos de vídeos e nomes de canais, possam ser raspados para aparecer nos motores de busca, as regras atuais não permitem a descarga de vídeos ou das suas transcrições.

As transcrições, que são a matéria-prima dos subtítulos, contêm o texto do que é dito nos vídeos. Mohan afirmou que a descarga de transcrições ou fragmentos de vídeos constitui uma “clara infração” dos termos de serviço da plataforma.

A Questão da Responsabilidade

A questão central aqui é: quem é responsável pela infração, se é que existe uma? Embora o relatório indique que Apple, Anthropic, Nvidia e Salesforce utilizaram subtítulos do YouTube para treinar os seus modelos, estas empresas não foram as responsáveis pela raspagem dos dados. Essa tarefa foi realizada pela EleutherAI. Portanto, a responsabilidade pela possível infração dos termos de serviço do YouTube recai sobre quem?

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui