A ascensão da inteligência artificial (IA) tem sido marcada por avanços notáveis e, ao mesmo tempo, por questões éticas e legais que desafiam a nossa compreensão sobre o uso de dados. A OpenAI, uma das empresas líderes no campo da IA, tem estado no epicentro dessa revolução tecnológica, especialmente desde o lançamento do ChatGPT em novembro de 2022. Este chatbot conversacional não só demonstrou o potencial da IA em compreender e responder a perguntas complexas, mas também acendeu a faísca para uma corrida multibilionária pelo domínio no desenvolvimento da IA.
Recentemente, a OpenAI anunciou a sua intenção de expandir a sua influência para o mundo do vídeo com a ferramenta Sora. No entanto, apesar das suas capacidades impressionantes, tanto o ChatGPT quanto o Sora partilham um ponto controverso: a origem dos dados utilizados no seu treinamento é incerta. A empresa tem sido vaga quanto a este aspeto, limitando-se a afirmar que foram usados dados disponíveis publicamente.
A questão da proveniência dos dados é crucial, pois implica considerações sobre privacidade e direitos autorais. Por exemplo, a CTO da OpenAI, Mira Murati, expressou incerteza quando questionada sobre a utilização de dados do YouTube para treinar o modelo de Sora. Em contrapartida, o CEO do YouTube, Neal Mohan, afirmou que tal uso constituiria uma clara violação dos termos de serviço da plataforma.
Mohan, numa entrevista à Bloomberg, destacou que, embora certos elementos do conteúdo do YouTube, como títulos de vídeos e nomes de canais, estejam expostos ao web scraping para fins de indexação em motores de busca, os termos de serviço proíbem explicitamente o download de vídeos ou suas transcrições. Esta distinção é fundamental para proteger os direitos dos criadores de conteúdo.
A prática de treinar modelos de IA com dados de terceiros não é isenta de controvérsias. O The New York Times, por exemplo, processou a Microsoft e a OpenAI por usar “milhões” dos seus artigos para treinar modelos de IA. Este caso é apenas um exemplo de uma série de ações legais que surgiram em resposta ao uso não autorizado de dados.
Para mitigar essas questões, a OpenAI tem procurado estabelecer acordos com grandes grupos editoriais para usar os seus dados de forma legítima. Entre os acordos mais recentes, destacam-se parcerias com Prisa Media, o jornal francês Le Monde e o banco de imagens Shutterstock.
A meu ver, a OpenAI deve esclarecer a origem dos dados usados nos seus modelos e assegurar que todos os conteúdos são utilizados de acordo com as leis e regulamentos aplicáveis. Somente assim poderemos desfrutar dos benefícios da IA sem comprometer os valores fundamentais da nossa sociedade.