Para uma melhor responsabilização, devemos transferir o foco da conceção destes sistemas para o seu impacto. Por exemplo, no final de dezembro, a má afetação do Centro Médico stanford de vacinas covid-19 foi culpada de um “algoritmo” de distribuição que favoreceu administradores de alto escalão sobre médicos de linha da frente.
O hospital alegou ter consultado as éticas para desenhar o seu “muito complexo” algoritmo”, que um representante disse “claramente não funcionou bem”, como o MIT Technology Review relatou na altura.
Enquanto muitas pessoas interpretaram o uso do termo para significar que a IA ou a aprendizagem automática estavam envolvidas, o sistema era de facto um algoritmo médico, que é funcionalmente diferente. Era mais parecido com uma fórmula ou árvore de decisão muito simples projetada por um comité humano.
Esta desconexão realça um problema crescente. À medida que os modelos preditivos proliferam, o público torna-se mais cauteloso no seu uso em tomar decisões críticas. Mas à medida que os decisores políticos começam a desenvolver padrões de avaliação e auditoria de algoritmos, devem primeiro definir a classe de tomada de decisão , ou instrumentos de apoio à decisão aos quais as suas políticas se aplicarão.
Deixar o termo “algoritmo” aberto à interpretação pode colocar alguns dos modelos com o maior impacto fora do alcance das políticas concebidas para garantir que tais sistemas não prejudiquem as pessoas.
Descrever um sistema de tomada de decisão como um “algoritmo” é muitas vezes uma forma de desviar a responsabilidade pelas decisões humanas. Para muitos, o termo implica um conjunto de regras baseadas objectivamente em provas ou dados empíricos. Também sugere um sistema altamente complexo – talvez tão complexo que um humano lutaria para entender o seu funcionamento interno ou antecipar o seu comportamento quando implantado. Mas esta caracterização é precisa? Nem sempre.
Então o “algoritmo” de Stanford é um algoritmo? Depende de como se define o termo. Embora não haja uma definição universalmente aceite, uma definição comum vem de um livro de 1971 escrito pelo cientista informático Harold Stone, que afirma: “Um algoritmo é um conjunto de regras que definem precisamente uma sequência de operações. Esta definição abrange tudo, desde receitas a redes neuronais complexas: uma política de auditoria baseada nela seria risível.
Nas estatísticas e na aprendizagem automática, geralmente pensamos no algoritmo como o conjunto de instruções que um computador executa para aprender com os dados. Nestes campos, a informação estruturada resultante é tipicamente chamada de modelo. A informação que o computador aprende com os dados através do algoritmo pode parecer um “peso” para multiplicar cada fator de entrada, ou pode ser muito mais complicado. A complexidade do algoritmo em si também pode variar.
E os impactos destes algoritmos dependem, em última análise, dos dados a que são aplicados e do contexto em que o modelo resultante é implantado. O mesmo algoritmo pode ter um impacto líquido positivo quando aplicado num contexto e um efeito muito diferente quando aplicado noutro.
O hospital universitário culpou um “algoritmo muito complexo” pelo seu plano de distribuição de vacinas desigual. Eis o que correu mal. Em outros domínios, o que é descrito acima como um modelo é em si chamado de algoritmo. Embora isso seja confuso, sob a definição mais ampla que é também preciso: os modelos são regras (aprendidas pelo algoritmo de treino do computador em vez de declaradas diretamente por humanos) que definem uma sequência de operações.
Por exemplo, no ano passado, no Reino Unido, os meios de comunicação descreveram o fracasso de um “algoritmo” para atribuir notas justas a estudantes que não podiam sentar-se para os seus exames por causa do covid-19. Certamente, o que estes relatórios estavam a discutir era o modelo — o conjunto de instruções que traduziam entradas (desempenho passado de um aluno ou a avaliação de um professor) em saídas (uma pontuação).
O que parece ter acontecido em Stanford é que os humanos – incluindo os éticos – sentaram-se e determinaram que série de operações o sistema deve usar para determinar, com base em inputs, como a idade e o departamento de um empregado, se essa pessoa deve estar entre as primeiras a obter uma vacina.
Do que se sabe que esta sequência não foi baseada num procedimento de estimativa que otimizou para algum alvo quantitativo. Foi um conjunto de decisões normativas sobre como as vacinas devem ser priorizadas, formalizadas na linguagem de um algoritmo. Esta abordagem qualifica-se como um algoritmo em terminologia médica e sob a definição ampla, embora a única inteligência envolvida era a dos humanos.
Os legisladores também estão a pesar sobre o que é um algoritmo. Introduzida no Congresso dos EUA em 2019, HR2291, ou a Lei de Responsabilidade Algorítmica, usa o termo “sistema de decisão automatizado” e define-o como “um processo computacional, incluindo um derivado de aprendizagem automática, estatísticas ou outras técnicas de processamento de dados ou inteligência artificial, que toma uma decisão ou facilita a tomada de decisão humana, que impacta os consumidores.” Os auditores estão a testar algoritmos de contratação para parcialidade, mas não há uma solução fácil. As auditorias da IA podem ignorar certos tipos de preconceitos, e não verificam necessariamente que uma ferramenta de contratação escolhe os melhores candidatos para um emprego.
Da mesma forma, a cidade de Nova Iorque está a considerar o Int 1894, uma lei que introduziria auditorias obrigatórias de “ferramentas automatizadas de decisão de emprego”, definidas como “qualquer sistema cuja função seja regida pela teoria estatística, ou sistemas cujos parâmetros sejam definidos por tais sistemas.” Notavelmente, ambos os projetos de lei mandatam auditorias, mas fornecem apenas orientações de alto nível sobre o que é uma auditoria.
Como decisores tanto no governo como na indústria criam padrões para auditorias algorítmicas, há a probabilidade de divergências sobre o que conta como algoritmo. Em vez de tentar chegar a acordo sobre uma definição comum de “algoritmo” ou uma determinada técnica de auditoria universal, sugerimos avaliar sistemas automatizados principalmente com base no seu impacto. Centrando-nos no resultado e não na contribuição, evitamos debates desnecessários sobre a complexidade técnica. O que importa é o potencial de danos, independentemente de estarmos a discutir uma fórmula algébrica ou uma rede neural profunda.
O impacto é um fator crítico de avaliação noutros domínios. É incorporado no quadro clássico DREAD em cibersegurança, que foi popularizado pela primeira vez pela Microsoft no início dos anos 2000 e ainda é usada em algumas empresas. O “A” no DREAD pede aos avaliadores de ameaças que quantifiquem os “utilizadores afetados” perguntando como muitas pessoas sofreriam o impacto de uma vulnerabilidade identificada. As avaliações de impacto também são comuns nas análises de direitos humanos e sustentabilidade, e vimos alguns developers iniciais de avaliações de impacto de IA a criarem rubricas semelhantes. Por exemplo, a avaliação de impacto algorítmico do Canadá fornece uma pontuação com base em questões qualitativas como “Os clientes desta linha de negócio são particularmente vulneráveis? (sim ou não).”
O que importa é o potencial de danos, independentemente de estarmos a discutir uma fórmula algébrica ou uma rede neural profunda. Existem certamente dificuldades em introduzir um termo pouco definido, como “impacto” em qualquer avaliação. O quadro DREAD foi mais tarde complementado ou substituído por STRIDE, em parte devido a desafios com a conciliação de diferentes crenças sobre o que a modelação de ameaça implica. A Microsoft deixou de usar DREAD em 2008. No campo da IA, as conferências e as revistas já introduziram declarações de impacto com diferentes graus de sucesso e controvérsia. Está longe de. ser à prova de falhas: as avaliações de impacto puramente formuladas podem ser facilmente testadas, enquanto uma definição excessivamente vaga pode levar a arbitrariedade ou impossibiliidade de avaliações longas.
Ainda assim, é um importante passo em frente. O termo “algoritmo”, ainda que definido, não deve ser um escudo para absolver os humanos que conceberam e implantaram qualquer sistema de responsabilidade pelas consequências da sua utilização. É por isso que o público está cada vez mais exigente na responsabilidade algorítmica – e o conceito de impacto oferece um terreno comum útil para diferentes grupos que trabalham para satisfazer essa procura.
Kristian Lum é professor assistente de investigação no Departamento de Informática e Ciências da Informação da Universidade da Pensilvânia.
Rumman Chowdhury é o diretor da equipa de Ética, Transparência e Responsabilidade (META) no Twitter. Ela já foi a CEO e fundadora da Parity, uma plataforma de auditoria algorítmica, e chumbo global para IA responsável na Accenture.
Fonte: Technologyreview