Mais sistemas do que supervisão humana

2026 começa com mais sistemas de IA dentro do consultório do que supervisão humana qualificada para auditar o que esses sistemas estão fazendo. Abro o ano com a posição que vou defender em comissão técnica do CFP, em parecer pra ANPD, em sala de aula da pós da UFBA e em qualquer lugar onde a conversa for séria: human-in-the-loop sem desenho explícito do loop é teatro regulatório vendido como salvaguarda.

A indústria de healthtech tem oito plataformas brasileiras grandes oferecendo IA para triagem de saúde mental — questionário inicial pontuado por modelo, recomendação automática de severidade, sugestão de protocolo terapêutico. Sete delas alegam ter supervisão humana. Quatro delas, quando perguntadas em fórum técnico no segundo semestre de 2025, foram incapazes de descrever em que ponto da cadeia o psicólogo entra e com que autoridade ele interrompe a saída do modelo. Duas responderam que o psicólogo "revisa casos sinalizados". Sinalizados por quem? Pelo próprio modelo. O sistema é juiz, parte e supervisor — o humano só assina embaixo do que a máquina já decidiu. Isso não é supervisão. É carimbo.

Desagregar o loop é a tarefa técnica de 2026. Existem quatro cadeiras de supervisão diferentes, e tratar como se fossem uma é o que permite ao setor vender estagiário caro como salvaguarda barata. Vou nomear as quatro, porque a literatura brasileira ainda não fez isso de forma operacional.

Cadeira 1, rotulagem. Quem decide o que conta como sintoma, comportamento de risco, fala que importa? Esse é o ponto onde o viés entra mais cedo e mais barato — porque é onde o dado é classificado antes de virar treinamento. Hoje, em 90% das plataformas brasileiras, rotulagem é feita por psicólogo recém-formado contratado em regime PJ por R$ 25 a hora. Ele recebe orientação genérica e classifica 80 fichas por dia. O viés do rotulador vira o viés do modelo, e o viés do modelo vira a recomendação que chega ao paciente — três passos depois, sem rastreabilidade. É o tipo de coisa que Vyas et al. (2020) mostraram com método na medicina: classificadores "raciais" em algoritmos clínicos americanos vinham de decisões antigas de rotulagem que ninguém revisara. A solução: rotulagem por equipe sênior, com supervisão dupla cega e quota racial declarada no time de anotadores.

Cadeira 2, validação. Quem testa o modelo antes do deploy? Não basta acurácia média. Tem que ser acurácia desagregada por subgrupo. Buolamwini e Gebru fizeram isso com reconhecimento facial em 2018 e descobriram que a mesma rede que tinha 99% de acurácia em rosto branco masculino tinha 65% em rosto negro feminino. Em saúde mental brasileira ninguém faz desagregação por raça, classe e território. O modelo é validado num conjunto-teste majoritariamente sudeste-classe-média e vendido como solução nacional. Resultado: quando atende paciente periférico, baiano, paraense, o modelo erra e o erro fica imputado ao paciente que "não engajou". A solução: validação obrigatória com painel desagregado, divulgação pública da métrica por subgrupo.

Cadeira 3, contestação. Quando o paciente discorda da recomendação automatizada, para quem ele recorre? Em quanto tempo? Com que custo? Hoje a resposta é silêncio. As plataformas escondem o procedimento de contestação no rodapé do site, em PDF não-indexado, e a maioria não tem fluxo definido — o paciente envia email, o email vira ticket, o ticket é fechado pelo mesmo time que opera o modelo. Isso fere o direito de explicação previsto na LGPD, mas a fiscalização não pega caso individual — pega só em fiscalização coletiva da ANPD. A solução: ouvidoria independente, prazo de resposta cravado em contrato, e relatório público de taxa de reversão.

Cadeira 4, governança. Quem decide a política de uso de IA na plataforma? Que perfil tem essa pessoa? Em quase todos os casos brasileiros, é o sócio fundador, ou o CTO, com background em engenharia e ambição de Series A. Não tem psicólogo no conselho. Não tem advogado de direito digital com especialização em discriminação algorítmica. Não tem epidemiologista. Não tem paciente. Governança hoje significa: o cara que quer vender mais decide o limite de cautela do sistema que ele vende. É conflito de interesse estruturado por design. A solução: comitê externo com poder de veto, com representação de psicologia, direito, saúde pública e usuário.

Quatro cadeiras. Quatro perfis distintos. Quatro custos diferentes. Quem soma os quatro como "supervisão humana" no marketing de venda está enganando o cliente — e o cliente, neste caso, inclui o paciente que recebe a recomendação e o gestor público que compra a tecnologia para o SUS digital.

O que vou cobrar do ano: que cada plataforma de saúde mental que opera no Brasil publique, até dezembro de 2026, documento técnico nomeando explicitamente quem ocupa cada uma das quatro cadeiras, com que qualificação, em que regime contratual, e com que autoridade para interromper o modelo. Sem isso, qualquer alegação de supervisão humana é peça de marketing — e marketing em saúde mental, quando engana, mata. Os números do MS sobre suicídio em homens negros entre 25 e 39 anos publicados em 2024 não são abstratos. Cada caso novo que entra numa plataforma com triagem automatizada mal supervisionada é um caso onde a falha de design vira evento clínico.

A pergunta que abre o ano é antiga e nova: quem está olhando? O paciente negro que entra no fluxo digital de saúde mental em 2026 está sendo lido por um sistema treinado em dado de outra população, validado em conjunto-teste que não inclui ele, classificado por rotulador que não conhece o território dele, e supervisionado por quem ele nunca vai ver. Cada uma dessas falhas é remediável — basta o setor querer pagar o preço da supervisão real. O que vou defender em cada espaço onde tiver microfone neste ano é que o preço da supervisão real é menor que o preço do erro epidemiológico que estamos prestes a contabilizar. É só fazer a conta.