A Inteligência Artificial (IA) é a fronteira onde a inovação encontra a complexidade, desencadeando uma revolução em todos os cantos do nosso mundo digital. À medida que exploramos suas aplicações inovadoras e benéficas, também confrontamos os desafios éticos que surgem, desde vieses algorítmicos até questões prementes de privacidade.

Neste post, vamos mergulhar nas entranhas da IA desde seus fundamentos teóricos até suas aplicações práticas de vanguarda. Ao cruzarmos o limiar do conhecimento, entenderemos como a IA molda setores cruciais, como saúde, finanças e transporte, desafiando as fronteiras do que é possível.

O que é a Inteligência Artificial?

O que é a Inteligência Artificial
Inteligência Artificial é a criação de sistemas computacionais que executam tarefas que normalmente exigem inteligência humana, aprendendo e adaptando-se.

A inteligência artificial é um ramo da ciência da computação dedicado à pesquisa e ao desenvolvimento de máquinas e programas capazes de imitar o comportamento humano na tomada de decisões e na execução de tarefas, abrangendo desde as mais simples até as mais complexas. É comumente referida pelas siglas IA ou AI (do inglês, artificial intelligence).

Com um progresso significativo desde a década de 1950, a inteligência artificial tornou-se uma presença integrada no cotidiano das pessoas, manifestando-se em assistentes de voz, motores de busca, veículos autônomos e plataformas de redes sociais. Apesar dos inúmeros benefícios e avanços em diversas áreas, há debates em curso sobre os limites éticos da inteligência artificial e o papel que ela desempenha em nossa sociedade atual.

Como funciona a inteligência artificial na prática?

De maneira simplificada, o funcionamento da inteligência artificial envolve a coleta e combinação de um extenso volume de dados, seguido pela identificação de padrões nesse conjunto de informações. Esse processo, geralmente conduzido por meio de algoritmos pré-programados, permite que o software tome decisões e execute tarefas de maneira autônoma.

Existem diversos métodos pelos quais a inteligência artificial pode reproduzir o comportamento humano, sendo os dois principais:

Inteligências artificiais presentes em nosso dia-a-dia

O avanço tecnológico experimentado pela humanidade nas últimas décadas resultou na crescente integração da inteligência artificial no cotidiano. Apesar dos Large Language Models (LLM) como ChatGPT, Bard e outros terem ganhado muita notoriedade recentemente, a IA está presente em nossas vidas há muitos anos.

Abaixo, destacamos alguns dos principais exemplos de modelos de IA presentes em nosso dia-a-dia:

ChatBots

ChatBots

Chatbots são programas de computador projetados para interagir e realizar conversas com seres humanos, geralmente por meio de plataformas de mensagens instantâneas. Eles são uma aplicação prática da inteligência artificial, mais especificamente do processamento de linguagem natural. Os chatbots podem ser integrados em sites, aplicativos de mensagens, redes sociais e outras interfaces.

A função principal de um chatbot é automatizar o atendimento ao cliente, responder a perguntas comuns, realizar tarefas específicas e fornecer informações. Eles podem ser programados para seguir scripts predefinidos ou, atualmente, usar aprendizado de máquina para melhorar suas interações ao longo do tempo.

Assistentes de Voz

Assistentes de Voz

Assistentes de voz, encontrados em smartphones e dispositivos como caixas de som inteligentes (smart speakers), são modelos de IA que respondem e executam comandos vocais, realizando tarefas como fazer chamadas, agendar alarmes, fornecer informações, reproduzir música e conduzir pesquisas online.

Alguns dos exemplos mais conhecidos incluem o Google Assistente, Siri e Alexa.

Reconhecimento Facial

Reconhecimento Facial

O reconhecimento facial é utilizado para autenticar a identidade ao acessar dispositivos pessoais, como smartphones, e em aplicativos financeiros, como bancos online.

Atualmente, tem-se aprimorado para uma aplicação mais abrangente em sistemas de segurança pública.

Redes Sociais

Redes Sociais

Nas redes sociais como Instagram, Twitter e Facebook, os conteúdos não são uniformemente exibidos a todos os usuários.

Um algoritmo analisa, com ajuda da IA, os padrões de atividade e personaliza as postagens com base nos interesses individuais, adaptando a experiência de cada usuário.

Outras aplicações estão sendo encontradas para a inteligência artificial a cada dia que passa, especialmente com a popularização das LLMs. Desde pesquisas em mecanismos de busca que utilizam IA, até assistentes pessoas embutidos no sistema operacional (Windows Copilot, por exemplo).

Tipos de inteligência artificial

infográfico tipos de inteligência artificial FULL RES

Baixar o infográfico sobre os Tipos de Inteligência Artificial

Os tipos de inteligência artificial são geralmente categorizados em dois grupos principais: a inteligência artificial estreita (IA estreita ou IA fraca) e a inteligência artificial geral (IA geral ou IA forte).

A IA estreita refere-se a sistemas especializados em executar tarefas específicas, com foco limitado a um conjunto particular de atividades. Exemplos comuns incluem chatbots, reconhecimento de voz e carros autônomos em estágios iniciais.

Por outro lado, a IA geral representa uma forma mais avançada, capaz de entender, aprender e executar qualquer tarefa humana. Atualmente, a IA geral permanece mais teórica, enquanto a IA estreita desempenha um papel essencial em diversas aplicações, desde assistência virtual até automação industrial.

Técnicas específicas, como aprendizado de máquina, redes neurais artificiais e processamento de linguagem natural, contribuem para diferentes abordagens na implementação prática desses conceitos de inteligência artificial.

O advento da IA generativa

O advento da IA generativa
IA generativa revoluciona a criação de conteúdo, gerando imagens, texto e música original, inspirando inovações artísticas e criativas sem precedentes.

A Inteligência Artificial Generativa (IA Generativa) refere-se a um subsetor da inteligência artificial que se concentra na capacidade de criar ou gerar dados, conteúdo e respostas de forma autônoma. Ao contrário de sistemas convencionais de IA que respondem a comandos específicos ou realizam tarefas predefinidas, a IA Generativa possui a habilidade única de produzir saídas originais que não foram explicitamente programadas. Isso é alcançado por meio de modelos generativos, que são treinados em vastos conjuntos de dados para aprender padrões, contextos e relações.

Um exemplo de IA Generativa é a série de modelos GPT (Generative Pre-trained Transformer) desenvolvida pela OpenAI. Esses modelos são capazes de gerar texto coerente e contextualmente relevante com base em prompts ou estímulos fornecidos. Essa capacidade de gerar linguagem natural em diversos contextos tornou esses modelos valiosos em várias aplicações, desde assistentes virtuais e chatbots até criação de conteúdo automático.

Aplicações da inteligência artificial generativa

A IA Generativa não se limita apenas ao domínio textual. Ela abrange também a geração de imagens, áudio e até mesmo interações mais complexas, como diálogos. Essa capacidade de criar conteúdo de forma autônoma tem implicações significativas em campos como arte, design, automação de tarefas criativas e até mesmo na compreensão e resposta a estímulos humanos de maneira mais natural.

IA Textual

IA Textual

IA Generativa de textos cria conteúdo autônomo usando modelos treinados em grandes conjuntos de dados. Exemplos incluem GPT e Bard, capazes de gerar texto contextualmente relevante em diversas aplicações, como assistentes virtuais e criação automática de conteúdo.

IA Imagens

IA Imagens

IA Generativa de imagens, exemplificada por modelos como GANs, emprega redes neurais para criar visualizações inéditas. Exemplos incluem o DALL-E e Stable Diffusion, gerando representações realistas e diversificadas por meio de treinamento em conjuntos de dados extensos.

IA Áudio

IA Áudio

IA Generativa de áudio, também conhecida como WaveGAN, utiliza redes neurais para criar sons autênticos. Um exemplo é o Adobe Podcast, que transforma a produção sonora, gerando paisagens auditivas originais e realistas através do aprendizado em grandes conjuntos de dados.

As 14 inteligências artificiais mais importantes hoje

Os LLMs (Modelos Linguísticos de Linguagem) são sistemas de IA (muitas vezes proprietários) que empregam aprendizado profundo em conjuntos de dados vastos para compreender e gerar texto novo.

A evolução dos LLMs modernos teve início em 2014, com a introdução do mecanismo de atenção (técnica de aprendizado de máquina concebida para simular a atenção cognitiva humana) apresentada no artigo acadêmico Neural Machine Translation by Jointly Learning to Align and Translate.

Em 2017, esse mecanismo de atenção foi aprimorado com a introdução do modelo transformer, conforme detalhado em outro artigo intitulado Attention Is All You Need.

1. GPT

1. GPT
O GPT-3, de 2020, possui 175 bilhões de parâmetros. A Microsoft usa sua base. GPT-3.5 é uma versão melhorada, alimentando ChatGPT. GPT-4, de 2023, é maior, multimodal e impulsiona Bing e ChatGPT Plus. Imagem: Divulgação.

O GPT-3, lançado em 2020, é o grande modelo de linguagem da OpenAI, com mais de 175 bilhões de parâmetros. Utilizando uma arquitetura de transformer somente de decodificador, o GPT-3 é 10 vezes maior que seu antecessor. A Microsoft anunciou, em setembro de 2022, o uso exclusivo do modelo subjacente do GPT-3. Ele é o último na série de modelos GPT, que foi iniciada em 2018.

Já o GPT-3.5 é uma versão aprimorada do GPT-3, com menos parâmetros, ajustado por aprendizado por reforço a partir do feedback humano. Esta versão alimenta o ChatGPT, sendo o GPT-3.5 turbo o mais capaz. Os dados de treinamento se estendem até setembro de 2021, e foi integrado ao mecanismo de busca Bing, embora tenha sido substituído pelo GPT-4.

Lançado em 2023, o GPT-4 é o maior modelo da série GPT da OpenAI. Sua contagem exata de parâmetros não foi divulgada publicamente, mas há rumores de que ultrapassa 170 trilhões. O GPT-4 é multimodal, processando linguagem e imagens, e introduziu uma mensagem do sistema para especificar tom de voz e tarefa. Demonstra desempenho equivalente ao humano em exames acadêmicos e alimenta a pesquisa do Microsoft Bing e o ChatGPT Plus.

Vantagens e desvantagens do GPT

  • Versatilidade: GPT é capaz de realizar diversas tarefas, desde tradução até geração de texto criativo, devido ao seu treinamento prévio em grandes quantidades de dados;
  • Contexto longo: com uma arquitetura de transformer, o GPT pode lidar com contextos mais longos em comparação com modelos anteriores, o que é crucial para compreensão e geração de texto mais coesa;
  • Transferência de aprendizado: o GPT pode ser adaptado para tarefas específicas com relativamente pouco treinamento adicional, graças ao seu pré-treinamento em uma variedade de dados.
  • Propensão a erros: pode gerar respostas inexatas ou fora de contexto, especialmente se o prompt não for preciso. Isso se deve à natureza probabilística da geração de linguagem;
  • Falta de conhecimento atualizado: o GPT não é capaz de acessar informações em tempo real e seu conhecimento é limitado ao que foi treinado, o que pode resultar em respostas desatualizadas;
  • Viés e sensibilidade a inputs tendenciosos: se treinado em dados enviesados, o GPT pode reproduzir preconceitos e estereótipos presentes nos dados de treinamento, levando a respostas tendenciosas.

2. Google BERT

2. Google BERT
BERT, do Google, lançado em 2018, é um LLM com 342 milhões de parâmetros, usando transformer para melhorar a compreensão de consultas. Imagem: Divulgação.

BERT é uma série de LLMs desenvolvida pelo Google e introduzida em 2018. Baseado na arquitetura transformer, o BERT tem a capacidade de transformar sequências de dados em outras sequências. Sua estrutura consiste em uma pilha de codificadores de transformer, totalizando 342 milhões de parâmetros.

Após ser pré-treinado em um extenso corpus de dados, o BERT é ajustado para executar tarefas específicas, como inferência de linguagem natural e avaliação de similaridade de texto em sentenças. Em 2019, o Google utilizou o BERT para aprimorar a compreensão de consultas em sua pesquisa.

Vantagens e desvantagens do BERT

  • Compreensão contextual: BERT captura o contexto bidirecional de palavras em uma sentença, o que melhora a compreensão contextual e a relação entre palavras em uma frase;
  • Transferência de conhecimento: após o pré-treinamento em grandes corpora de texto, o BERT pode ser adaptado para tarefas específicas com quantidades relativamente pequenas de dados de treinamento adicional, permitindo uma transferência eficiente de conhecimento;
  • Desempenho em tarefas Variadas: BERT demonstra bom desempenho em uma variedade de tarefas de processamento de linguagem natural, incluindo questionamento e resposta, classificação de sentimentos e reconhecimento de entidades nomeadas.
  • Computacionalmente intensivo: o treinamento e a inferência com modelos BERT são computacionalmente intensivos, exigindo hardware poderoso, o que pode limitar sua acessibilidade em ambientes com recursos limitados;
  • Dependência de anotação de dados: embora o BERT tenha a capacidade de aprender contextos complexos, ainda depende de grandes conjuntos de dados anotados para o treinamento eficaz em tarefas específicas;
  • Inabilidade com sequências longas: devido à sua arquitetura de atenção, o BERT pode ter dificuldade em lidar eficientemente com sequências muito longas, o que pode ser uma limitação em certos contextos, como documentos extensos.

3. Claude

3. Claude
O LLM Claude, da Anthropic, visa utilidade, inofensividade e precisão em assistência de IA, impulsionando produtos incríveis como Claude Instant e Claude 2. Imagem: Divulgação.

O LLM do Claude concentra-se em princípios que orientam a saída de IA para tornar o assistente de IA útil, inofensivo e preciso. Desenvolvido pela Anthropic, Claude impulsiona dois principais produtos: Claude Instant e Claude 2. Este último destaca-se em raciocínio complexo, conforme destacado pela Anthropic.

Vantagens e desvantagens do Claude

  • Alinhamento com valores humanos: claude é projetado para ser útil, inofensivo e honesto, alegando estar alinhado com os valores humanos e evitar comportamentos prejudiciais ou enganosos, o que pode aumentar a confiança em comparação com outros sistemas de IA;
  • Capacidades avançadas de linguagem natural: Claude demonstra habilidades avançadas de linguagem natural, sendo capaz de compreender solicitações complexas e manter conversas naturais, tornando-o mais útil para uma variedade de aplicações em comparação com sistemas de IA mais restritos;
  • Customização e código aberto: a customização permite que desenvolvedores treinem Claude em conjuntos de dados específicos para diferentes usos. A decisão de tornar o código do Claude de código aberto promove transparência, confiança e permite que outros construam sobre suas capacidades.
  • Riscos potenciais de IA avançada: o avanço contínuo das capacidades do Claude pode resultar em impactos imprevisíveis no futuro, exigindo cuidadosos testes para mitigar riscos desconhecidos;
  • Vieses nos dados de treinamento: assim como outros sistemas de IA, Claude reflete preferências presentes nos dados de treinamento, necessitando de dados mais diversos para minimizar possíveis vieses problemáticos
  • Preocupações com privacidade: sistemas conversacionais, como Claude, que coletam grandes quantidades de dados do usuário, levantam preocupações com a privacidade, exigindo medidas de segurança para evitar uso indevido.

4. Cohere

4. Cohere
Cohere, LLM personalizável, atende casos de uso empresariais específicos. Diferentemente da OpenAI, não está restrito a uma única nuvem, proporcionando flexibilidade. Imagem: Divulgação.

Cohere é um LLM que pode ser personalizado para atender a casos de uso específicos de uma empresa. Criado por um dos autores de Attention Is All You Need (ver parágrafos anteriores), o Cohere se destaca por não estar vinculado a uma única nuvem, ao contrário da OpenAI, que está associada à Microsoft Azure.

Vantagens e desvantagens do Cohere

  • Crescimento exponencial: Cohere experimentou um crescimento significativo, com um aumento mensal de 65% nas chamadas da API e no número de desenvolvedores, indicando uma crescente popularidade e aceitação no mercado;
  • Modelos com desempenho superior: de acordo com medições de precisão da Universidade de Stanford, os modelos do Cohere superam o GPT-3 em termos de precisão, mesmo em comparação com modelos GPT-3 mais recentes, sugerindo um desempenho incrível;
  • Parceria estratégica com Google: a parceria com o Google, incluindo o acesso a unidades de processamento tensorial (TPUs), oferece ao Cohere uma vantagem significativa em termos de poder computacional, contribuindo para treinamentos eficientes e rápidos dos modelos.
  • Menor precisão: apesar de superar o GPT-3 em precisão, os modelos Cohere são classificados abaixo dos modelos GPT-3.5 em termos de precisão, indicando que ainda há concorrência e espaço para melhorias;
  • Dependência de parceria com o Google: a dependência de hardware do Google, como TPUs, pode ser vista como uma limitação, uma vez que os usuários que preferem outras plataformas de nuvem podem encontrar barreiras de integração;
  • Dificuldades de personalização: modificar as capacidades fundamentais e atributos do Cohere pode ser desafiador em comparação com a construção de uma IA personalizada a partir do zero, sugerindo limitações na customização extrema.

5. Ernie

5. Ernie
Ernie, da Baidu, é um poderoso modelo de linguagem, impulsionando o chatbot Ernie 4.0, atraindo 45 milhões de usuários com 10 trilhões de parâmetros, destacando-se em mandarim. Imagem: Divulgação.

Ernie é o robusto modelo de linguagem da Baidu, alimentando o chatbot Ernie 4.0. Lançado em agosto de 2023, o Ernie atraiu mais de 45 milhões de usuários, especula-se que possua 10 trilhões de parâmetros e destaca-se especialmente no mandarim, embora também seja competente em outros idiomas.

Vantagens e desvantagens do Ernie

  • Paridade com outros modelos: segundo o fundador da Baidu, Robin Li, o Ernie 4.0 é afirmado como igual ou superior ao ChatGPT em termos de capacidade global. Isso sugere que o Ernie pode oferecer desempenho competitivo ou superior em comparação com outros modelos avançados de linguagem natural;
  • Desempenho destacado: a versão anterior do chatbot, Ernie 3.5, foi relatada como superando o GPT-4 em vários aspectos, especialmente no idioma chinês. Testes, como os realizados com os benchmarks AGIEval e C-Eval, indicaram um desempenho superior, incluindo pontuações superiores em testes de admissão padrão;
  • Aplicações amplas na China: dada a rápida inserção da IA na vida cotidiana na China, especialmente em produtos como pesquisa online, compartilhamento de arquivos, colaboração no trabalho e mapas, o Ernie tem o potencial de desempenhar um papel significativo em diversas aplicações, contribuindo para a liderança tecnológica na China.
  • Dificuldade de verificar: a afirmação da superioridade do Ernie é baseada nas declarações do fundador da Baidu, e pode ser vista com ceticismo até que evidências mais objetivas e independentes sejam fornecidas para apoiar essas alegações;
  • Foco em testes específicos: o destaque em testes específicos, como os realizados em chinês, pode sugerir que o desempenho do Ernie pode variar dependendo do idioma e do contexto, limitando sua aplicabilidade em ambientes multilíngues;
  • Evolução constante da IA: a rápida evolução na pesquisa em IA pode resultar em modelos ainda mais avançados sendo introduzidos, tornando necessário para o Ernie manter sua competitividade ao longo do tempo para sustentar sua posição no cenário de IA em constante mudança.

6. Falcon 40B

6. Falcon 40B
Falcon 40B, modelo transformer, decodificador causal, de código aberto, do Technology Innovation Institute, treinado em inglês. Variantes menores: Falcon 1B e Falcon 7B. Imagem: Divulgação.

Falcon 40B é um modelo baseado em transformer, decodificador causal, desenvolvido pelo Technology Innovation Institute. Sendo de código aberto, foi treinado em dados em inglês e está disponível em variantes menores, Falcon 1B e Falcon 7B (com 1 bilhão e 7 bilhões de parâmetros, respectivamente).

A Amazon disponibilizou o Falcon 40B no Amazon SageMaker e também o oferece gratuitamente no GitHub.

Vantagens e desvantagens do Falcon 40B

  • Desempenho alto: o Falcon 40B demonstra desempenho excepcional como um modelo generativo de linguagem de código aberto, posicionando-se como líder no OpenLLM Leaderboard. Com 40 bilhões de parâmetros e treinado em dados da web de alta qualidade, alcança resultados de ponta;
  • Capacidades multilíngues: as capacidades multilíngues do Falcon 40B abrangem várias línguas, incluindo inglês, alemão, espanhol e francês. Sua arquitetura, adaptada do GPT-3 com modificações-chave, utiliza posições rotativas de incorporação para melhor compreensão de sequências e mecanismos de atenção aprimorados, como Multi-Query Attention e FlashAttention;
  • Treinamento eficiente/Dados aprimorado: o treinamento do Falcon 40B foi realizado de maneira eficiente, utilizando a AWS SageMaker e GPUs A100 40GB. O conjunto de dados foi aprimorado pela Technology Innovation Institute (TII), envolvendo 1 trilhão de tokens da RefinedWeb, um corpus da web filtrado para qualidade, e conjuntos de dados adicionais, resultando em um modelo de alta qualidade.
  • Requisitos computacionais: o Falcon 40B exige recursos computacionais significativos, sendo desafiador de executar em GPUs de consumo devido às suas demandas de memória. Mesmo com técnicas como quantização de 4 bits, sua execução pode ser limitada em GPUs convencionais;
  • Limitações no processo de inferência: o modelo apresenta desafios em relação ao processo de inferência devido ao seu tamanho, ultrapassando a capacidade de memória de uma única GPU NVIDIA A100 com 80 GB de RAM, mesmo ao usar modos de precisão reduzida de 8 bits;
  • Necessidade de ajustes finos: embora seja um modelo de linguagem pré-treinado robusto, o Falcon 40B pode exigir ajustes adicionais (fine-tuning) para casos de uso específicos, aumentando a complexidade de implementação em determinados contextos.

7. Galactica

7. Galactica
Galactica, LLM da Meta para cientistas, lançado em 2022, treinado em vasta coleção acadêmica, gerando ‘alucinações’ de IA criticadas por sua aparência autoritária. Imagem: Divulgação.

Lançado em novembro de 2022, Galactica é o LLM da Meta projetado para cientistas. Treinado em uma ampla coleção de materiais acadêmicos, incluindo 48 milhões de artigos, notas de aula, livros didáticos e sites, o Galactica gerou “alucinações” de IA consideradas preocupantes pela comunidade científica devido à sua aparência autoritária.

Vantagens e desvantagens do Galactica

  • Automatiza tarefas: a Galactica automatiza tarefas monótonas, como entrada de dados e funções de atendimento ao cliente;
  • Aumenta eficiência: reduz o tempo gasto em tarefas manuais, aumentando a eficiência operacional;
  • Maior precisão de dados: elimina erros humanos, melhorando a precisão dos dados.
  • Investimento inicial significativo: requer um investimento substancial em software e hardware no início;
  • Algoritmos complexos e resultados imprevisíveis: algoritmos complexos podem levar a resultados imprevisíveis;
  • Falta de supervisão humana: pode levar a uma falta de responsabilidade devido à ausência de supervisão humana.

8. LaMDA

8. LaMDA
LaMDA, da Google Brain, família de LLMs, Seq2Seq, anunciada em 2021. Pré-treinado em texto, ganhou atenção em 2022 por ser consciente. Imagem: Divulgação.

LaMDA (Modelo de Linguagem para Aplicações de Diálogo) é uma família de LLMs desenvolvida pelo Google Brain, anunciada em 2021. Baseado na arquitetura Seq2Seq, o Lamda foi pré-treinado em um grande corpus de texto, ganhando atenção em 2022 quando foi revelado que era consciente.

Vantagens e desvantagens do LaMDA

  • Capacidade de automatização: modelos como LaMDA podem automatizar tarefas relacionadas ao processamento de linguagem natural, como geração de texto, respostas a perguntas e interação em linguagem natural;
  • Progresso em IA geral: a evolução de modelos de linguagem contribui para avanços na inteligência artificial geral, levando a sistemas mais sofisticados e capazes de realizar diversas tarefas;
  • Potencial para empatia: algumas implementações buscam adicionar elementos de empatia aos modelos, proporcionando interações mais humanizadas e personalizadas.
  • Riscos de viés e toxicidade: modelos de linguagem podem reproduzir preconceitos existentes nos dados de treinamento, resultando em respostas ou geração de texto com viés ou conteúdo tóxico;
  • Limitações na compreensão contextual: algoritmos de linguagem podem enfrentar dificuldades na compreensão contextual e fornecer respostas inadequadas ou fora de contexto;
  • Ameaças à privacidade: sistemas de IA que processam grandes quantidades de dados podem levantar preocupações com privacidade, especialmente se não houver um cuidadoso tratamento dos dados do usuário.

9. LLaMA

9. LLaMA
LLaMA, da META, tem versão de 65 bilhões de parâmetros. Inicialmente restrito, agora é de código aberto, originando Vicuna e Orca. Imagem: Divulgação.

O LLM da Meta, LLaMA, lançado em 2023, possui uma versão maior com 65 bilhões de parâmetros. Inicialmente disponível para pesquisadores e desenvolvedores aprovados, agora é de código aberto. Treinado em diversas fontes de dados públicas, o Llama gerou descendentes, incluindo Vicuna e Orca.

Vantagens e desvantagens do LLaMA

  • Eficiência: LLaMA foi projetado para ser mais eficiente e exigir menos recursos do que outros modelos. Seu tamanho menor permite que ele funcione com menos potência computacional, tornando-o mais acessível para uma variedade maior de usuários;
  • Acessibilidade para pesquisadores: LLaMA está disponível sob uma licença não comercial para pesquisadores e organizações. Essa acessibilidade pode incentivar um uso mais amplo e colaboração em pesquisa e desenvolvimento;
  • Treinamento e testes rápidos: devido à sua eficiência, LLaMA pode ser vantajoso para aplicações em que treinamento e testes rápidos de modelos de linguagem são essenciais, como no desenvolvimento de chatbots ou ferramentas de tradução de idiomas.
  • Poder limitado: o tamanho menor do LLaMA, com menos parâmetros em comparação com modelos maiores, pode limitar sua capacidade de gerar texto tão complexo ou sofisticado quanto alguns outros modelos de linguagem grandes;
  • Pode não ser ideal para tarefas complexas: LLaMA pode não ser tão adequado para tarefas que exigem geração de linguagem extremamente sofisticada, como gerar texto altamente matizado e contextualmente rico;
  • Escopo de aplicações: embora eficiente, o escopo de LLaMA pode ser limitado em comparação com modelos maiores, como o ChatGPT, especialmente para aplicações que demandam uma complexidade linguística extensiva.

10. Orca

10. Orca
Orca, da Microsoft, tem 13 bilhões de parâmetros, visando desempenho comparável ao GPT-4 com menos parâmetros, baseado na versão LLaMA. Imagem: Divulgação.

Desenvolvido pela Microsoft, o Orca possui 13 bilhões de parâmetros, sendo pequeno o suficiente para ser executado em um laptop. Busca melhorar avanços de modelos de código aberto, alcançando desempenho comparável ao GPT-4 com significativamente menos parâmetros. Construído sobre a versão de 13 bilhões de parâmetros do Llama.

Vantagens e desvantagens do Orca

  • Imitação de processos de raciocínio (LFMs): Orca é capaz de aprender traces de explicações complexas e processos de pensamento passo a passo do GPT-4, um Large Foundation Model (LFM). Isso permite que a Orca compreenda e reproduza os processos de raciocínio usados por esses modelos mais complexos;
  • Aprendizado aprimorado por explicações: a incorporação de respostas detalhadas, ou traces de explicações, fornece orientação valiosa para o modelo, aprimorando suas habilidades de raciocínio e compreensão;
  • Uso de diversas amostras de tarefas: os pesquisadores utilizaram tarefas da Coleção Flan 2022 para garantir uma mistura variada de desafios. Esse conjunto de treinamento diversificado permitiu que a Orca aprendesse a lidar efetivamente com uma ampla gama de tarefas.
  • Ausência de Informações e acesso: não há informações explícitas sobre o preço ou disponibilidade pública da Orca, o que pode limitar seu acesso e uso por usuários fora de contextos específicos de pesquisa;
  • Complexidade de treinamento e ajuste fino: modelos grandes como a Orca podem exigir recursos computacionais significativos para treinamento e ajuste fino, tornando o processo potencialmente desafiador para pesquisadores e desenvolvedores;
  • Interpretação e controle difíceis: devido à sua complexidade, modelos grandes como a Orca podem ser mais difíceis de interpretar e controlar, o que pode requerer técnicas especializadas para ajuste fino ou adaptação a tarefas específicas.

11. PaLM

11. PaLM
PaLM, da Google, transformer de 540 bilhões de parâmetros, impulsiona o chatbot Bard, especializado em raciocínio. Versões incluem Med-PaLM 2 e Sec-PaLM. Imagem: Divulgação.

O Pathways Language Model (PaLM) é um modelo transformer baseado em 540 bilhões de parâmetros da Google, alimentando o chatbot de IA Bard. Especializa-se em tarefas de raciocínio, como codificação, matemática, classificação e resposta a perguntas. Possui várias versões ajustadas para casos específicos, como o Med-Palm 2 para ciências da vida e o Sec-Palm para segurança cibernética.

Vantagens e desvantagens do Palm

  • Disponibilidade em tamanhos menores: PaLM 2, com modelos como Gecko, Otter, Bison e Unicorn, oferece a vantagem de estar disponível em tamanhos menores. Esses modelos são otimizados para aplicações com limitações de processamento, proporcionando flexibilidade em termos de acessibilidade e implantação, especialmente em dispositivos com recursos limitados;
  • Capacidades aprimoradas de raciocínio: o modelo demonstra capacidades aprimoradas de raciocínio em tarefas como WinoGrande e DROP, com uma ligeira vantagem em ARC-C. Essa melhoria o torna uma escolha eficaz para aplicações que demandam análise lógica e raciocínio mais sofisticado, destacando-se em cenários onde a compreensão aprofundada é crucial;
  • Modelo leve para aplicações móveis: a opção Gecko, um dos modelos menores do PaLM 2, confere uma vantagem significativa em termos de eficiência para dispositivos móveis. Sua leveza torna-o uma escolha atraente para aplicações em que o processamento limitado é uma consideração importante, proporcionando uma experiência mais eficiente em dispositivos móveis.
  • Opacidade sobre o dados de treinamento: o Google não divulga o tamanho exato do conjunto de dados de treinamento do PaLM 2. Essa falta de transparência pode ser uma desvantagem para usuários que desejam entender a origem e a diversidade dos dados usados no treinamento do modelo;
  • Modelo ainda em avaliação: como um modelo relativamente novo, o PaLM 2 está ainda sendo avaliado em relação ao seu desempenho e capacidade de competir com modelos estabelecidos, como o GPT-4. Pode haver incertezas sobre sua eficácia em comparação com modelos mais consolidados;
  • Pode ser superado atualmente: embora o PaLM 2 apresente suas vantagens, como modelos leves para dispositivos móveis, em algumas comparações, GPT-4 ainda pode superá-lo em termos de poder e desempenho, dependendo da aplicação específica.

12. Phi-1

12. Phi-1
Phi-1, modelo transformer da Microsoft com 1,3 bilhão de parâmetros, treinado por quatro dias em dados de livro didático, exemplificando eficiência com qualidade de dados. Imagem: Divulgação.

Phi-1 é um modelo de linguagem baseado em transformer da Microsoft, com 1,3 bilhão de parâmetros. Treinado por quatro dias em uma coleção de dados de qualidade de livro didático, o Phi-1 exemplifica a tendência de modelos menores com dados de melhor qualidade e sintéticos.

Vantagens e desvantagens do Phi-1

  • Bom desempenho em benchmarks: o modelo Phi-1, especialmente na variante Phi-1 1.3B, supera significativamente modelos consideravelmente maiores, que utilizam 100 vezes mais dados, em benchmarks como HumanEval e MBPP. Essa capacidade de superar modelos maiores destaca a eficiência e a habilidade do Phi-1 em contextos de teste específicos;
  • Treinamento rápido: o treinamento do Phi-1 levou apenas cerca de quatro dias, utilizando oito placas gráficas Nvidia A100. Esse é um período relativamente curto, considerando o desempenho impressionante que o modelo alcançou. A eficiência no treinamento é atribuída à qualidade dos dados, que foram cuidadosamente filtrados a partir de fontes confiáveis e especializadas;
  • Foco em tarefas específicas: a especialização do Phi-1 em programação Python é uma vantagem em contextos específicos, como tarefas de codificação. Essa especialização pode resultar em um desempenho superior em comparação com modelos mais generalizados em determinados cenários, como evidenciado pelos bons resultados nos benchmarks.
  • Limitação de versatilidade: a especialização do Phi-1 em programação Python pode limitar sua versatilidade em comparação com modelos maiores que possuem conhecimento mais amplo e abrangente em diversas áreas. Em contextos fora da programação Python, o Phi-1 pode não apresentar o mesmo nível de desempenho;
  • Falta de conhecimento específico: em comparação com modelos de linguagem maiores (LLMs) que possuem conhecimento específico de domínio, como programação com APIs específicas, o Phi-1 pode carecer desse conhecimento detalhado. Isso pode limitar sua capacidade de lidar com tarefas que exigem um entendimento mais profundo de domínios específicos;
  • Menor robustez a erros de entrada: a natureza estruturada do Phi-1 pode torná-lo menos robusto a variações de estilo ou erros de entrada em comparação com modelos mais flexíveis. Essa limitação pode impactar sua capacidade de lidar com entradas menos padronizadas ou com estilos diversos.

13. StableLM

StableLM
StableLM, série de LLMs de código aberto pela Stability AI, associada ao Stable Diffusion, visa transparência, acessibilidade e suporte variável. Imagem: Divulgação.

StableLM é uma série de modelos de linguagem de código aberto desenvolvidos pela Stability AI, a empresa por trás do gerador de imagens Stable Diffusion. Disponíveis em diversas configurações de parâmetros, o StableLM visa ser transparente, acessível e de suporte.

Vantagens e desvantagens do StableLM

  • Open Source: o StableLM é uma contribuição significativa para a comunidade de IA, sendo um modelo de linguagem de código aberto desenvolvido pela Stability AI. Sua natureza de código aberto promove a acessibilidade e permite que desenvolvedores, pesquisadores e empresas o utilizem livremente para fins comerciais ou de pesquisa;
  • Versatilidade em tarefas de texto e código: o StableLM demonstra versatilidade ao ser capaz de gerar tanto texto quanto código. Essa capacidade o torna uma ferramenta poderosa para uma variedade de aplicações, desde geração de conteúdo até assistência em tarefas de programação;
  • Desempenho eficiente com dataset menor: apesar de ter um conjunto de dados de treinamento menor em comparação com modelos como o GPT-3, o StableLM entrega um desempenho incrível em tarefas conversacionais e de codificação. Isso destaca a eficiência do modelo, que se beneficia da riqueza do conjunto de dados de treinamento.
  • Respostas mais genéricas e demoradas: em comparação com ChatGPT em testes específicos, o StableLM demonstrou gerar respostas mais genéricas e levou mais tempo para produzir uma resposta. Essa característica pode ser uma desvantagem em cenários onde respostas específicas e rápidas são essenciais;
  • Menor especificidade em respostas: o modelo tende a fornecer respostas mais genéricas e menos específicas em comparação com outros modelos, como observado nos testes com o prompt baseado no personagem Michael Scott. Essa menor especificidade pode limitar sua aplicabilidade em certos contextos;
  • Disponibilidade limitada de datasets: Embora o StableLM esteja disponível em tamanhos de modelo de 3 bilhões e 7 bilhões de parâmetros, a disponibilidade limitada de tamanhos pode restringir suas aplicações em comparação com modelos que oferecem uma gama mais ampla de opções de escala.

14. Vicuna 33B

14. Vicuna 33B
Vicuna, LLM derivado do Llama pela LMSYS, código aberto, com 33 bilhões de parâmetros, destaca-se em seu tamanho. Imagem: Divulgação.

Vicuna é um LLM de código aberto derivado do Llama, desenvolvido pela LMSYS. Ajustado usando dados de sharegpt.com, possui 33 bilhões de parâmetros e é menos capaz que o GPT-4, mas se destaca para um modelo de seu tamanho.

Vantagens e desvantagens do Vicuna 33B

  • Desempenho aprimorado em respostas: os modelos Vicuna-33B apresentam desempenho aprimorado, sendo treinados em um conjunto de dados estendido de conversas compartilhadas por usuários. Essa abordagem resulta em respostas mais precisas e melhor desempenho em comparação com modelos anteriores, destacando a capacidade de proporcionar interações mais eficazes;
  • Variedade de tamanhos de parâmetros: a série de modelos Vicuna-33B oferece uma gama de tamanhos de parâmetros, variando de 7 bilhões a 33 bilhões. Essa variedade permite que os usuários escolham modelos com base em suas necessidades específicas, proporcionando flexibilidade e eficácia em diferentes contextos de uso;
  • Capacidade de avaliação: a introdução dos modelos Vicuna-33B coincide com a implementação do MT-Bench, um benchmark cuidadosamente elaborado para avaliar a capacidade conversacional dos chatbots. Ao utilizar MT-Bench, os modelos Vicuna-33B podem ser avaliados em diversas métricas, proporcionando insights abrangentes sobre suas habilidades em diálogos de várias etapas.
  • Desempenho decrescente em diálogos multi-turnos: a análise do desempenho dos modelos selecionados em diálogos multi-turnos revela uma queda significativa no desempenho dos modelos de código aberto na transição do primeiro para o segundo turno. Isso sugere que, em cenários de diálogos estendidos, modelos proprietários tendem a manter uma consistência superior em suas respostas;
  • Desafios em cenários de licenças permissivas: observa-se um gap de desempenho entre modelos baseados na estrutura LLaMA (Licença de Múltiplos Autores para Avaliação) e aqueles com licenças mais permissivas. Isso destaca desafios potenciais em termos de desempenho em situações específicas de licenciamento, indicando a importância de considerar as implicações legais ao escolher um modelo para determinadas aplicações;
  • Complexidade em diálogos de segundo turno: modelos de código aberto experimentam uma queda significativa de desempenho do primeiro para o segundo turno em diálogos multi-turnos. Essa complexidade pode limitar a eficácia desses modelos em situações que exigem a manutenção consistente de contexto e engajamento em conversas prolongadas.

Por que a inteligência artificial é importante?

Por que a inteligência artificial é importante
A Inteligência Artificial potencializa inovações, automatiza tarefas complexas, impulsiona a eficiência e transforma setores, moldando o futuro tecnológico.

A inteligência artificial (IA) é de suma importância na atual era digital, desempenhando um papel transformador em diversas áreas e impulsionando avanços significativos em tecnologia. Uma das principais razões para a importância da IA reside na sua capacidade de processar e analisar vastas quantidades de dados de maneira rápida e eficiente. Isso permite que sistemas baseados em IA identifiquem padrões complexos e extraiam insights valiosos, o que seria humanamente impossível de ser alcançado em um tempo hábil.

Os diferentes modelos de IA desempenham um papel crucial na automação de tarefas rotineiras e repetitivas, liberando recursos humanos para se concentrarem em atividades mais estratégicas e criativas. A aplicação da IA em setores como manufatura, logística e atendimento ao cliente resulta em aumento de eficiência e redução de custos operacionais, promovendo um ambiente empresarial mais competitivo e ágil.

Outro aspecto importante é a capacidade da IA de personalizar experiências. Sistemas de recomendação alimentados por IA, como os encontrados em plataformas de streaming e comércio eletrônico, analisam o comportamento do usuário para fornecer sugestões e conteúdo personalizado, melhorando a satisfação do cliente e aumentando a relevância das interações.

A IA também desempenha um papel vital em avanços em setores críticos, como saúde e pesquisa científica. Em medicina, algoritmos de aprendizado de máquina podem analisar imagens médicas para detecção precoce de doenças, enquanto em pesquisa científica, a IA contribui para a análise de dados complexos, acelerando a descoberta de novos medicamentos e avanços científicos.

A inteligência artificial também tem sido uma peça-chave no desenvolvimento de tecnologias emergentes, como veículos autônomos, robótica avançada e assistentes virtuais. Essas inovações não apenas simplificam a vida cotidiana, mas também moldam o futuro da interação humana com a tecnologia.

Os desafios éticos que a IA causa e precisa enfrentar

Apesar dos benefícios substanciais que a inteligência artificial (IA) traz consigo, a sua implementação massiva também suscita desafios éticos significativos. Um dos principais dilemas reside na tomada de decisões algorítmicas, especialmente em contextos críticos como saúde, justiça e finanças.

Algoritmos de IA podem herdar e perpetuar vieses existentes nos dados com os quais são treinados, resultando em discriminação injusta e impactando desproporcionalmente certos grupos sociais. A transparência e a equidade na criação e implementação de algoritmos tornam-se, assim, imperativas para mitigar esses riscos éticos.

Outro desafio ético é a questão da privacidade. A coleta massiva de dados necessária para treinar modelos de IA levanta preocupações sobre a proteção da informação pessoal. É essencial encontrar um equilíbrio entre a inovação impulsionada por dados e a salvaguarda da privacidade individual. Estruturas regulatórias e práticas de segurança robustas são cruciais para garantir que a IA seja desenvolvida e utilizada de maneira ética, protegendo a privacidade dos usuários.

Os desafios éticos que a IA causa e precisa enfrentar
Funções repetitivas, atendimento ao cliente, análise de dados, manufatura e tarefas operacionais podem ser automatizados pela Inteligência Artificial.

A falta de responsabilidade clara e de prestação de contas também é um desafio ético significativo na adoção da IA. Quando sistemas autônomos cometem erros, pode ser difícil atribuir responsabilidade, o que levanta questões sobre quem é responsável por eventuais danos causados. Estabelecer normas éticas e regulamentações sólidas para governar o desenvolvimento e o uso da IA é vital para garantir que as organizações e os desenvolvedores sejam responsáveis por suas criações.

A automação impulsionada pela IA também suscita preocupações éticas relacionadas ao emprego. A substituição de tarefas humanas por sistemas autônomos pode resultar em desemprego e mudanças substanciais no mercado de trabalho. É crucial explorar estratégias para requalificação e transição de força de trabalho, garantindo que os benefícios da IA sejam distribuídos de maneira justa.

Com a crescente sofisticação da IA e a possibilidade de criação de deepfakes levantam questões éticas relacionadas à manipulação de informações e à autenticidade de mídias. É necessário um exame crítico das implicações éticas em torno do uso da IA para criar conteúdo digital, com foco na preservação da integridade e confiabilidade das informações.

A história da inteligência artificial

A história da Inteligência Artificial (IA) remonta ao início do século XX, mas suas raízes formais podem ser traçadas até a década de 1950. O termo “inteligência artificial” foi cunhado em 1956 durante a Conferência de Dartmouth, onde pioneiros como John McCarthy, Marvin Minsky, Allen Newell e Herbert A. Simon se reuniram para explorar a criação de máquinas que pudessem imitar funções humanas inteligentes.

Linha do tempo da inteligência artificial

Década de 1950
Inteligência Artificial na Década de 1950
Alan Turing criou o “Teste de Turing” para avaliar inteligência artificial. Imagem: Wikimedia Commons.
  • 1950: Alan Turing propõe o “Teste de Turing” como um método para determinar a inteligência de uma máquina.
  • 1956: Realização da Conferência de Dartmouth, marcando o nascimento oficial da IA como um campo de estudo.
Década de 1960
Inteligência Artificial na Década de 1960
Eliza, criado por Weizenbaum em 1966, foi um pioneiro em interação humano-computador, simulando conversas terapêuticas simples. Imagem: Divulgação.
  • 1965: Joseph Weizenbaum desenvolve o programa ELIZA, um dos primeiros sistemas de processamento de linguagem natural.
  • 1969: A pesquisa em IA sofre uma desaceleração devido à falta de avanços tangíveis.
Década de 1970
Inteligência Artificial na Década de 1970
Shakey, do Stanford Research Institute, foi o primeiro robô móvel autônomo, projetado para navegar e realizar tarefas. Imagem: Stanford.
  • 1973: Surgimento do programa MYCIN, utilizado para diagnóstico médico, destaca avanços em sistemas especialistas.
  • 1974: Desenvolvimento do primeiro robô móvel, o “Shakey”, no Laboratório de Pesquisa de Stanford.
Década de 1980
Inteligência Artificial na Década de 1980
Críticas e expectativas não atendidas causam o declínio da IA, resultando no período chamado “Inverno da IA”. Imagem: Actuaries Digital.
  • 1980: A IA enfrenta críticas e perda de financiamento devido a expectativas não atendidas. Período conhecido como AI Winter (“Inverno da IA”).
  • 1985: Redescoberta da IA com o sucesso de sistemas especialistas e a aplicação de redes neurais.
Década de 1990
Inteligência Artificial na Década de 1990
Registro da partida onde Deep Blue venceu Garry Kasparov, campeão mundial de xadrez. Imagem: Adam Nadel/AP Images.
  • 1997: Deep Blue, da IBM, derrota o campeão mundial de xadrez Garry Kasparov, marcando um marco significativo em IA.
  • 1999: Desenvolvimento do algoritmo PageRank do Google, uma aplicação prática de IA em motores de busca.
Década de 2000
Inteligência Artificial na Década de 2000
Siri, assistente de voz para iPhone, revoluciona interação usuário-dispositivo, definindo padrões para assistentes virtuais e IA móvel. Imagem: Divulgação.
  • 2009: Surgimento do reconhecimento de voz e assistentes virtuais, como o Siri da Apple.
  • 2011: Watson, da IBM, vence os campeões humanos no programa de perguntas e respostas Jeopardy!.
Década de 2010
Inteligência Artificial na Década de 2010
AlphaGo, IA da DeepMind, vence Lee Sedol, campeão mundial de Go, demonstrando excelência em estratégia. Imagem: Google DeepMi.
  • 2014: Avanços significativos em redes neurais profundas, contribuindo para o renascimento do interesse em aprendizado profundo.
  • 2016: AlphaGo, da DeepMind, derrota o campeão mundial de Go, Lee Sedol, demonstrando a capacidade da IA em dominar jogos complexos.
  • 2019: OpenAI lança o GPT-2, um modelo de linguagem com 1,5 bilhão de parâmetros.
Década de 2020
  • 2020: Desenvolvimento contínuo de modelos de linguagem gigantes, como GPT-3 e outros com dezenas de bilhões de parâmetros.
  • 2021: Avanços em IA ética e preocupações crescentes sobre o impacto social da tecnologia.

A linha do tempo da IA destaca não apenas avanços impressionantes, mas também desafios éticos e debates sobre seu papel na sociedade, impulsionando o campo em direção a uma abordagem mais consciente e responsável.

A inteligência artificial no Brasil

Compreender a Inteligência Artificial (I.A.) no contexto atual do Brasil implica refletir sobre a realidade dos cidadãos brasileiros e as expectativas para o futuro do país. Em 2020, aproximadamente 2,4 bilhões de dólares foram investidos em tecnologia na América Latina, sendo o Brasil o principal destinatário desse montante.

Startups de tecnologia desempenharam um papel significativo na economia brasileira, contribuindo com 5,6% do Produto Interno Bruto (PIB) do país no mesmo ano. Esse setor, notadamente no âmbito de startups e Venture Capital, tem sido um impulsionador expressivo do mercado de fusões e aquisições.

A inteligência artificial no Brasil
Dados dão um panorama da Inteligência Artificial no Brasil. Imagem: O impacto e o futuro da Inteligência Artificial no Brasil/Google e ABstartups.

Atualmente, São Paulo abriga um impressionante número de 2.700 startups de tecnologia, evidenciando-se como um epicentro de inovação. Surpreendentemente, o PIB da cidade supera a soma dos produtos internos de países como Argentina, Chile, Paraguai, Uruguai e Bolívia, conforme indicado por um estudo realizado em parceria entre ABStartups e Google Brasil para analisar o cenário sul-americano de I.A.

Esses dados oferecem uma visão panorâmica, mas para uma compreensão mais detalhada, é essencial começar pelo entendimento do presente como base para a projeção do futuro.

Será que a IA é mesmo o futuro?

A inteligência artificial é uma força transformadora que molda o presente e esboça o futuro de maneiras sem precedentes. No cenário mundial, vemos um ecossistema de inovação florescer, com investimentos significativos e um número crescente de startups que não apenas impulsionam a economia, mas também catalisam mudanças sociais e culturais.

À medida que mergulhamos mais fundo nesse universo tecnológico, é imperativo equilibrar o progresso com considerações éticas. Os desafios éticos associados à I.A. destacam a necessidade de regulamentações sólidas e debates contínuos sobre seu impacto na sociedade.

Ao navegar por esse território complexo, é essencial cultivar uma abordagem cautelosa e responsável para garantir que a inteligência artificial contribua para um futuro mais inclusivo, equitativo e sustentável. A jornada da I.A. está apenas começando, e cabe a nós orientar seu curso em direção a um amanhã promissor.

antonio-cesar-150x150
António César de Andrade

Apaixonado por tecnologia e inovação, traz notícias do seguimento que atua com paixão há mais de 15 anos.