Programação
Introdução
Coleta
Preparação
Análise
Visualização
Narrativa
Publicação
Acompanhando Referências
Mão na massa!
🎲 Analista de dados na Agência Pública de Jornalismo Investigativo
👩🏿🔬 Biomédica e mestre em Ciências pela Unifesp
🤖 Especialista em Jornalismo de Dados, Automação e Data Storytelling pelo Insper
📰 Estudante de jornalismo na USP
❤️ Amo desenhar, shows e música emo
Para acompanhar o workshop: Posit Cloud
Depois
Baixar e instalar a versão mais recente do Quarto
Baixar e instalar a versão mais recente do R. Caso já tenha, verifique se o seu R está atualizado para R 4.1 ou R 4.2;
Baixar e instalar a versão mais recente do RStudio.
Para detalhes, clique aqui.
Destrinchar o fluxo de trabalho do jornalismo de dados
Dica de livro: “Fluxo do trabalho com dados: do zero à prática”, da Escola de Dados
Programação
Introdução
Coleta
Preparação
Análise
Visualização
Narrativa
Publicação
Acompanhando Referências
Mão na massa!
Como consigo os dados?
Legislação que permite aos cidadãos o acesso a informações públicas mantidas por órgãos governamentais. Essa lei tem o propósito de promover a transparência e a accountability (prestação de contas) por parte dos órgãos públicos.
Conjuntos de dados que são disponibilizados ao público de forma gratuita e em formatos acessíveis. Governos e organizações frequentemente fornecem dados abertos para promover a transparência e a inovação.
Raspagem de dados é o processo de extrair informações de páginas da web. Isso é útil quando os dados não estão disponíveis de outras maneiras
rvest
: pacote utilizado para a raspagem de dados da web. Ele permite extrair informações de páginas da web, como tabelas, texto e imagens, usando seletores CSS.
APIs são interfaces que permitem acessar dados de sistemas ou serviços específicos de forma estruturada
httr
: utilizado para fazer requisições HTTP e acessar APIs da web.
Programação
Introdução
Coleta
Preparação
Análise
Visualização
Narrativa
Publicação
Acompanhando Referências
Mão na massa!
Hora da faxina!
A limpeza de dados é o processo de corrigir ou remover dados incorretos, corrompidos, formatados incorretamente, duplicados ou incompletos em um conjunto de dados.
Pacotes para limpar, padronizar, arrumar dados.
lubridate
: para manipulação de datas e horas
janitor
: oferece funções para renomear colunas, remover dados ausentes e fazer outras operações de limpeza de dados.
stringr
: funções para manipulação de strings (cadeias de caracteres) em R. É útil para tarefas como pesquisa, substituição e formatação de texto.
dplyr
: oferece funções simples e intuitivas para filtrar, selecionar, agrupar e resumir dados.
tidyr
: remodelar conjuntos de dados em um formato mais adequado para análises
Programação
Introdução
Coleta
Preparação
Análise
Visualização
Narrativa
Publicação
Acompanhando Referências
Mão na massa!
group_by
, summarise
, arrange
Como posso distribuir minhas observações em grupos?
Pegar muitas informações e criar uma versão condensada que cobre os pontos principais
Contagem
Soma
Média
Colocar em uma ordem, sequência
Maior/menor soma;
Maior/menor contagem;
Mais recente/mais antigo
Programação
Introdução
Coleta
Preparação
Análise
Visualização
Narrativa
Publicação
Acompanhando Referências
Mão na massa!
Dados são bonitos! Mas podem não ser simples ou intuitvos
A visualização de dados ajuda a transformar informações complexas em representações gráficas compreensíveis
Gráficos (barras, linhas, dispersão, etc), mapas
Pacotes para exibir dados.
ggplot2 - Uma implementação da Gramática dos Gráficos
ggplot2 Extensions - Demonstração de extensões do ggplot2
extrafont - Ferramentas para usar fontes em gráficos do R
showtext - Habilita o dispositivo de gráficos do R para mostrar texto usando fontes do sistema
animation - Uma maneira simples de produzir gráficos animados no R
gganimate - Crie animações facilmente com o ggplot2
hrbrthemes - Outros temas
Programação
Introdução
Coleta
Preparação
Análise
Visualização
Narrativa
Publicação
Acompanhando Referências
Mão na massa!
Sistema de publicação: Ferramenta para construir documentos dinâmicos que combinam código, saída e texto
Científica e técnica: usada para documentação; possui recursos específicos para artigos de periódicos ou trabalhos científicos.
Código aberto: o código-fonte é disponibilizado publicamente, permitindo que qualquer pessoa o visualize, modifique e distribua conforme os termos de uma licença específica.
Pandoc: Ferramenta para construir documentos dinâmicos que combinam código, saída e texto
Hoje vamos usar o Posit Cloud (ambiente virtual), mas para instalar em sua máquina, siga os passos do site:
Local onde são inseridas configurações sobre o documento (formatação, data, título, autor, entre outros). É sempre inserido no início do documento e delimitado por —.
Aviso
Algumas opções são específicas de um determinado tipo documento, assim, podem não funcionar em outro formato (pdf, html, revealjs, por exemplo);
Cuidado com a indentação!
Programação
Introdução
Coleta
Preparação
Análise
Visualização
Narrativa
Publicação
Acompanhando Referências
Mão na massa!
Como o conteúdo renderizado com Quarto utiliza formatos padrão (HTML, PDFs, Word, etc.), ele pode ser publicado em qualquer lugar.
Programação
Introdução
Coleta
Preparação
Análise
Visualização
Narrativa
Publicação
Acompanhando Referências
Mão na massa!
Programação
Introdução
Coleta
Preparação
Análise
Visualização
Narrativa
Publicação
Acompanhando Referências
Mão na massa!
Procurar valores extremos (o máximo e o mínimo);
valores acima ou abaixo da média em um determinado período
Verificar variação temporal
Exemplos de perguntas
Qual o município com mais internações em 2022?
Qual a multa mais alta aplicada no ES?
R-Ladies Ribeirão Preto