Trabalhando com R no Jornalismo de Dados

Bianca Muniz

Introdução

Programação

  • Introdução

  • Coleta

  • Preparação

  • Análise

  • Visualização

  • Narrativa

  • Publicação

  • Acompanhando Referências

  • Mão na massa!

Oi, eu sou a Bianca!

Bianca Muniz

  • 🎲 Analista de dados na Agência Pública de Jornalismo Investigativo

  • 👩🏿‍🔬 Biomédica e mestre em Ciências pela Unifesp

  • 🤖 Especialista em Jornalismo de Dados, Automação e Data Storytelling pelo Insper

  • 📰 Estudante de jornalismo na USP

  • ❤️ Amo desenhar, shows e música emo

Instruções

Para acompanhar o workshop: Posit Cloud

Depois

Para detalhes, clique aqui.

O que vamos fazer hoje

Destrinchar o fluxo de trabalho do jornalismo de dados

Dica de livro:Fluxo do trabalho com dados: do zero à prática”, da Escola de Dados

Coleta

Programação

  • Introdução

  • Coleta

  • Preparação

  • Análise

  • Visualização

  • Narrativa

  • Publicação

  • Acompanhando Referências

  • Mão na massa!

Coleta

Como consigo os dados?

Legislação que permite aos cidadãos o acesso a informações públicas mantidas por órgãos governamentais. Essa lei tem o propósito de promover a transparência e a accountability (prestação de contas) por parte dos órgãos públicos.

Conjuntos de dados que são disponibilizados ao público de forma gratuita e em formatos acessíveis. Governos e organizações frequentemente fornecem dados abertos para promover a transparência e a inovação.

  • Raspagem de dados é o processo de extrair informações de páginas da web. Isso é útil quando os dados não estão disponíveis de outras maneiras

  • rvest: pacote utilizado para a raspagem de dados da web. Ele permite extrair informações de páginas da web, como tabelas, texto e imagens, usando seletores CSS.

  • APIs são interfaces que permitem acessar dados de sistemas ou serviços específicos de forma estruturada

  • httr: utilizado para fazer requisições HTTP e acessar APIs da web.

Preparação

Programação

  • Introdução

  • Coleta

  • Preparação

  • Análise

  • Visualização

  • Narrativa

  • Publicação

  • Acompanhando Referências

  • Mão na massa!

Preparação

Hora da faxina!

A limpeza de dados é o processo de corrigir ou remover dados incorretos, corrompidos, formatados incorretamente, duplicados ou incompletos em um conjunto de dados.

Pacotes para limpar, padronizar, arrumar dados.

  • lubridate: para manipulação de datas e horas

  • janitor: oferece funções para renomear colunas, remover dados ausentes e fazer outras operações de limpeza de dados.

  • stringr: funções para manipulação de strings (cadeias de caracteres) em R. É útil para tarefas como pesquisa, substituição e formatação de texto.

  • dplyr: oferece funções simples e intuitivas para filtrar, selecionar, agrupar e resumir dados.

  • tidyr: remodelar conjuntos de dados em um formato mais adequado para análises

Análise

Programação

  • Introdução

  • Coleta

  • Preparação

  • Análise

  • Visualização

  • Narrativa

  • Publicação

  • Acompanhando Referências

  • Mão na massa!

Análise

  • Busca de insights ou tendências
  • Entrevista: Quais perguntas quero responder? E se eu não tiver uma pergunta?
  • Exploração dos conjuntos de dados para entender sua estrutura, tamanho e conteúdo
  • Análise Descritiva
  • Explorar relacionamentos entre variáveis.

GSA

group_by, summarise, arrange

Como posso distribuir minhas observações em grupos?

Pegar muitas informações e criar uma versão condensada que cobre os pontos principais

  • Contagem

  • Soma

  • Média

Colocar em uma ordem, sequência

  • Maior/menor soma;

  • Maior/menor contagem;

  • Mais recente/mais antigo

Visualização

Programação

  • Introdução

  • Coleta

  • Preparação

  • Análise

  • Visualização

  • Narrativa

  • Publicação

  • Acompanhando Referências

  • Mão na massa!

Visualização

  • Dados são bonitos! Mas podem não ser simples ou intuitvos

  • A visualização de dados ajuda a transformar informações complexas em representações gráficas compreensíveis

  • Gráficos (barras, linhas, dispersão, etc), mapas

Pacotes

Pacotes para exibir dados.

  • ggplot2 - Uma implementação da Gramática dos Gráficos

  • ggplot2 Extensions - Demonstração de extensões do ggplot2

  • extrafont - Ferramentas para usar fontes em gráficos do R

  • showtext - Habilita o dispositivo de gráficos do R para mostrar texto usando fontes do sistema

  • animation - Uma maneira simples de produzir gráficos animados no R

  • gganimate - Crie animações facilmente com o ggplot2

  • hrbrthemes - Outros temas

Extensões do ggplot2

Referências: BBC

Referências: BBC

Referências: Nexo Jornal

Listas no Twitter/X

Narrativa

Programação

  • Introdução

  • Coleta

  • Preparação

  • Análise

  • Visualização

  • Narrativa

  • Publicação

  • Acompanhando Referências

  • Mão na massa!

shiny, RMarkdown, Quarto

Blog das R-Ladies São Paulo

O que é Quarto®?

O que é Quarto®?

Sistema de publicação científica e técnica de código aberto construído sobre o Pandoc.

O que é Quarto®?

  • Sistema de publicação: Ferramenta para construir documentos dinâmicos que combinam código, saída e texto

  • Científica e técnica: usada para documentação; possui recursos específicos para artigos de periódicos ou trabalhos científicos.

O que é Quarto®?

Código aberto: o código-fonte é disponibilizado publicamente, permitindo que qualquer pessoa o visualize, modifique e distribua conforme os termos de uma licença específica.

O que é Quarto®?

Pandoc: Ferramenta para construir documentos dinâmicos que combinam código, saída e texto

Formatos

https://realworlddatascience.net/

Python for Data Analysis, 3E by Wes McKinney

Blog da R-Lady Bea Milz

The untold story of palmerpenguins by Dr. Kristen Gorman, Dr. Allison Horst, and
Dr. Alison Hill

Journal of Statistical Software (JSS)

Como usar Quarto

Instalação

Hoje vamos usar o Posit Cloud (ambiente virtual), mas para instalar em sua máquina, siga os passos do site:

Trabalhando no RStudio

Trabalhando no RStudio

Componentes de um documento Quarto

YAML

  • Local onde são inseridas configurações sobre o documento (formatação, data, título, autor, entre outros). É sempre inserido no início do documento e delimitado por —.

    Aviso

    • Algumas opções são específicas de um determinado tipo documento, assim, podem não funcionar em outro formato (pdf, html, revealjs, por exemplo);

    • Cuidado com a indentação!

YAML

---
title: "Penguins, meet Quarto!"
format: html
editor: visual
---

YAML

---
title: "Penguins, meet Quarto!"
subtitle: "Intro to Quarto Exercise"
format: html
editor: visual
---

Code Chunks

  • Trechos de código começam e terminam com três crases (geralmente).
  • Trechos de código são identificados com uma linguagem de programação entre chaves {}
  • Podem incluir opções de trecho opcionais, no estilo YAML, identificadas por #| no início da linha.

Markdown

  • Markdown é uma linguagem leve para criar texto formatado
  • Quarto é baseado no Pandoc e usa sua variação de markdown como sintaxe do documento

Publicação

Programação

  • Introdução

  • Coleta

  • Preparação

  • Análise

  • Visualização

  • Narrativa

  • Publicação

  • Acompanhando Referências

  • Mão na massa!

Opções

Como o conteúdo renderizado com Quarto utiliza formatos padrão (HTML, PDFs, Word, etc.), ele pode ser publicado em qualquer lugar.

  • Quarto Pub
  • GitHub Pages

Acompanhando Referências

Programação

  • Introdução

  • Coleta

  • Preparação

  • Análise

  • Visualização

  • Narrativa

  • Publicação

  • Acompanhando Referências

  • Mão na massa!

Refs

Mão na massa!

Programação

  • Introdução

  • Coleta

  • Preparação

  • Análise

  • Visualização

  • Narrativa

  • Publicação

  • Acompanhando Referências

  • Mão na massa!

Mão na massa!

  • Procurar valores extremos (o máximo e o mínimo);

  • valores acima ou abaixo da média em um determinado período

  • Verificar variação temporal

Exemplos de perguntas

  • Qual o município com mais internações em 2022?

    • CUIDADO com proporções!
  • Qual a multa mais alta aplicada no ES?