Disciplina: EST065 - ESTATÍSTICA COMPUTACIONAL I
Horas Aula: 4
Departamento: DEPTO DE ESTATISTICA /ICEPlano de Ensino
limpeza de dados. Big data.
de diferentes tipos de objetos de dados (vetores, matrizes, data frames). Operações básicas.
Importação e exportação de dados. Uso de scripts para organizar comandos. Ajuda do R.
Instalação e uso de pacotes.
2. Introdução à programação em R: Estruturas de controle: if-
else, loops em for, loops em while, repeat-next-break. Funções em R. Padrões de
codificação. Debugging: diagnóstico dos problemas, uso de ferramentas básicas
para debugging.
3. Obtenção de dados: Leitura de diferentes tipos de arquivos. Apresentação dos sistemas de
armazenamento de dados mais comuns. Ferramentas para extração de dados da web ou de
bancos de dados.
4. Limpeza de dados : Recodificação e conversão de dados. Manipulação de caracteres:
normalização de strings, problemas de codificação de caracteres. Detecção e localização de
erros. 5. Correção de erros. Imputação de dados: modelos básicos de imputação numérica,
imputação hot deck, imputação kNN, ajuste de valor mínimo
5. Big data: Tratamento de grandes conjuntos de dados no R. Estratégias para uso
de big data no R. Computação em paralelo.
DE JONGE, E.; VAN DER LOO, M. An introduction to data cleaning with R. Statistics
Netherlands, The Hauge, 2013.
GENTLE, J. E. Computational Statistics. New York: Springer, 2009.
PRAJAPATI, V. Big data analytics with R and hadoop. Packt Publishing, 2013.
VAN DEN BROECK, J. et al. Data cleaning: detecting, diagnosing, and editing data
abnormalities. PLoS Med, v. 2, n. 10, p. e267, 2005.