“Nem Sempre Se Vê Mágica no Absurdo: Engenharia e Ciência de dados em um Estudo de Caso em Mineração de Opiniões” é a conferência integrante da programação do segundo dia da 73ª Reunião Anual da Sociedade Brasileiro para o Progresso da Ciência (SBPC). O evento da tarde desta terça-feira (20) teve como conferencista Altigran Soares da Silva da Universidade Federal do Amazonas (UFAM) e mediação da docente da Universidade Federal do Ceará (UFC) e diretora da SBPC, Claudia Linhares Sales.
A ciência e a engenharia de dados são temas de grande interesse industrial e acadêmico nos últimos anos. Com a proliferação de dados disponíveis, existe uma demanda crescente de profissionais para analisar esse material. A conferência ressaltou a importância do trabalho dos cientistas de dados que buscam soluções para a melhoria do trabalho, que atualmente dedica 80% do tempo e esforço na preparação dos dados a serem utilizados.
“O trabalho é muito grande, o conjunto dos dados interessantes e úteis não é conhecido previamente. Tenho um volume de dados gigante e não sei qual daqueles dados vou usar. Por isso que a fase de preparação inclui todos os conjuntos prioritariamente relevantes, mesmo que tipicamente não mais que 10 a 12% do total dos dados seja realmente necessário. Então o volume de coisas que são realmente úteis é pequeno. Esse processo demanda muito tempo e recursos. O custo obviamente aumenta exponencialmente ao volume de dados. Por um lado, queremos ter um volume de dados grandes, mas por outro lado tratar esse volume de dados vai dar muito trabalho e demandar esforço. Então é um trabalho complexo, propenso a erros e muitas vezes artesanal”, explica Altigran.
Uma das soluções para o problema defendidas por Altigran, é a automatização do processo de preparação de dados. Tornando menos denso para o cientista de dados, que muitas vezes trabalha com uma equipe pequena, mesmo diminuindo o custo para as empresas.
Altigran falou sobre um projeto desenvolvido na UFAM relacionado às interfaces de linguagem natural para bancos de dados. Essas interfaces permitem que usuários casuais acessem informações armazenadas em um banco de dados usando consultas expressas em uma linguagem natural. “Ao invés de ter o trabalho de alguém que prepara, faz consultas sobre dados usando linguagem computacionais, vai permitir que a coisa flua com pessoas sem treinamentos formal em programação de computadores usando linguagem natural para fazer consulta em bancos de dados. Isso é super importante e foi considerado desde o começo da tecnologia em banco de dados em 1964 e é cada dia mais explorado. Ou seja, uma interface que permite que usuários casuais acessem informações armazenadas em bancos de dados usando conteúdos impressos em uma linguagem natural,” ressalta.
Fazendo uma relação com o tema anterior, Altigran explica que se tivesse uma maneira do usuário usar a sua linguagem natural para expressar suas consultas, não precisaríamos da complicação toda de preparar essas consultas, com programas para executar, “eu posso liberar, por exemplo, cientistas para analisarem os dados sem precisar de pessoal técnico para ajudar”.
Para finalizar, o professor ressaltou a definição de cientista de dados, que vai além da ciência da computação. “Cientistas de dados é quem usa dados para fazer ciência. Então acho que qualquer um que baseie sua pesquisa em dados é um cientista de dados. Nós da computação temos o papel de facilitar a vida de quem precisa desses dados. Nossa ciência, nossa tecnologia, têm entre seus objetivos ajudar nesse aspecto. Embora tenhamos nossos problemas e fenômenos, alguns podem ser considerado cientistas de dados”, completa.