Ciência Cidadã Baseada em Big Data Aplicada ao Planejamento Urbano
Por: SonSolimar • 12/10/2018 • 2.106 Palavras (9 Páginas) • 486 Visualizações
...
• Crowdsensing: neste está incluso o componente App - Phone e o Server. O App - Phone coleta dados resultantes das campanhas de participação e cooperação voluntaria dos cidadãos. Os participantes do crowdsensing podem acessar as informações coletadas nas campanhas através portal.
• Website: e o portal disponibilizado para a interação entre o usuário e o sistema ParticipACT. Esse website permite que o usuário visualize os resultados das análises dos dados, faça download do aplicativo, entre outros.
Proposta
Apresentados o modelo e a arquitetura para um ambiente que necessite manipular grandes quantidades de dados com objetivo de estruturar um ambiente que atenda aos requisitos exigidos por uma plataforma para big data, ou seja, volume e variedade de dados, velocidade de busca e armazenamento, flexibilidade para manipulação dos dados e possibilidade de analise sistemática dos dados. Contudo o Big Data mais nada e um conjunto de dados caracterizado pelo armazenamento de grandes volumes e variedades velocidade que devem ser oferecidas para manipulação dos dados como armazenamento, consulta e analise. Diante disso, um modelo e arquitetura de plataforma para big data se torna importante uma vez que o uso correto e estruturado de ferramentas determina positivamente o uso eficiente dos dados.
O modelo e composto por cinco camadas, bem como a arquitetura desenvolvida com base no modelo proposto.
- A primeira camada consiste dos dados fornecidos pelas instituições que são armazenados na base de dados. Diferentes instituições fornecem dados de diferentes tipos e formatos. Os tipos mais comuns são: texto, csv, planilha e base de dados relacional.
- A segunda camada representa a interação dos dados para que sejam armazenados em uma única base de dados. Para converter os dados em um único formato é necessário utilizar uma ferramenta para extrair, transformar e carregar (Extract, Transformation and Load - ETL) dados. ETL, por sua vez, e um mecanismo utilizado para migrar dados heterogêneos de uma ou mais fontes de dados para um repositório de dados, data marts ou data warehouse. A ferramenta utilizada, inicialmente, para o desenvolvimento da arquitetura foi o Pentaho Data Integration.
- A terceira camada apresenta a base de dados. De acordo com o tipo e quantidade de dados, foi utilizado a base de dados NoSQL Apache Cassandra. Cassandra e um sistema de gerenciamento de banco de dados distribuído, orientado a coluna, para gerenciamento de grandes quantidades de dados estruturados distribuídos por muitos servidores.
- A quarta camada representa a etapa de processamento de dados. Nesta fase os dados são relacionados, manipulados e analisados. A ferramenta utilizada foi o Programa R, um ambiente para analises e gráficos estatísticos. Este programa possui um pacote, RCassandra, que possibilita a conexão entre a base de dados e o programa R.
- A última camada consiste de uma interface amigável que apresenta ao usuário as informações geradas. Essas informações podem ser visualizadas através de gráficos, mapas ou desenhos.
As ferramentas Pentaho e Cassandra foram escolhidas para os experimentos iniciais porque o Pentaho apresenta uma interface amigável e todas as funcionalidades necessárias para a transformação e integração dos dados. Além disso, possui uma versão para a comunidade open Soure. Por outro lado, o Apache Cassandra foi escolhido, pois além de ser uma base de dados NoSQL colunar, se destaca pela boa escalabilidade, alta disponibilidade, baixa latência e por permitir a replicação dos dados em múltiplos datacenters.
Estudo de Caso
Um dos objetivos desse projeto e receber dados de companhias prestadoras de serviços públicos e analisa-los para fornecer resultados científicos relevantes para os administradores e para a população de um modo geral. O objetivo especifico desse estudo de caso e realizar uma comparação entre dois bairros, com a quantidade de habitantes relativamente parecida, da cidade de Florianópolis (Bairro C e Bairro T). O Bairro C e um bairro que atrai muitos turistas, pois oferece amplo serviço de hotéis e restaurantes, além de estar localizado em uma região à cuja praia possui agua com temperatura mais agradável e ampla faixa de areia. J a o Bairro T e mais residencial, ou seja, não possui grandes quantidades de hotéis ou restaurantes, por isso não e frequentado por turistas. O objetivo da comparação entre esses bairros e de verificar a quantidade XXXVI Congresso da Sociedade Brasileira de Computação 266 de resíduos sólidos produzidos durante o ano de 2015, considerando as características de cada bairro. Os dados recebidos do provedor estão, normalmente, em formatos csv ou texto. Por isso, os dados são carregados no Pentaho, que os transforma, em um formato compatível com o Cassandra, e os envia para a base de dados para armazenamento. Uma vez armazenados, os dados são capturados pelo Programa R e, a partir disso, podem ser manipulados. Após a manipulação, a informação gerada a partir dos dados e apresentada para o usuário final através de gráficos ou na forma escrita por meio de um website.
Outras analises poderiam ser realizadas para que seja possível explicar o motivo dessa variação, como por exemplo, se o aumento da produção de resíduos sólidos no Bairro T no mês de julho se deve ao período de férias escolares ou se existe alguma relação entre a primavera, a safra de frutas e verduras e o aumento da produção de resíduos sólidos nos meses de setembro e outubro. Vale ressaltar que o objetivo desse estudo de caso e implementar o modelo e a arquitetura propostos e verificar o seu funcionamento em uma situação real. Em outras palavras, o foco não é proporcionar uma análise estatística ampla e completa
Experiências
A equipe encontrou algumas dificuldades no que diz respeito às versões e instalações dos softwares utilizados. Em relação as ferramentas Pentaho e Apache Cassandra, a versão atual (até a escrita desse artigo) do Pentaho 6.0, não e compatível com a versão atual do Cassandra (3.4). Para que pudesse ser realizada a integração dos dois softwares foi necessário instalar o Cassandra 2.0.17. Esses softwares exigem uma grande quantidade de memória disponível e dedicada a sua execução. Em outras palavras, computadores simples de laboratório não são suficientes para que a arquitetura proposta seja testada.
Trabalhos Relacionados
Outros projetos como City Data and Analytics Platform (CiDAP) foram realizados na cidade de Santander
...