Um olhar mais profundo sobre o algoritmo de harmonização de locais da Premise

por | Jun 23, 2022

Correio eletrónicoTwitterLinkedIn

A Premise Data tem uma rede global de colaboradores que são pagos para fornecer informações ao nível do terreno através da aplicação móvel da Premise. Em janeiro de 2020, mais de 1,4 milhões de Contribuintes cidadãos locais no terreno são pagos para responder a inquéritos e mapear locais em todo o mundo. Em média, os Colaboradores estão a enviar centenas de milhares de respostas a "tarefas" por dia. Muitas dessas respostas implicam a descoberta de locais como restaurantes, estabelecimentos de saúde, escolas, etc. Os dados são utilizados para compreender melhor o desenvolvimento económico e o acesso da população aos serviços de saúde. Estes projectos são de particular importância para os clientes da Premise, como a Fundação Bill & Melinda Gates, a USAID e muitos outros.

Para processar as centenas de submissões que representam a única localização autorizada para uma determinada instalação, os cientistas de dados da Premise desenvolveram um algoritmo chamado "Place Harmonizer" (pH) para combinar as centenas de submissões que representam uma instalação com uma localização de alta confiança para determinar a localização autorizada para essa instalação. 

Métodos

Os contribuidores da Premise enviam três dados que permitem aos cientistas de dados da Premise combinar algoritmicamente muitos pontos de dados para o mesmo local, reduzindo-os a um local autorizado:

  1. Coordenada cartesiana (latitude e longitude)
  2. O nome do local
  3. Uma fotografia do local

Coordenada cartesiana


Exemplo de como se pode registar uma localização na aplicação Premise

Em primeiro lugar, o agrupamento espacial de latitude e longitude é utilizado para agrupar os envios. Isto está alinhado com a Primeira Lei da Geografia de Waldo Tobler, que afirma que "tudo está relacionado com tudo o resto, mas as coisas próximas estão mais relacionadas do que as distantes". 

Para cada tipo de estabelecimento, é definida uma variável para limitar a distância máxima de pesquisa dos pontos de apresentação (latitude, longitude). Por exemplo, o raio dos locais apresentados a agrupar para as farmácias é menor do que o raio máximo de pesquisa para os hospitais. De um modo geral, os hospitais ocupam uma área maior de terreno e estão mais espaçados numa paisagem. As farmácias tendem a ocupar uma área mais pequena e estão mais próximas umas das outras na paisagem.

Nome


Exemplo de apresentação de nome para um local na aplicação Premise

Em segundo lugar, uma vez definido um agrupamento espacial, o algoritmo de harmonização de locais da Premise analisará os nomes das instalações apresentados pelos colaboradores da Premise para cada agrupamento. Esta etapa permite que o algoritmo determine se as submissões têm um nome semelhante e permanecem agrupadas ou têm um nome diferente e devem ser divididas num agrupamento único (nome da instalação). 

Dado que os colaboradores da Premise introduzem manualmente o nome da instalação através de um teclado de smartphone, o algoritmo tem de classificar uma vasta gama de nomes que podem descrever uma instalação. Como resultado, os cientistas de dados da Premise modificaram o algoritmo Term Frequency-Inverse Document Frequency (TF-IDF) para acomodar este fenómeno. 

A vantagem desta modificação permite que o algoritmo seja independente da língua; por outras palavras, não só funciona quando as submissões estão em inglês, mas também funciona sem problemas nas outras 28 línguas em que os nossos Contribuidores submetem dados (por exemplo, árabe, swahili, tagalo, etc.).  

Fotografia

Exemplo de envio de fotografias na aplicação Premise

Em terceiro lugar, os colaboradores enviam uma fotografia do exterior das instalações. Estas fotografias são extremamente valiosas para representar o estado atualizado de um local. As fotografias são também utilizadas para validar visualmente se o local corresponde ao que os nossos Contribuintes estão efetivamente a enviar. 

Os cientistas de dados da Premise também utilizaram ferramentas de reconhecimento de caracteres de objectos de aprendizagem automática nas fotografias para extrair automaticamente todo o texto observado na fotografia. Esse texto foi então usado para ajudar a validar o nome do local que os nossos colaboradores enviaram. Mais importante ainda, as fotos servem como um meio para fazer uma verificação final de que várias submissões devem ser unidas num único local autorizado.

Conclusão

Os dados obtidos através de crowdsourcing continuam a revelar-se essenciais para a descoberta e a verificação de locais importantes em todo o mundo. A Premise considera os lugares misturados usando o nosso algoritmo Place Harmonizer desenvolvido internamente como fundamental para saber onde as instalações estão localizadas e para obter lugares mapeados de forma abrangente numa paisagem.  

Se quiser saber mais sobre como pode implementar a Premise na sua organização, contacte [email protected] ou visite o nosso site, premise.com