Una mirada más profunda al algoritmo de armonía de lugar de Premise

por | 23 de junio de 2022

Envía un correo electrónico aTwitterLinkedIn

Premise Data cuenta con una red mundial de colaboradores a los que se paga por proporcionar información sobre el terreno a través de la aplicación móvil de Premise. En enero de 2020, más de 1,4 millones de colaboradores locales reciben dinero por responder encuestas y cartografiar lugares de todo el mundo. De media, los colaboradores envían cientos de miles de respuestas a "tareas" al día. Muchas de esas respuestas se refieren a la localización de lugares como restaurantes, centros de salud, escuelas, etc. Los datos se utilizan para comprender mejor el desarrollo económico y el acceso de la población a los servicios sanitarios. Estos proyectos son de especial importancia para clientes de Premise como la Fundación Bill y Melinda Gates, USAID y muchos otros.

Con el fin de procesar los cientos de propuestas que a veces representan la ubicación autorizada de una instalación en particular, los científicos de datos de Premise han desarrollado un algoritmo llamado "Armonizador de lugares" (pH) para fusionar los cientos de propuestas que representan una instalación con una ubicación de alta confianza para determinar la ubicación autorizada de esa instalación. 

Métodos

Los colaboradores de Premise envían tres datos que permiten a los científicos de datos de Premise combinar algorítmicamente muchos puntos de datos de la misma ubicación hasta llegar a una ubicación autorizada:

  1. Coordenada cartesiana (latitud y longitud)
  2. El nombre del lugar
  3. Una foto del lugar

Coordenada cartesiana


Ejemplo de cómo registrar una ubicación en la aplicación Premise

En primer lugar, se utiliza la agrupación espacial de latitud y longitud para agrupar los envíos. Esto se ajusta a la Primera Ley de la Geografía de Waldo Tobler, según la cual "todo está relacionado con todo, pero las cosas cercanas están más relacionadas que las lejanas". 

Para cada tipo de establecimiento se define una variable que limita la distancia máxima de búsqueda de los puntos de presentación (latitud, longitud). Por ejemplo, el radio de los lugares presentados para ser agrupados en el caso de las farmacias es menor que el radio máximo de búsqueda en el caso de los hospitales. En general, los hospitales ocupan una mayor superficie de terreno y están más espaciados en el paisaje. Las farmacias suelen ocupar una superficie menor y están más próximas entre sí.

Nombre


Ejemplo de nombre para un local de la aplicación Premise

En segundo lugar, una vez definida una agrupación espacial, el algoritmo de armonización de lugares de Premise analizará los nombres de las instalaciones enviados por los colaboradores de Premise para cada agrupación. Este paso permite al algoritmo determinar si las propuestas tienen un nombre similar y permanecen agrupadas o si tienen un nombre diferente y deben separarse en una agrupación única (nombre de la instalación). 

Dado que los colaboradores de Premise introducen manualmente el nombre de la instalación a través del teclado de un smartphone, el algoritmo debe clasificar una amplia gama de nombres que podrían describir una instalación. Por ello, los científicos de datos de Premise han modificado el algoritmo Term Frequency-Inverse Document Frequency (TF-IDF) para adaptarse a este fenómeno. 

La ventaja de esta modificación es que el algoritmo es independiente del idioma, es decir, no sólo funciona cuando los datos se envían en inglés, sino también en los otros 28 idiomas en los que nuestros colaboradores envían datos (por ejemplo, árabe, suajili, tagalo, etc.).  

Fotografía

Ejemplo de envío de fotos con la aplicación Premise

En tercer lugar, los colaboradores envían una foto del exterior del establecimiento. Estas fotos son muy valiosas para representar el estado actual de un lugar. Las fotos también se utilizan para validar visualmente que el lugar es fiel a lo que nuestros Colaboradores presentan realmente. 

Los científicos de datos de Premise también han utilizado herramientas de aprendizaje automático de reconocimiento de caracteres de objetos en las fotos para extraer automáticamente todo el texto observado en la foto. Ese texto se ha utilizado para ayudar a validar el nombre del lugar que envían nuestros colaboradores. Y lo que es más importante, las fotos sirven como medio para hacer una verificación final de que múltiples envíos deben unirse en un lugar autorizado.

Conclusión

Los datos obtenidos por crowdsourcing siguen siendo esenciales para descubrir y verificar lugares importantes de todo el mundo. Premise considera que la confusión de lugares mediante nuestro algoritmo Place Harmonizer, desarrollado internamente, es fundamental para saber dónde se encuentran las instalaciones y para obtener una cartografía completa de los lugares de un paisaje.  

Si desea obtener más información sobre cómo puede implantar Premise en su organización, póngase en contacto con [email protected] o visite nuestro sitio web, premise.com