Nos métiers

Nos métiers

Entre conseil, expertise et intégration, le cabinet Next Decision vous accompagne dans vos projets Data.

BI - Business intelligence

Big Data

Pilotage RSE / ESG

Organisation

Elaboration budgétaire

Gestion de la rémunération

MDM

Solution PIM

CRM

Gestion de projets

Business Apps

Google Apps

Contribution à l'enseignement
Editeurs BI

Editeurs BI

En tant que cabinet spécialisé dans l'informatique décisionnelle, Next Decision propose son expertise autour des technologies d'ETL.

ETL - Extract Transform Load

Effectuez des synchronisations massives d'information d'une source de données vers une autre.

Base de données

Préparez vos données de manière organisée au travers d’une structure adéquat.

Restitution

Présentez et analysez vos données.

Data Quality

Assurez-vous d'avoir des données propres et fiables.
Editeurs Big Data
Editeurs RSE / ESG
Autres éditeurs

Autres éditeurs

Nous vous accompagnons sur plusieurs champs technologiques pour développer vos projets digitaux.

MDM / PIM

ESB / API

Elaboration budgétaire

Gestion de la rémunération

Data Governance

PMO

Data Replication

Automatisation

BPM

GED

CRM

Modélisation

SIRH

E-Commerce
Formations

Formations

Next Decision vous accompagne dans votre formation et votre montée en compétence.

Théorie

Base de données

ETL

DevOps

Restitution

Big Data

MDM

RSE / ESG

ESB / API

Elaboration budgétaire

Organisation Digitalisation

UX / UI
Qui sommes-nous ?

Qui sommes-nous ?

“Ne pas se prendre au sérieux, tout en le faisant sérieusement”

Découvrir Next Decision

Découvrez l’histoire, l’esprit et l’ADN de l’entreprise de Data la plus décalée.

Actualités

Découvrez les événements que nous organisons.

Mécénat et engagement

Next Decision attache de l’importance aux valeurs humaines, elle le montre dans plusieurs projets à impact positif.
Recrutement
Wiki

Retour d'expérience de validation de données géolocalisées

Data

: 28 juin 2016

Problématique

Vous disposez d'enregistrements qui contiennent différentes données, notamment des coordonnées géographiques. Chaque enregistrement géolocalisé renvoie également à une commune.

Cependant, vous constatez que certaines données sont erronées : les coordonnées géographiques ne correspondent pas à la commune qui leur est associée…

Mais alors comment procéder à la validation de ces données géolocalisées et s'assurer de leur fiabilité ?

Éléments nécessaires à la validation des données géolocalisées

Pour la validation des données géolocalisées, vous devez disposer de deux éléments :

Des enregistrements contenant les deux informations suivantes :
- 1 localisation par enregistrement à valider (coordonnées GPS en degrés décimaux) ;
- 1 commune (avec son code INSEE) associée à cet enregistrement.
Un fichier contenant les localisations des communes INSEE ainsi que leur superficie, fichier téléchargeable gratuitement sur l'Open Data de l'INSEE.

Logique de validation des données géolocalisées

Il est possible de mesurer la distance qui sépare deux points grâce à leurs coordonnées géographiques respectives. Ainsi, on peut obtenir la distance (D) entre le centre de la commune et notre point géolocalisé, puis comparer cette distance au rayon (R) de cette même commune (rayon extrapolé à partir de la superficie).

Si la distance est inférieure au rayon de la commune, la donnée est fiable : le point géolocalisé se situe bien dans la commune.

Si D ≤ R, alors la donnée est validée.
Si la distance est comprise entre 1 et 3 fois le rayon de la commune ou si cette distance est inférieure à 5 km, la donnée est « à vérifier ».

Si R ≤ D ≤ 3R ou si D ≤ 5 km, alors la donnée est à vérifier.
Si la distance est supérieure au rayon de la commune (ou supérieure à 5 km), alors le point géolocalisé ne peut pas être associé à la commune.

Si D > R ou si D > 5 km, alors la donnée est invalidée.

Formules de calcul

Soit deux points A et B géolocalisés. Ci-dessous la formule pour calculer la distance D qui sépare ces deux points :

D_A-B = arc cos [sin(Lat_A)*sin(Lat_B) + cos(Lat_A)*cos(Lat_B)*cos(Lon_B – Lon_A)]

Lat : latitude en radians
Lon : longitude en radians

Pour convertir les degrés en radians, il suffit d'appliquer la formule suivante :

Latitude (en degrés) * π/180 = Latitude (en radians)
Longitude (en degrés) * π/180 = Longitude (en radians)

exemple : Nantes

Nantes	Degré	Radian
Longitude (x)	47.216671	0.8240864
Latitude (y)	-1.55	0.027052

La distance D_A-B obtenue est une distance angulaire, exprimée en radians. Pour l'obtenir en kilomètres, il faut la multiplier par le rayon terrestre (6378,137 km).

La formule devient :

D_A-B = arc cos [sin(Lat_A)*sin(Lat_B) + cos(Lat_A)*cos(Lat_B)*cos(Lon_B – Lon_A)] * 6378,137

Ensuite, il ne reste plus qu'à implémenter cette formule et à la valider avec un « si », « alors », « sinon » dans votre outil de traitement favori. Vous automatisez ainsi la validation des données géolocalisées.

Rappel :

La superficie des communes dans le fichier INSEE est exprimée en hectares. Sachant qu'un hectare vaut 0,01 km², on peut extrapoler le rayon moyen de la commune grâce à la formule suivante :

rayon superficie

L'implémentation de cette formule en SQL Server donne : sqrt(Superficie/100*pi())

Vous souhaitez bénéficier d'experts sur la validation de données géolocalisées ? Rendez vous sur la page Contact