Fiche N°3 – Précautions techniques et qualité des données DVF

17/09/2019Vademecum

La fiche en bref

Les données DVF sont réputées fiables et exhaustives, notamment en comparaison avec d’autres bases disponibles traitant des mutations foncières et immobilières. Dans l’écosystème des données, elles constituent une donnée pivot, à l’échelle parcellaire, pour apprécier le fonctionnement des marchés.

Il y a néanmoins plusieurs précautions à prendre pour utiliser les fichiers restitués par la DGFiP. En effet, les données nécessitent un retraitement pour être exploitées (livrées dans un format brut et informations sur plusieurs lignes). Par ailleurs, le risque d’une interprétation erronée est bien présent si l’on ne tient pas compte de leur origine fiscale (décomposition de la vente en différents éléments d’évaluation). Cette fiche vise à préciser les contraintes techniques et propose des méthodes pour préparer les données avant de les interpréter.

Le Groupe national DVF (GnDVF) s’attache à identifier et faire connaître les bonnes pratiques et les limites d’utilisation des données, d’une part. D’autre part, il propose des outils et méthodologies de traitement partagés. Le GnDVF a ainsi conçu un modèle conceptuel de données (MCD), socle commun assurant la structuration de l’information et son exploitation pour l’analyse des marchés fonciers et immobiliers.

Des sources

Les données DVF sont issues de différentes bases de données de la Direction Générale des Finances Publiques.

Un socle

Une base de données est une série structurée d’informations. Cela implique de bien utiliser le modèle de données.

Des échanges

Les outils et les méthodes partagés sont les garants d’une cohérence permettant une liberté des interprétations.

3.1 Des mutations, des dispositions, des biens...

3.1.1 Des données la plupart du temps « multilignes »

La complexité du fichier DVF vient du fait que chaque mutation peut être décrite par une ou plusieurs lignes du fichier. Cela est dû à plusieurs facteurs :

  1. Le nombre de biens composant la mutation
    Chaque mutation peut porter sur un nombre de biens variable. Par ailleurs, les biens peuvent être de types différents : parcelles, locaux, etc. Si une mutation porte sur plusieurs biens, cela se traduira par plusieurs lignes dans le fichier DVF.
  2. La description des biens à partir des informations cadastrales
    Dans la documentation cadastrale, une parcelle se décompose d’une ou plusieurs subdivisions fiscales (dites « suf ») : parties fictives ou réelles de parcelles donnant lieu à des régimes d’imposition différents. Pour chaque mutation de parcelle, l’ensemble des subdivisions fiscales de la parcelle apparaissent dans DVF, ce qui multiplie les lignes pour chaque mutation.
  3. Aux modalités juridiques d’enregistrement des informations de la mutation dans l’acte notarié
    Certains actes de vente présentent différents paragraphes, appelés « dispositions juridiques ».
    Par exemple, un acte comportant une vente et une division de parcelle donne lieu à la création de deux dispositions, l’une concernant la division et l’autre la vente car il s’agit de deux unités d’analyse juridique distinctes.
À NOTER
Le GnDVF propose aux utilisateurs un modèle de données permettant de structurer l’information de manière à n’avoir qu’une ligne par mutation : cf. paragraphe 3.2 Le modèle de données : rendre la donnée exploitable

LE SAVIEZ VOUS ?
Dans DVF, seules les dispositions faisant l’objet d’un prix sont restituées.


Dans cet exemple, la disposition relative à la division de parcelle ne sera pas restituée dans DVF, car elle ne fait pas l’objet d’un prix.
Chaque disposition onéreuse issue de l’acte de mutation engendre une ligne dans DVF.
Dans environ 98 % des cas, les informations de la mutation sont représentées par une seule disposition rattachée à un prix. Il y a alors concordance mutation/disposition et une seule ligne dans le fichier pour la mutation.
Dans environ 2 % des mutations au niveau national, plusieurs dispositions onéreuses coexistent dans le même acte. Dans ces cas, chaque disposition onéreuse occasionne une ligne distincte dans DVF.

3.1.2 Les mutations décrites sur une seule ligne

Dans les cas simples, une mutation est représentée sur une seule ligne, comme dans l’exemple fictif suivant.

Dans l’exemple ci-dessous, tous les champs disponibles dans DVF ne sont pas représentés. Les champs grisés ne sont plus disponibles depuis 2019.

En synthèse, la mutation 2204P08-2012P00174 présentée dans DVF est d’un montant de 179 000€. Elle comprend une maison sur un terrain de 780 m2.

3.1.3 Les mutations décrites sur plusieurs lignes

Beaucoup de mutations comportent plusieurs lignes. Il faut alors gérer la duplication des informations et le dédoublement de certaines mutations.

La DGFiP décompose les mutations en plusieurs lignes dans les cas suivants :

  • Plusieurs dispositions
  • Plusieurs parcelles dans la disposition
  • Plusieurs locaux dans la parcelle
  • Plusieurs subdivisions fiscales dans la parcelle visibles par leur « nature de culture » et « nature de culture spéciale » (types de terrain du point de vue fiscal)

L’exemple fictif suivant permet d’illustrer ces mutations multilignes :

En synthèse la mutation 2204P08-2013P00181 présentée dans DVF est d’un montant de 497 000 € (somme des valeurs foncières de la disposition 2 et de la disposition 3). Elle comprend d’une part un appartement, et d’autre part une maison et sa dépendance, sur un terrain de 6 801 m2 composé de deux parcelles.

À NOTER
Les natures de cultures sont affectées aux subdivisions fiscales de la parcelle et ne sont donc pas liées aux locaux. Pour une même parcelle, la DGFiP ne propose aucune information permettant de savoir si le local est sur telle ou telle subdivision fiscale. Il n’y a donc pas de lien géographique dans MAJIC entre les locaux et les natures de culture. DVF va donc ventiler le local en autant de subdivisions fiscales (identifiables par leur surface, leur nature de culture et leur nature de culture spéciale) qu’il trouvera dans MAJIC sur la parcelle concernée.
3.2 Le modèle de données : rendre la donnée exploitable

La complexité des mutations traduites sur plusieurs lignes a nécessité la réalisation d’un modèle conceptuel de données (voir encadré) et la structuration de cette donnée. Cela permet ainsi de faciliter l’utilisation, le risque étant sinon de compter plusieurs fois la même mutation.

La donnée DVF brute doit ainsi être ainsi décomposée en plusieurs tables qui regroupent des informations uniques. Il est ensuite possible de recomposer les mutations avec leurs dispositions pour être interprétées.

LE SAVIEZ VOUS ?
Un modèle conceptuel de données (MCD) a pour objectif d’expliciter l’organisation des données qui seront utilisées par le système d’information. Il s’agit d’une représentation des données, facilement compréhensible, permettant de décrire l’information à l’aide d’entités. Le MCD permet de représenter la structure du système d’information, du point de vue des données, et définit également les dépendances ou relations entre ces différentes données.
Le modèle résulte de l’analyse conceptuelle des données, laquelle a pour but de chercher des réponses aux questions que peut-on faire et avec quelles données.
Il a ainsi deux vertus :

  • améliorer la compréhension de la base de données en en maîtrisant l’organisation et donc les possibilités d’analyse
  • faciliter le traitement des données grâce à la mise en place, sur la base du MCD, de scripts et/ou d’un logiciel

3.2.1 Le MCD développé par le Groupe national DVF : le socle

Dès la mise en place de DVF, les utilisateurs ont cherché à structurer les données au sein d’un modèle pour mieux les comprendre et mieux les exploiter. Les travaux autour de la création d’un modèle s’inscrivent dans un processus qui a débuté en 2011 à l’initiative du Groupe national DVF. Grâce à un travail collaboratif, un Modèle Conceptuel de Données (MCD) pour l’import des données natives de DVF a été produit et partagé collégialement par le groupe. Ce modèle est le résultat d’un partage d’une vision commune.

Le MCD proposé par le Groupe national est le socle et le référentiel commun à tous les utilisateurs DVF. Face à la multiplication des modèles de données développés par chaque structure utilisatrice, il semblait opportun de se diriger vers une harmonisation en suggérant l’utilisation d’un modèle commun permettant des usages variés. Le schéma présenté ci- dessous est une synthèse du modèle à jour.

3.2.2 Le modèle de données simplifié

3.2.2 Le modèle de données détaillé

3.3 Comment intégrer les données ?

3.3.1 Quels outils utiliser ?

Pour procéder au traitement des fichiers restitués par la DGFiP, plusieurs options sont possibles. La recommandation principale est d’utiliser les scripts du Modèle Conceptuel de Données élaboré par le Groupe national DVF. Ces scripts peuvent être implémentés sur différents logiciels de gestion de bases de données selon les ressources et compétences de chaque requérant et de chaque structure.

Toutefois, pour un usage simple et rapide il est possible de consulter les données dans un tableur.

  Solution logicielle Exemples
Usage simple et rapide Traitement sur tableur Microsoft Excel, Open/Libre Office Calc, etc.
Usage avancé Traitement avec un système de gestion de base de données (SGBD) relationnel PostgreSQL, Oracle, scripts du GnDVF, Microsoft Access, Open/Libre Office Base, etc.
 
À NOTER
Le CEREMA a développé un outil permettant de structurer les données DVF sous forme de base de données « DVF+ ». Des développements sont en cours pour intégrer les données DVF ouvertes dans un modèle de données qui restera compatible avec les données historiques (https://datafoncier.cerema.fr).

3.3.2 Pour un usage de la donnée avec un tableur

Pour un usage ponctuel de la donnée ou en l’absence de moyens informatiques ou humains permettant de gérer des bases de données, les données DVF peuvent être consultées dans un tableur.

Ouvrir le fichier texte avec tout tableur (par exemple, Microsoft Excel ou Open Office Calc)

Dans les anciennes versions de Microsoft Excel, il est possible que la boîte de dialogue ne s’ouvre pas. Il faut alors utiliser le menu Données/Convertir.

À NOTER
En application du décret du 28 décembre 2018, le masquage des champs « Code service CH » et « Ref doc » ne permet pas une identification unique des mutations toutefois les champs restent présents dans le fichier source.
3.4 Prise en compte des écarts entre les millésimes

Le décalage entre la date de la mutation et la date de sa publication par le service de publicité foncière engendre des écarts dans les données d’une même année récupérées à des moments différents. Le délai de publication de l’acte en service de publicité foncière est variable (de plusieurs jours à plusieurs mois). Par ailleurs, certaines données des années antérieures étant enrichies, les utilisateurs peuvent récupérer tous les millésimes disponibles à chaque demande (antériorité de 5 ans).

Le fichier récupéré à l’étape 3 sera différent du fichier récupéré à l’étape 1 car :

  • il contiendra en plus toutes les mutations publiées à l’étape 2,
  • certaines mutations en VEFA se verront complétées du bien construit postérieurement à la transaction.

Pour un exemple fictif, lors du téléchargement fichiers DVF en octobre 2018 et en avril 2019.

Année de la mutation Téléchargement octobre 2018 Téléchargement avril 2019 Ecart
2014 61 482 61 486 + 4
2015 69 575 69 579 + 4
2016 75 605 75 632 + 27
2017 81 924 87 821 + 5 897
2018 12 994 56 280 + 43 286
TOTAL 301 580 350 798 + 49 218

Le tableau illustre le nombre de mutations disponibles pour 2 millésimes de téléchargement sur la période 2014-2018. Pour les mutations datées de 2016, 75 632 mutations sont dénombrées dans le fichier téléchargé en avril 2019 contre 76 605 décomptées dans le fichier téléchargé en octobre 2018 soit 27 mutations supplémentaires.

Cette analyse illustre bien l’intérêt de télécharger l’ensemble des millésimes disponibles lors de chaque actualisation sur le site data.gouv.fr.

3.5 Les données DVF sont-elles fiables ?

3.5.1 Une base globalement fiable

Les données DVF sont globalement fiables. Des comparaisons avec d’autres bases ou des vérifications terrain ont permis de constater, de manière générale, une très bonne adéquation de la base avec la réalité.

Les données issues de FIDJI sont très fiables pour les informations présentes dans l’acte et nécessaires à l’établissement de la taxation : référence cadastrale (et non l’adresse), prix (réglé par l’acquéreur), surface Carrez, article CGI.

Concernant les données MAJIC, la fiabilité des surfaces de locaux d’activités, ou encore des types de subdivisions fiscales ou « SUF » (représentant les natures de terrains : prés, sols artificialisés, etc.), n’est pas assurée car ces informations relèvent notamment du régime déclaratif des propriétaires (anciens ou nouveaux). Pour les VEFA, lorsque figure un type de local, c’est que le bien ayant fait l’objet de la transaction existe « physiquement » et qu’il est identifié dans MAJIC.

3.5.2 Précautions d’exploitation

Les utilisateurs ont identifié quelques champs sur lesquels il convient d’être particulièrement vigilant : les natures de mutation, la valeur foncière, le nombre de pièces et la nature de culture.

a. La nature de la mutation

Elle peut prendre plusieurs valeurs : adjudication, échange, expropriation, vente, vente en l’état futur d’achèvement (VEFA) ou vente de terrain à bâtir (TAB).

La nature de mutation est interprétée en fonction du contenu de l’acte, et ne présente pas toujours une précision satisfaisante. Ainsi, une nature de mutation indiquée comme « Vente » peut en réalité concerner une VEFA ou une vente de terrain à bâtir, notamment.

b. La valeur foncière

Les prix indiqués dans la base de données DVF correspondent à tout ce qui est taxable, soit le prix net vendeur. La TVA est incluse. Ce prix n’inclut pas, en revanche, les frais de notaires ou les biens meubles (et frais associés). En matière d’expropriation, le prix indiqué comprend le montant de l’indemnité.

Le prix est indiqué pour chaque disposition mais il reste préférable de s’appuyer sur le montant total de la mutation. En effet, le découpage d’une mutation en plusieurs dispositions peut être théorique (ou fiscalement plus intéressant pour l’acheteur ou pour le vendeur) et la représentativité de cette décomposition du prix global n’est donc pas toujours assurée.

c. Le nombre de pièces principales

Le comptage du nombre de pièces principales correspond au Code de la Construction. Il prend en compte les salons, séjours, salles à manger, chambres, bureaux, salles de jeux, bibliothèques et salles de sport. Dans DVF, ce comptage n’est effectué que pour les maisons et les appartements.

d. Les types de mutations

Par exemple les terrains à bâtir sont définis dans DVF au sens fiscal : la définition des terrains à bâtir retenue à la DGFiP est précisée au 1° du 2 du I de l’article 257 du Code Général des Impôts comme étant les terrains sur lesquels des constructions peuvent être autorisées en application d’un plan local d’urbanisme, d’un autre document d’urbanisme en tenant lieu, d’une carte communale ou de l’article L. 111-12 du code de l’urbanisme. Cette définition juridique a vocation à être confrontée aux situations opérationnelles locales. Ainsi certaines ventes de terrains à bâtir ou en VEFA sont parfois qualifiées dans le fichier DVF en vente.

e. La nature de culture et la nature de culture spéciale

La nature de culture permet d’identifier la nature du sol par exemple des terres, des prés, des vergers, bois, landes, carrières, lacs, étangs, terrains à bâtir, chemins de fer, canaux…

La nature de culture spéciale est une nature de culture isolée du groupe ou du sous-groupe auquel elle se rattache. Elle permet d’identifier par exemple les essences d’arbres, les terrains de camping, les terrains de chasse, parc à huîtres, lavoir, mare…

L’utilisation de ces natures de terrains est tributaire du caractère fiscal de la donnée. D’une part elles restent inadaptées à la typologie des espaces urbains, d’autre part elles ne sont pas corrigées par l’administration lorsque l’impact fiscal d’un changement de nature n’est pas important.

Par ailleurs les natures de culture ne renseignent pas sur la destination des sols à l’issue de la vente (à l’exception des « terrains à bâtir ») : elles caractérisent strictement un état de connaissance au moment de la vente.

En conséquence, l’utilisation des natures de culture est surtout pertinente là où il n’existe pas de Mode d’Occupation des Sols (MOS). Les zonages d’urbanisme constituent également des informations éclairantes sur le devenir des biens.

LE SAVIEZ VOUS ?
Un Mode d’Occupation des Sols (MOS) est une représentation cartographique d’un territoire. Il rend compte avec une grande précision de l’affectation physique et fonctionnelle des sols. Le MOS distingue les espaces agricoles, naturels, forestiers et les différents types d’espaces urbains (habitat, infrastructures, activités économiques, etc.).

3.6 Les données DVF sont-elles exhaustives ?

3.6.1 La base présente-t-elle toutes les mutations ?

La base DVF est réputée exhaustive. La DGFiP a confirmé l’absence de règle de filtration. DVF contient donc toutes les mutations à titre onéreux de biens immeubles :

  • Cela inclut les ventes de nue- propriété/usufruit, les échanges, les expropriations, etc.
  • Cela exclut les successions, les donations, les apports en société et les ventes de parts de SCI.

Néanmoins DVF ne restitue pas les actes (ventes, expropriation, etc.) ayant fait l’objet d’une formalité régularisatrice :

  • attestation rectificative valant reprise pour ordre : à la suite d’une erreur remarquée par le service de publicité foncière dans l’acte, le notaire publie une attestation rectificative pour que l’acte soit publié
  • infirmation de rejet : par suite de l’attestation rectificative établie par le notaire, le rejet est annulé et l’acte est donc publié

3.6.2 Les champs sont-ils tous renseignés intégralement ?

Les utilisateurs constatent que certains champs ne sont pas toujours renseignés (les surfaces bâties ou les natures de culture notamment). Pour certaines mutations, il est normal que ces champs ne soient pas complétés par exemple : la surface de la parcelle pour une vente d’appartement.

On relève deux écueils principaux en matière de complétude : celui des VEFA (vente en l’état futur d’achèvement) déjà renseignées et celles en attente de renseignements, mais aussi celui de l’absence de certains bâtiments publics ou agricoles (lorsqu’ils ne font l’objet d’aucune taxation), ce qui peut revenir à interpréter comme non bâti un terrain pourtant construit dans la réalité.

Par ailleurs, suite au décret du 28 décembre 2018, les champs : code service CH (centre de hypothèques), référence du document, articles CGI (code général des impôts) et identifiant local sont présents dans la base mais non renseignés.

À NOTER
Du fait du manque d’informations de DVF si la base est utilisée seule, certains types de biens comme les terrains à bâtir et les bâtiments d’activités ne peuvent être étudiés.
3.7 Les champs DVF non renseignés : une source d’évolution

Suite au décret du 28 décembre 2018, 8 champs correspondants à 4 informations ne sont pas renseignés dans les fichiers DVF ouverts bien qu’ils soient présents dans les fichiers DVF historiques. Ces champs sont : le code du service de la publicité foncière (code service CH), la référence du document, les articles CGI (code général des impôts) et l’identifiant local.

3.7.1 La référence de publication : un code mutation unique

La référence de publication se compose du code de service de la publicité foncière (code service CH) et de la référence du document. Elle permet de distinguer et d’identifier chacune des mutations. Il s’agit d’un code mutation unique. Sans cet identifiant unique, il n’est pas possible d’organiser les mutations dans une base de données (cf. MCD) et de distinguer une mutation d’une autre.

Par ailleurs, grâce à la référence de publication, il est possible de demander une copie de l’acte (formulaire cerfa 3236-SD). L’administration fiscale met environ une quinzaine de jours pour transmettre le document pour un coût de 15€ (+ 2€ de frais d’expédition par document). Sans cette référence de publication, il est alors nécessaire de faire une demande de renseignements préalable (formulaire cerfa 3233-SD). L’administration fiscale met également une quinzaine de jours pour répondre et transmettre le document pour un coût de minimum de 12€ (+2€ de frais d’expédition par document).

3.7.2 L’identifiant local

Une mutation composée de plusieurs biens bâtis voit les locaux se différencier, outre par leurs caractéristiques, par un identifiant unique appelé identifiant local. Cet identifiant correspond à l’invariant dans la matrice cadastrale (aussi appelé « Majic » ou « Fichiers Fonciers »).

Le local est une notion fiscale du bien immobilier bâti. Le fichier comprend une ligne par numéro (par local) avec en regard la surface réelle correspondante. Il permet donc de distinguer un local d’un autre ce qui est particulièrement important dans des copropriétés où tous les biens sont identiques.

3.7.3 Les articles CGI (Code Général des Impôts)

Les articles CGI constituent une information indispensable pour la DGFiP pour le suivi de la perception des taxes payées par les acquéreurs lors de la publicité foncière des actes de mutations. Chaque article CGI permet ainsi de définir un niveau de taxation en fonction de la qualité de l’acquéreur et de la destination du bien. C’est la raison pour laquelle cette information est particulièrement fiable dans DVF, pour les biens acquis faisant l’objet d’un paiement.

La référence fiscale, qui est renseignée lors de l’encaissement des taxes dues au service de publicité foncière, peut fournir des informations sur la qualité des acteurs (type de vendeur ou d’acquéreur) et la vocation future des biens. Elle permet en outre d’identifier si la TVA est incluse ou pas dans la valeur foncière.

La mention des articles est donc un enjeu majeur dans le cadre des travaux menés pour la compréhension des marchés fonciers tant au niveau des informations qu’elle livre sur les acteurs que sur la fiabilité des études menées.

Par ailleurs, l’accès à l’exhaustivité des articles CGI permettraient de mieux qualifier les mutations.

3.7.4 Les croisements avec d’autres sources de données

Si la donnée DVF renferme une richesse d’informations utiles à l’analyse du fonctionnement des marchés, elle présent quelques faiblesses, en particulier dans la lecture de la destination des biens ou encore dans leur caractérisation fine.

Certaines informations (en bleu), utiles à l’analyse foncière ou immobilière, ne sont donc pas comprises dans la base de données DVF. Il est alors nécessaire de croiser les données DVF avec d’autres sources de données (en orange).

Occupation/location >> Acte authentique
Le caractère occupé ou non du bien vendu n’apparaît pas
Cela permettrait une meilleur évaluation d’un bien

Ancienneté du bâti >> MAJIC
La date de construction du bien n’est pas indiquée
Cela permettrait de distinguer le neuf de l’ancien

Qualité du vendeur et de l’acquéreur >> Publicité foncière
Les types d’acquéreurs et de vendeurs ne sont pas décrits
Les articles CGI permettraient de décrire la qualité des acquéreurs/vendeurs

Zonage et vocation du bien >> PLU numérisé
Le zonage du document d’urbanisme, la vocation des terrains nus (agriculture, loisir, infrastructure, etc.) ou encore la destination du bien bâti (rénovation, changement d’affectation, démolition,…) ne sont pas mentionnés

Parkings, caves, bureau, commerce, etc. >> MAJIC
Ces biens apparaissent dans DVF sous le terme générique “Dépendances” ou “Local industriel et commercial”; ils ne sont pas visibles s’ils ne constituent qu’une fraction d’un local (ex : garage attenant à une maison,…)

Caractéristique des projets >> SITADEL – permis de construire
Les informations contenues dans les permis de construire (Superficie de plancher, maître d’ouvrage, destination, etc.)

L’utilisation des données DVF, et notamment leur croisement avec d’autres sources, nécessite de respecter un cadre légal (voir la fiche 2 du guide).