De eerste fase van de data wasstraat is het normaliseren van het databestand. Om een bestandsopschoning uit te voeren, moeten klantgegevens correct in de kolommen worden geplaatst. Regelmatig worden klantgegevens fout ingevoerd en/of databases worden verkeerd samengevoegd. Het gevolg is dat klantgegevens in de verkeerde kolommen worden geplaatst. Straatnamen worden bij steden gezet, steden bij landen enzovoort.
In deze fase wordt met behulp van een programma de ingevoerde namen, adressen en plaatnamen e.d. in de juiste kolommen gezet.
Voorbeeld klantgegevens in verkeerde en vervolgens juiste kolommen.
Hieronder volgt een voorbeeld van een databestand met klantgegevens die in verkeerde kolommen zijn geplaatst.
Naam 1 | Naam 2 | Adres | Adres 2 | Postcode / Zip Code | Plaats | Land |
ING | Maristraat 49 | | 3511 LN | Utrecht | Nederland | |
Frank | de | Vries | | Laanweg 2 | Utrecht | Nederland |
Sir William | Smith | Long Beach drive | Third Road | | Detroit / USA | |
Ford Motors | | Highway 1 | Empire buiding 3 | USA | Detroit | 453457 |
Tabel 1: Situatie vóór deze stap. De gegevens in het rood zijn verkeerd geplaatst.
Naam 1 | Naam 2 | Adres | Adres 2 | Postcode / Zip Code | Plaats | Land |
ING | | Maristraat 49 | | 3511 LN | Utrecht | Nederland |
Frank | de Vries | Laanweg 2 | | | Utrecht | Nederland |
Sir William | Smith | Long Beach drive | Third Road | | Detroit | USA |
Ford Motors | | Highway 1 | Empire buiding 3 | 453457 | Detroit | USA |
Tabel 2: Situatie ná deze stap. Voorbeelden bij het detecteren van dubbelen