Datamining

Het proces:

Bij een datamining-exercitie kunnen meestal een aantal stappen worden onderscheiden. Een dataminingproces is echter elke keer verschillende omdat het erg afhangt waarvoor datamining wordt toegepast en het een iteratief proces is. Stappen kunnen dus worden herhaald, wat vaak gebeurt door bijvoorbeeld meerdere technieken op de dataset los te laten, of er moet worden teruggegaan naar de eerdere stap. Gedurende het hele proces is het belangrijk goed vast te leggen wat er wordt gedaan; dit voorkomt dat een itererende stap werk wordt herhaald. Grofweg kunnen de volgende stappen worden onderscheiden:

1. Opstart fase.

Volgens experts werkt datamining het beste als er een specifiek probleem is dat moet worden opgelost. Voordat er aan de werkelijk dataming-exercitie begonnen wordt, is het raadzaam een projectplan op te stellen waarin een omschrijving van het probleem, een kosten/baten-analyse, de doelen en de successcriteria zijn opgenomen.

2. Gegevensorientatie.

Deze fase behelst het selecteren van de data om het probleem op te kunnen lossen, het verkennen van de data om er een 'gevoel' voor te krijgen en het beschrijven van de data.

3. Gegevenspreparatie.

Nadat de juiste gegevens zijn geselecteerd, moeten ze worden geprepareerd voor de werkelijke analyse. De gegevens moeten worden opgeschoond, omdat er altijd waarden ontbreken en er fouten inzitten. Hier kunnen dan bijvoorbeeld gemiddelden voor worden ingevuld, of men kan besluiten de waarde niet in beschouwing te nemen. Ook moeten de gegevens in de juiste vorm in een tabel worden gegoten en moeten er vaak transformaties op de tabel plaatvinden. Deze zijn nodig om extra informatie toe te voegen, zoals ratio's en sommaties (bijvoorbeeld per klant) en om eventueel de distributie van de attributen te veranderen.

4. Modelleringsfase.

In deze stap wordt het algoritme op de gegevensset losgelaten. Vaak wordt in het tool, dat ook van hulp kan zijn in de vorige fase, een techniek geselecteerd, waarna een aantal parameters moet worden ingesteld en de tabel kan worden gemined. Het is aan te raden eerst de set op te delen en te testen op een deelverzameling, zodat een indicatie kan worden verkregen wat goede modellen zouden kunnen zijn. Dez kunnen dan op de hele database worden losgelaten. Volgens de statistiek moeten de gegevens vervolgens worden verdeeld in een trainingset en een testset. Op de trainingset wordt het model 'getraind' en met de testset kan vervolgens worden gekeken of het model werkt. Classificeert het model bijvoorbeeld een record uit de testset in de juiste categorie? Zo ja, dan werkt het waarschijnlijk ook op een 'nieuw' record.

 

5. Evaluatiefase.

Hier moet worden afgevraagd of het vereiste doel behaald is en of herhalingen nodig zijn. Nuttig is een document op te stellen met een beschrijving van het verloop van het proces. Wat is er waar fout gegaan?

6. Actiefase.

Voor de gevonden resultaaten moet een stategie worden bepaald. Er moet gezorgd worden dat de informatie bij de juiste personen terechtkomt en dat acties worden genomen om het probleem op te lossen. 

(Bron: KM 2000, nummer 3)

DM Produkten:

Enterprise Miner van SAS Software

Clementine van SPSS

MineSet van Silicon Graphics

Intelligent Miner vanIBM

Verschillende verticale oplossingen van HNC Software

Knowledgeseeker van Angoss

DataDetective van Sentient Machine Research (nl)

DataSurveyor van Data Distilleries (nl)

Retail Decision Suite van Accrue NeoVista

Meer informatie...

SIGKDD - Special Interest Group on Knowledge Discovery in Data and Datamining.

Kdnuggets - Voor alles wat met datamining te maken heeft, inclusief nieuwsbrief.

The DataMine - Informatie over research.

Texis - Artikel over datamining en privacy Almaden - Index artikelen IBM Almaden institute.

CRISP-DM - Informatie over CRISP-DM standaard.

HILLOL - Technische artikelen over datamining.

Megaputer - COM and OLE in Datamining: Perspectives benefits and implementations, Yuri Slenko en Sergie Ananyan, 1997