Datamining is het proces van het analyseren van verborgen datapatronen volgens verschillende perspectieven voor categorisatie in nuttige informatie, die wordt verzameld en geassembleerd in gemeenschappelijke gebieden, zoals data warehouses, voor efficiënte analyse, datamining-algoritmen, het vergemakkelijken van zakelijke besluitvorming en andere informatie vereisten om uiteindelijk kosten te besparen en inkomsten te verhogen.
Datamining wordt ook wel data- en kennisontdekking genoemd.
De belangrijkste stappen in een dataminingproces zijn:
De eerste stap in datamining is het verzamelen van relevante gegevens die van cruciaal belang zijn voor het bedrijfsleven. Bedrijfsgegevens zijn transactionele, niet-operationele of metadata. Transactionele gegevens hebben betrekking op dagelijkse activiteiten zoals verkoop, voorraad en kosten, enz. Niet-operationele gegevens worden normaal voorspeld, terwijl metagegevens betrekking hebben op logisch databaseontwerp. Patronen en relaties tussen gegevenselementen leveren relevante informatie op, wat de omzet van de organisatie kan verhogen. Organisaties met een sterke focus op de consument houden zich bezig met dataminingtechnieken die een duidelijk beeld geven van verkochte producten, prijs, concurrentie en klantdemografie.
De retailgigant Wal-Mart verzendt bijvoorbeeld alle relevante informatie naar een datawarehouse met terabytes aan gegevens. Deze gegevens zijn gemakkelijk toegankelijk voor leveranciers, zodat zij kooppatronen van klanten kunnen identificeren. Ze kunnen patronen genereren over winkelgewoonten, de meeste winkeldagen, de meest gezochte producten en andere gegevens met behulp van dataminingtechnieken.
De tweede stap in datamining is het selecteren van een geschikt algoritme - een mechanisme dat een datamining-model produceert. De algemene werking van het algoritme omvat het identificeren van trends in een set gegevens en het gebruik van de output voor parameterdefinitie. De meest populaire algoritmen die worden gebruikt voor datamining zijn classificatie-algoritmen en regressie-algoritmen, die worden gebruikt om relaties tussen gegevenselementen te identificeren. Grote databaseleveranciers zoals Oracle en SQL bevatten datamining-algoritmen, zoals clustering en regressie, om aan de vraag naar datamining te voldoen.