Gegevensanalyse is een proces van het inspecteren, opschonen, transformeren en modelleren van gegevens met als doel nuttige informatie te ontdekken, conclusies te trekken en besluitvorming te ondersteunen. Gegevensanalyse heeft meerdere facetten en benaderingen, omvat diverse technieken onder verschillende namen, en wordt gebruikt in verschillende bedrijfs-, wetenschaps- en sociale-wetenschappelijke domeinen. In de zakenwereld van vandaag speelt data-analyse een rol bij het nemen van meer wetenschappelijke beslissingen en bij het helpen van bedrijven om effectiever te opereren.
Datamining is een specifieke data-analysetechniek die zich richt op statistische modellering en kennisontdekking voor voorspellende in plaats van puur beschrijvende doeleinden, terwijl business intelligence betrekking heeft op data-analyse die sterk afhankelijk is van aggregatie en zich voornamelijk richt op bedrijfsinformatie. [2] In statistische toepassingen kan data-analyse worden onderverdeeld in beschrijvende statistieken, verkennende data-analyse (EDA) en confirmatieve data-analyse (CDA). EDA richt zich op het ontdekken van nieuwe kenmerken in de gegevens, terwijl CDA zich richt op het bevestigen of vervalsen van bestaande hypothesen. Voorspellende analyse richt zich op de toepassing van statistische modellen voor voorspellende prognoses of classificatie, terwijl tekstanalyse statistische, linguïstische en structurele technieken toepast om informatie te extraheren en classificeren uit tekstuele bronnen, een soort ongestructureerde gegevens. Al het bovenstaande zijn varianten van gegevensanalyse.