Apache Spark is snel, flexibel en ontwikkelaarsvriendelijk en het toonaangevende platform voor grootschalige SQL, batchverwerking, streamverwerking en machine learning.
Apache Spark is een raamwerk voor gegevensverwerking dat snel verwerkingstaken kan uitvoeren op zeer grote gegevenssets, en dat ook gegevensverwerkingstaken kan verdelen over meerdere computers, afzonderlijk of in combinatie met andere gedistribueerde computertools. Deze twee kwaliteiten zijn de sleutel tot de werelden van big data en machine learning, waarvoor enorme rekenkracht nodig is om door grote datastores te kraken. Spark neemt ook een deel van de programmeerlast van deze taken uit de schouders van ontwikkelaars met een gebruiksvriendelijke API die veel van het zware werk van gedistribueerd computergebruik en big data-verwerking wegneemt.
Vanaf het bescheiden begin in het AMPLab bij U.C. Berkeley in 2009, is Apache Spark een van de belangrijkste frameworks voor gedistribueerde verwerking van big data ter wereld geworden. Spark kan op verschillende manieren worden ingezet, biedt native bindingen voor de programmeertalen Java, Scala, Python en R en ondersteunt SQL, streaming data, machine learning en grafiekverwerking. Het wordt gebruikt door banken, telecommunicatiebedrijven, gamebedrijven, overheden en alle grote technische giganten zoals Apple, Facebook, IBM en Microsoft.