AWS Glue is een volledig beheerde ETL-service (extraheren, transformeren en laden) die het eenvoudig en kosteneffectief maakt om uw gegevens te categoriseren, op te schonen, te verrijken en betrouwbaar te verplaatsen tussen verschillende datastores en datastromen. AWS Glue bestaat uit een centrale opslagplaats voor metagegevens die bekend staat als de AWS Glue Data Catalog, een ETL-engine die automatisch Python- of Scala-code genereert, en een flexibele planner die afhankelijkheidsresolutie, taakbewaking en nieuwe pogingen afhandelt. AWS Glue is serverloos, dus er is geen infrastructuur om op te zetten of te beheren.
AWS Glue is ontworpen om te werken met semi-gestructureerde gegevens. Het introduceert een component genaamd een dynamisch frame, dat u kunt gebruiken in uw ETL-scripts. Een dynamisch frame is vergelijkbaar met een Apache Spark-dataframe, een data-abstractie die wordt gebruikt om gegevens in rijen en kolommen te ordenen, behalve dat elk record zichzelf beschrijft, dus er is aanvankelijk geen schema vereist. Met dynamische frames krijgt u schemaflexibiliteit en een reeks geavanceerde transformaties die speciaal zijn ontworpen voor dynamische frames. U kunt omzetten tussen dynamische frames en Spark-dataframes, zodat u kunt profiteren van zowel AWS Glue- als Spark-transformaties om de soorten analyse uit te voeren die u wilt.
U kunt de AWS Glue-console gebruiken om gegevens te ontdekken, deze te transformeren en beschikbaar te maken voor zoeken en doorzoeken. De console roept de onderliggende services aan om het werk te orkestreren dat nodig is om uw gegevens te transformeren. U kunt ook de AWS Glue API-bewerkingen gebruiken om te communiceren met AWS Glue-services. Bewerk, foutopsporing en test uw Python- of Scala Apache Spark ETL-code met behulp van een vertrouwde ontwikkelomgeving.