Hvordan lage en crawler for å hente data fra S3 Bucket?

Hvordan Lage En Crawler For A Hente Data Fra S3 Bucket



AWS Glue brukes til å oppdage data, integrere data, gjennomsøke data og lage en katalog med data på skyen. Brukeren kan opprette en crawler fra AWS Glue som vil gjennomsøke data fra den gitte kilden og deretter lagre dem i datakatalogen for å få informasjon. Brukeren trenger bare å kjøre søkeroboten og alt annet vil bli utført av søkeroboten i løpet av noen få øyeblikk.

Denne veiledningen vil forklare hvordan du oppretter crawlere for å hente data fra S3-bøtten.

Hvordan lage crawler for å hente data fra S3 Bucket?

For å opprette en crawler i AWS, gå til ' AWS lim ' tjeneste fra Amazon-dashbordet:









Klikk på ' Databaser ”-knappen fra Datakatalog-delen for å opprette en database:







Klikk på ' Legg til database '-knappen for å starte konfigurasjonen:



Skriv inn navnet på databasen og la alt være som det er valgfritt før du klikker på ' Opprett database ”-knapp:

Databasen er opprettet:

Etter det går du bare til ' Crawlere ”-siden ved å klikke på den fra venstre panel:

Klikk på ' Opprett crawler ”-knapp:

Skriv inn navnet på søkeroboten og klikk på ' Neste ”-knapp:

Klikk på ' Legg til en datakilde '-knappen for å velge kilden til dataene:

For å sjekke banen hvor dataene er lagret, besøk S3-tjenesten:

Gå inn i S3-bøtten der dataene lastes opp. Brukeren kan skape en bøtte og laste opp data på den fra AWS S3-dashbordet:

Klikk på ' Bla gjennom S3 '-knappen for å velge banen til dataene:

Velg mappen som inneholder dataene, og klikk deretter på ' Velge ”-knapp:

S3-banen er valgt, klikk nå på ' Legg til en S3-datakilde ”-knapp:

Når datakilden er lagt til, klikker du bare på ' Neste ”-knapp:

Legg til IAM-rollen og klikk deretter på ' Neste ”-knapp:

Skriv inn måldatabasen som ble opprettet tidligere, og skriv deretter inn navnet på tabellen:

Velg On demand-planen for søkeroboten og klikk på ' Neste ”-knapp:

Se gjennom søkeroboten og klikk på ' Opprett crawler ”-knapp:

Søkeroboten har blitt opprettet, klikk på ' Løpe '-knappen etter å ha valgt den:

Det vil ta noen øyeblikk å kjøre søkeroboten, og den vil hente data og lage en tabell for å lagre dataene:

Gå inn i ' Tabeller ”-side fra Glue-dashbordet:

Velg tabellen ved å klikke på navnet:

Historiedetaljene har blitt vist som inneholder metadataene til de hentede dataene:

Rull ned på siden og velg delen for å se tabellen som inneholder dataene:

Det handler om å lage en crawler for å hente data fra S3-bøtten.

Konklusjon

For å lage en crawler for å hente data fra S3-bøtten, opprette en database på AWS Glue der de crawlede dataene vil bli lagret. Konfigurer søkeroboten fra Glue-dashbordet ved å oppgi datakilden (S3-bøtte) og måldatabasen. Kjør søkeroboten og hent dataene fra S3-bøtten til databasetabellen, slik denne veiledningen har forklart grundig.