Pandas Sum-kolonne

Pandas Sum Kolonne



'Denne artikkelen vil demonstrere hvordan du summerer alle eller bestemte kolonner i en Pandas DataFrame ved å bruke Python. DataFrame.sum()-funksjonen vil bli brukt sammen med noen få nyttige parametere i de mange eksemplene i denne opplæringen.'

Når denne opplæringen er over, vet du kanskje hvordan du:







    • Finn summen av datarammekolonnen i Pandas.
    • Legge sammen datarammekolonnene
    • Legg til kolonner til en Pandas-dataramme som oppfyller den angitte betingelsen.
    • Bestem summen etter å ha gruppert dataene til datarammen.

Hvordan bestemme summen av datarammekolonner?

'dataframe.sum()'-funksjonen i Pandas returnerer totalsummen for den angitte aksen. Hvis inngangen er en akse i indeksen, legger funksjonen til hver kolonnes verdier individuelt, og gjør deretter det samme for hver kolonne, og returnerer en serie som lagrer summen av dataene/verdiene i hver kolonne. I tillegg støtter den beregning av datarammens sum ved å ignorere de manglende verdiene.



Syntaks: DataFrame.sum(axis = Ingen, skipna = Ingen, nivå = Ingen, numeric_only = Ingen, min_antall = 0, **kwargs)



Hvor,





akser: {kolonner (1), indeks (0)}

rekkefølge: Ignorer NA/null-verdier ved beregning av resultatet.



nivå: Hvis den angitte aksen er hierarkisk (en multiindeks), teller du til et bestemt indeksnivå før du konverterer til en serie.

numeric_only: Bare float-, int- og boolske kolonner er akseptable. Hvis ingen, prøv å bruke alt; hvis ikke, bare numeriske data. For serier, ikke implementert.

min_count: Antall mulige verdier som kreves for å fullføre operasjonen. Utfallet vil være NA hvis det er færre ikke-NA-verdier til stede enn min_count.

Returnerer: DataFrame (hvis nivå spesifisert) eller serie.

Eksempel # 01: Bestem summen av en datarammekolonne og alle kolonner

Vi har krevd en dataramme først med de gyldige datatypene, dvs. int, float, etc., kolonne eller kolonner som vi kan finne summen av data for. Datarammen vil bli opprettet ved å bruke pd.DataFrame() funksjonen.


Vi har laget den nødvendige datarammen fra en python-ordbok i pd.DataFrame()-funksjonen. I den ovenfor opprettede datarammen er det fire kolonner 'Navn', 'dag1', 'dag2' og 'dag3'. Av fire kolonner er de tre kolonnene, dvs. 'dag1', 'dag2' og 'dag3' numeriske kolonner med dataverdiene (4, 4, 3, 2, 4, 6, 5, 3), (2, 4, 5, 2, 3, 4, 6, 2) og (7, 4, 3, 5, 6, 2, 1, 4). Vi kan bare finne summen for disse tre kolonnene. Summen for både serier (dvs. en kolonne) og en hel dataramme kan bestemmes ved å bruke sum()-metoden. La oss begynne med å lære hvordan du summerer alle dataene i en Pandas-kolonne.


For å bestemme summen brukte vi sum()-metoden i 'day2'-kolonnen. Funksjonen har returnert sumverdien av 28. I likhet med dette kan vi bestemme summen av hver Dataframe-kolonne. Bare å bruke sum()-metoden over hele datarammen vil oppnå dette.


Som det kan sees, er summen av kolonne 'dag1' 31; for «dag2» er sumverdien 28, mens for kolonne «dag3» er sumverdien 32.

Eksempel # 02: Bruk av sum()-funksjonen til å summere datarammekolonneverdiene sammen

Som du kan se fra resultatet fra forrige eksempel, returnerte ikke funksjonen de faktiske datarammekolonnedataene som utgjorde summen. Men ved å tilordne metoden «DataFrame.sum()» til en DataFrame-kolonne, kan du få tilgang til hver kolonne i DataFrame, inkludert sumkolonnen. Først lager vi en annen dataramme for dette eksemplet.


Ved å bruke pd.DataFrame() er vår dataramme opprettet. Vi har laget datarammen med tre kolonner: vare, pris og avgift. Kolonneelementet som inneholder strengverdiene ('penn', 'markør', 'linjal', 'viskelær', 'blyant', 'utklippstavle', 'stiftemaskin', 'stifter'), kolonneprisen som lagrer verdiene (20, 15, 10, 3, 5, 30, 35, 10), og «skatt»-kolonnen består av verdier (8, 5, 3, 3, 4, 10, 5, 2). La oss nå legge sammen verdiene for pris- og avgiftskolonnen og lagre resultatene i en ny kolonne ved å beholde de originale datarammekolonnene.


Som det kan legges merke til sammen med den nye kolonnen 'total', returneres også de opprinnelige kolonnene i den gitte datarammen av funksjonen. Kolonnen 'totalt' lagrer summen av verdiene for kolonnene 'pris' og 'avgift' mot hver 'vare'-data.

Eksempel # 03: Bruk av sum()-funksjonen for å bestemme summen av spesifiserte datarammekolonner

For å summere de flere kolonnene i datarammen sammen, kan vi spesifisere en liste med etikettene til kolonner og deretter bruke sum()-metoden på listen for å finne summen. Som tidligere eksempler, vil vi først lage datarammen.


Vi har laget vår dataramme med fire kolonner «studenter», «marks1», «marks2» og «marks3». Kolonnen 'studenter' lagrer dataene ('Larry', 'James', 'Rob', 'Arya', 'Max', 'Ben', 'Gwen', 'Bill'), og kolonnen 'marks1' som lagrer verdier (8, 9, 6, 8, 10, 7, 9, 9), mens kolonnene 'marks2' og 'marks3' lagrer de numeriske verdiene (6, 6, 8, 6, 7, 9, 10, 9 ) og (7, 6, 9, 7, 8, 7, 10, 10).


Først har vi laget et listeobjekt med kolonneetiketter «studenter», «marks1» og «marks3». Deretter brukes sum()-metoden på listen. Funksjonen har oppsummert verdiene til kolonnene merker1 og merker3 bare fordi kolonnen 'studenter' er ikke-numerisk, så sum()-funksjonen kan ikke finne summen for verdiene til kolonnen 'studenter'. Vi har lagret summen av verdiene for kolonnene 'marks1' og 'marks3' i kolonnen 'sum'.

Eksempel # 04: Legg til kolonner med Pandas dataramme som tilfredsstiller en spesifisert betingelse

I dette eksemplet vil vi legge til verdiene til spesifiserte kolonner hvis de oppfyller den angitte betingelsen.


Det er 5 kolonner i den nyopprettede datarammen, dvs. 'selskap', 'uke1_salg', 'uke2_salg', 'uke3_salg' og 'grener'. La oss nå anta at vi ikke vil legge til verdien til den siste kolonnen når vi legger til eller finner summen av verdiene til de gitte datarammeradene. La oss si at vi bare ville legge til kolonneverdiene med ordet 'uke' i etikettene. En listeforståelse kan opprettes for å avgjøre om ordet 'uke' er til stede i en kolonneetikett eller ikke.


Nå har vi hentet kolonnene med ordet 'uke' i etikettene. Vi kan oppsummere kolonnene som inneholder ordet 'uke' ved å bruke argumentet axis=1 i sum()-funksjonen.


På denne måten kan vi trygt summere data på tvers av kolonner radvis uten å inkludere noen kolonner vi ikke ønsker.

Eksempel # 5: Bestem summen etter gruppering av dataene til datarammen

Vi kan også finne summen av datarammekolonner etter å ha gruppert dataene til en eller flere kolonner. groupby()-metoden vil bli brukt til å gruppere dataene i kategorier inne i kolonnen. La oss lage en dataramme slik at vi kan gruppere dataene til en av kolonnene.


Nå vil vi gruppere dataene i kolonnen 'alder' og summere verdiene til kolonnene 'score1' og 'score2' for hver kategori i gruppen.


Vi kan se at oppsummering av dataene i datarammen etter først å ha gruppert dataverdiene etter alder resulterer i en kolonnevis sum avhengig av aldersgrupperingene.

Konklusjon

I denne opplæringen prøvde vi å lære deg hvordan du beregner summen på tvers av datarammer ved å bruke Pandas summetoden. Vi har diskutert rad- og kolonnevise tillegg av verdier i eksemplene i dette innlegget. I tillegg lærte du hvordan du legger til kolonner betinget og hvordan du summerer verdiene etter å ha gruppert kolonnen i datarammen. Nå kan du kanskje summere kolonnene i datarammen sammen eller summere verdiene i datarammekolonnen selv.