Hvorfor er prosessor “ bedre ” for koding enn GPU?

Question

Jeg leste denne artikkelen og jeg så at en CPU er bedre for videokomprimering enn en GPU.

Artikkelen sier bare at det skjer fordi prosessoren kan håndtere mer komplekse algoritmer enn GPU, men jeg vil ha en mer teknisk forklaring, jeg søkte litt på internett, men jeg gjorde ikke finne noe.

Så, noen som vet å forklare eller koble et nettsted til jeg hadde en dypere forklaring på dette?

Answer 1

2017-oppdatering:

ffmpeg støtter h264 og h265 NVENC GPU-akselerert videokoding . Du kan gjøre 1-pass eller 2-pass koding i den kvaliteten du velger, for enten hevc_nvenc eller h264_nvenc, eller til og med med en GPU på inngangsnivå er det mye raskere enn ikke-akselerert koding og Intel Quick Sync-akselerert koding.

Koding med 2 pass av høy kvalitet:

ffmpeg -i in.mp4 -vcodec h264_nvenc -preset slow out.mp4

Standardkoding for 1-pass:

ffmpeg -i in.mp4 -vcodec h264_nvenc out.mp4

NVENC ffmpeg hjelp og alternativer:

ffmpeg -h encoder=nvenc

Bruk den, den er mye raskere enn CPU-koding.

Hvis du ikke har en GPU, kan du bruke Intel Quick Sync-kodek, h264_qsv, hevc_qsv eller mpeg2_qsv, som også er mye raskere enn ikke-akselerert koding.

Kommentarer

Bruk den hvis du verdsetter hastighet (og lav CPU-bruk) over kvalitet per filstørrelse. I noen brukstilfeller, f.eks. streaming til twitch, at ‘ er det du vil ha (spesielt lav CPU-bruk). I andre, f.eks. Kode en gang for å lage en fil som vil bli streamet / sett mange ganger, er du fortsatt ikke t kommer til å slå -c:v libx264 -preset slower (som ikke er så treg, som nær sanntid i 1920x1080p24 på en Skylake i7-6700k.)
Å bruke ffmpeg med -vcodec h264_qsv på min gamle Intel-bærbare PC med Intel HD Grpahics 4000 gjorde gjengivelsen mye raskere!

Answer 2

Å utdype litt videre om hva Peter sier, generelt bruker flere prosessorer i tilfeller der du har flere uavhengige oppgaver som alle må gjøres, men har ikke avhengighet av hverandre, eller en oppgave der du utfører samme matematikk på enorme datamengder.

Hvis du derimot må utdataene til beregning A som inngang til beregning B, og utdata fra beregning B som inngang til beregning C, så kan du ikke øke hastigheten ved å ha en annen kjernearbeid på hver oppgave (A, B eller C) fordi man ikke kan «t start til den andre er ferdig.

Men selv i ovennevnte tilfelle kan du kanskje t o parallellisere det på en annen måte. Hvis du kan dele inndataene dine i biter, kan det hende du har ett kjernearbeid med å gjøre A, deretter B, deretter C med en del data, mens en annen kjerne jobber med å gjøre A, deretter B, deretter C på en annen del data .

Det er også andre hensyn. Kanskje du kan finne en måte å parallellisere beregningene på, men bare å lese dataene fra disken, eller over nettverket, eller sende dem til GPU vil ta lengre tid enn å gjøre beregningene. I så fall er det ikke fornuftig å parallellisere det, fordi det bare tar lenger tid å spare data ved å gjøre beregningen parallelt.

Med andre ord, det er like mye en kunst som det er en vitenskap.

Kommentarer

Åh, ja x264 parallelliserer ganske bra på flerkjerners CPUer. Jeg skalerer nesten lineært opp til minst 8 kjerner, og anstendig til og med utover 32. Bevegelsesestimering kan gjøres parallelt, og etterlater bare det nødvendigvis serielle arbeidet for en annen tråd og lignende triks.
Spørsmålet er ikke ‘ t parallellisme generelt, spesielt ‘ GPUer. De ‘ er mye mer restriktive i koden du kan få dem til å kjøre enn CPUer. Jeg tror det ‘ s fordi du kan ‘ t ha kode med grener som går forskjellige veier på forskjellige blokker av bildet. Jeg forstår ikke ‘ hvorfor, men jeg tror det ‘ er noe sånt. Hver strømprosessor er så enkel, og med så begrensede måter å få den til å kjøre uavhengig av de andre, at enten må du alltid vente på at den tregeste er ferdig, eller så er du i det hele tatt begrenset i forgrening, eller begge deler.
Hvis du hadde en klynge datamaskiner (CPUer med uavhengig RAM som ikke ‘ ikke konkurrerer med hverandre om minnebåndbredde og CPU-cache), ‘ d bryter inngangsvideoen din inn i GOP-er, og sender deler av den fortsatt komprimerte inngangsvideoen som skal dekodes og komprimeres på andre maskiner i klyngen.Så bare komprimert inngangs- eller utgangsvideo må overføres. Én et flerkjernet delt cache / RAM-system som til og med en multisocket x86-arbeidsstasjon, og du har flere tråder som fungerer på de samme bildene samtidig. (betyr også at du ikke ‘ ikke trenger ny kode for å utføre global ratekontroll for segmentering av koder.)

Hvorfor er prosessor “ bedre ” for koding enn GPU?

Svar

For å svare på det faktiske spørsmålet ditt:

Svar

Kommentarer

Svar

Kommentarer

Legg igjen en kommentar Avbryt svar