Rekursiv grep vs find / -type f -exec grep {} \; Hvilken er mer effektiv / raskere?

Question

Hva er mer effektivt for å finne hvilke filer i et helt filsystem som inneholder en streng: rekursiv grep eller finne med grep i en exec-uttalelse? Jeg antar at finn ville være mer effektivt fordi du i det minste kan gjøre noe filtrering hvis du kjenner filtypen eller en regex som samsvarer med filnavnet, men når du bare vet -type f som er bedre ? GNU grep 2.6.3; finn (GNU findutils) 4.4.2

Eksempel:

grep -r -i "the brown dog" /

find / -type f -exec grep -i "the brown dog" {} \;

Kommentarer

Matematikk / informatikk / algoritmeeffektivitet ‘ t mening basert.
Sjekk denne. Selv om det ikke er rekursivt, vil det gi en forståelse av hva som er bedre. unix.stackexchange.com/questions/47983/…
@AvinashRaj he ‘ ber ikke om mening. Han ‘ ‘ spør hva som er mer effektiv og / eller raskere , ikke hvilken som er » bedre «. Dette er et perfekt svarbart spørsmål som har et enkelt, spesifikt svar som avhenger av hvordan disse to programmene gjør jobben sin, og hva du gir dem til å søke gjennom.
Merk at -exec {} + -form vil gjøre færre gafler, så det bør være raskere enn -exec {} \;. Du må kanskje legge til -H (eller -h) i grep -alternativene ekvivalent utgang.
Du ønsket sannsynligvis ikke ‘ t -r alternativet på grep for den andre

Answer 1

Jeg er ikke sikker:

grep -r -i "the brown dog" /*

er egentlig det du mente. Det vil bety grep rekursivt i alle ikke-skjulte filer og dirs i / (men se fremdeles inne i skjulte filer og dirs inne i disse).

Forutsatt at du mente:

grep -r -i "the brown dog" /

Noen ting å merke seg:

Ikke alle grep implementeringer støtter -r. Og blant de som gjør det, er atferdene forskjellige: noen følger symlenker til kataloger når du krysser katalogtreet (som betyr at du kan ende opp med å se se noen ganger i samme fil eller til og med kjøres i uendelige løkker), vil noen ikke. Noen vil se på enhetsfiler (og det vil ta ganske lang tid i /dev/zero for eksempel) eller rør eller binære filer …, noen vil ikke.
Det er effektivt da grep begynner å lete i filer så snart den oppdager dem. Men mens den ser i en fil, ser den ikke lenger etter flere filer å søke i (som er sannsynligvis like bra i de fleste tilfeller)

Din:

find / -type f -exec grep -i "the brown dog" {} \;

(fjernet -r som ikke ga mening her) er veldig ineffektivt fordi du kjører en grep per fil. ; skal bare brukes til kommandoer som bare godtar ett argument. Dessuten, fordi grep bare ser i en fil, vil den ikke skrive ut filnavnet, så du vet ikke hvor kampene er.

Du » ser ikke på enhetsfiler, rør, symlenker …, du følger ikke symlenker, men du ser fremdeles potensielt på ting som /proc/mem.

find / -type f -exec grep -i "the brown dog" {} +

ville vært mye bedre fordi så få grep kommandoer som mulig ville kjøres. Du får filnavnet med mindre den siste kjøringen bare har én fil. For det er det bedre å bruke:

find / -type f -exec grep -i "the brown dog" /dev/null {} +

eller med GNU grep:

find / -type f -exec grep -Hi "the brown dog" {} +

Merk at grep ikke startes før find har funnet nok filer til at den kan tygge på, så det vil være noen innledende forsinkelse. Og find vil ikke fortsette å søke etter flere filer før forrige grep har returnert. Tildeling og overføring av den store fillisten har noen (sannsynligvis ubetydelig) innvirkning, så alt i alt vil det sannsynligvis være mindre effektivt enn en grep -r som ikke følger symlink eller ser ut inne i enheter.

Med GNU-verktøy:

find / -type f -print0 | xargs -r0 grep -Hi "the brown dog"

Som ovenfor, så få grep tilfeller som mulig vil kjøres, men find vil fortsette å lete etter flere filer mens den første grep påkallingen ser i den første batchen. Det kan eller ikke kan være en fordel skjønt.For eksempel, med data lagret på rotasjonsharddisker, vil find og grep få tilgang til data som er lagret på forskjellige steder på disken, tregere disken gjennomstrømning ved å få diskhodet til å bevege seg konstant. I et RAID-oppsett (der find og grep kan få tilgang til forskjellige disker) eller på SSD-er, kan det gjøre en positiv forskjell.

I et RAID-oppsett kan det også forbedre ting å kjøre flere samtidige grep. Fortsatt med GNU-verktøy på RAID1-lagring med 3 disker, kan

find / -type f -print0 | xargs -r0 -P2 grep -Hi "the brown dog"

øke ytelsen betydelig. Vær imidlertid oppmerksom på at den andre grep bare vil startes når det er funnet nok filer til å fylle opp den første grep -kommandoen. Du kan legge til et -n -alternativ til xargs for at det skal skje raskere (og sende færre filer per grep påkallelse).

Vær også oppmerksom på at hvis du omdirigerer xargs -utdata til alt annet enn en terminalenhet, så greps begynner å buffere utdataene sine, noe som betyr at utdataene til de grep er sannsynligvis blir sammenflettet feil. Du må bruke stdbuf -oL (der det er tilgjengelig som på GNU eller FreeBSD) på dem for å omgå det (du kan fremdeles ha problemer med veldig lange linjer (vanligvis> 4KiB)) eller få hver til å skrive utdataene i en egen fil og sammenkoble dem alle til slutt.

Her er strengen du leter etter, løst (ikke en regexp), så bruk av alternativet -F kan gjøre en forskjell (usannsynlig som grep implementeringer vet hvordan du kan optimalisere det allerede).

En annen ting som kan For å gjøre en stor forskjell er å feste lokaliteten til C hvis du er i et multibyte-språk:

find / -type f -print0 | LC_ALL=C xargs -r0 -P2 grep -Hi "the brown dog"

For å unngå å se på innsiden /proc, /sys …, bruk -xdev og spesifiser filsystemene du vil søke i:

LC_ALL=C find / /home -xdev -type f -exec grep -i "the brown dog" /dev/null {} +

Eller beskjær stiene du vil ekskludere eksplisitt:

LC_ALL=C find / \( -path /dev -o -path /proc -o -path /sys \) -prune -o \ -type f -exec grep -i "the brown dog" /dev/null {} +

Kommentarer

Jeg ‘ t antar at noen kan peke meg på en ressurs – eller forklare – hva {} og + betyr. Det ‘ er ingenting jeg kan se på mansidene for exec, grep eller finner i Solaris-boksen jeg ‘ bruker. Er det bare skallet som sammenkobler filnavn og sender dem til grep?
@Poldie, at ‘ er tydelig forklart i beskrivelsen av -exec predikat i Solaris-mansiden
Ah, ja. Jeg slapp ‘ mens jeg søkte på mannssiden. Linken din er bedre; Jeg synes man-sider er forferdelig å lese.
RAID1 m / 3 disker? Så rart …
@tink, ja RAID1 er på to eller flere disker. Med 3 disker sammenlignet med 2 disker øker du redundansen og leser ytelsen mens skriveytelsen er omtrent den samme. Med 3 disker i motsetning til 2, betyr det at du også kan rette feil, som når du snur litt på en av kopiene, kan du ‘ fortelle hva som er riktig ved å sjekke alt 3 eksemplarer, mens du med to disker kan du ‘ ikke virkelig fortelle.

Answer 2

Hvis du er på en SSD og søker tid er ubetydelig, kan du bruke GNU parallelt:

find /path -type f | parallel --gnu --workdir "$PWD" -j 8 " grep -i -r "the brown dog" {} "

Dette vil utføre opptil 8 grep-prosesser samtidig basert på hva find funnet.

Dette vil kaste en harddisk, men en SSD skal takle den ganske bra.

Answer 3

En ting til å vurdere på denne er som følger.

Vil noen av katalogene som grep må rekursivt gjennomgå, inneholde mer filer enn systemets nofile innstilling? (f.eks. antall åpne filhåndtak, standard er 1024 på de fleste linux-distroer)

I så fall er finn absolutt veien å gå siden visse versjoner av grep vil bombe ut med en Argumentlisten for lang feil når den treffer en katalog med flere filer enn den maksimale åpne filen håndterer innstillingen.

Bare min 2 ￠.

Kommentarer

Hvorfor ville grep bombe ut? I det minste med GNU grep hvis du gir en sti med etterfølgende / og bruker -R det ‘ Jeg vil bare gjenta gjennom katalogene. skallet er ikke ‘ vil ikke utvide noe med mindre du gir shell-globs. Så i det gitte eksemplet (/*) er det bare innholdet i / som betyr noe, ikke av undermappene som ganske enkelt blir oppregnet av grep, ikke sendt som argument fra skallet.
Vel, med tanke på at OP spurte om å søke rekursivt (f.eks. » grep -r -i ‘ den brune hunden ‘ / * «), har jeg sett GNU ‘ s grep (minst versjon 2.9) bomber ut med: » -bash: / bin / grep: Argumentlisten er for lang » ved å bruke det eksakte søket som OP brukte i en katalog som hadde over 140 000 underkataloger.

Rekursiv grep vs find / -type f -exec grep {} \; Hvilken er mer effektiv / raskere?

Kommentarer

Svar

Kommentarer

Svar

Kommentarer

Svar

Svar

Kommentarer

Legg igjen en kommentar Avbryt svar