Koudink
Dalsi
Seznam
Predchozi
Autor: Tuttle (...) on 'Koudink'
Cas: Ut 13.1.2015 21:59.42
Titulek: Re: Linux tip: Odstraneni duplicitnich radku se zachovanim

                                                                                 
Spravce by mel vedet, co muze zpracovavat pri jakych zdrojich.
sort ma switch na kompresi docasnych souboru volitelnym kompresorem.
sort se muze tezko pripravit predem, cte-li ze streamu. Dela co jde.
Jak jsem psal, nevim, jestli awk /tmp pouziva nebo ne.
Na velkych datech je vzdy lepsi udelat nejdriv test a pozorovat zdroje.
 
T.
 
> Ono swapovat velikansky texty do /tmp, zejmena na mlaych virtualech, taky 
> nemusi mit uplne skvele vysledky (mensi /tmp mapovany do ramfs se zaplni 
> velmi rychle a snadno)... a treba takovej sort si neumi predem ohlidat, zda 
> se mu to do toho /tmp vejde, protoze nikdo pred 30ti lety necekal, jak 
> obludne velky soubory by nekdo mohl mit ten "genialni" napad sortovat. Mozna
> proto awk /tmp nepouziva...? 
> 
> > 
> > Nekdy chceme zrusit duplikaty, ale nechceme sortit. Premyslel jsem, jak to
> 
> > udelat a ono existuje neskutecne jednoduche reseni...
> > 
> > awk ' !x[$0]++'
> > 
> > Mozna by se to nemelo prehnat s velikosti vstupu, awk mozna neumi
> "swapowat"
> > 
> > do /tmp jako sort... :-)
> > 
> > Enjoy!
> > 
> > Zdroj: 
> >
> http://stackoverflow.com/questions/11532157/unix-removing-duplicate-lines-wito
> 
> > ho
> > ut-sorting
> >  
> >  
> CePal

Dalsi Seznam Predchozi


[ Domu | Prstik | O Piskovisti | Deticky | Nastenky | Koutky ]