Koudink
Dalsi
Seznam
Predchozi
Autor: Tuttle (...) on 'Koudink'
Cas: Ut 13.1.2015 21:59.42
Titulek: Re: Linux tip: Odstraneni duplicitnich radku se zachovanim

                                                                                 
Spravce by mel vedet, co muze zpracovavat pri jakych zdrojich.
sort ma switch na kompresi docasnych souboru volitelnym kompresorem.
sort se muze tezko pripravit predem, cte-li ze streamu. Dela co jde.
Jak jsem psal, nevim, jestli awk /tmp pouziva nebo ne.
Na velkych datech je vzdy lepsi udelat nejdriv test a pozorovat zdroje.
 
T.
 
Ono swapovat velikansky texty do /tmp, zejmena na mlaych virtualech, taky 
nemusi mit uplne skvele vysledky (mensi /tmp mapovany do ramfs se zaplni 
velmi rychle a snadno)... a treba takovej sort si neumi predem ohlidat, zda 
se mu to do toho /tmp vejde, protoze nikdo pred 30ti lety necekal, jak 
obludne velky soubory by nekdo mohl mit ten "genialni" napad sortovat. Mozna
proto awk /tmp nepouziva...? 
 
 
Nekdy chceme zrusit duplikaty, ale nechceme sortit. Premyslel jsem, jak to
 
udelat a ono existuje neskutecne jednoduche reseni...
 
awk ' !x[$0]++'
 
Mozna by se to nemelo prehnat s velikosti vstupu, awk mozna neumi
"swapowat"
 
do /tmp jako sort... :-)
 
Enjoy!
 
Zdroj: 
 
http://stackoverflow.com/questions/11532157/unix-removing-duplicate-lines-witt
 
ho
ut-sorting
 
 
CePal

Dalsi Seznam Predchozi


[ Domu | Prstik | O Piskovisti | Deticky | Nastenky | Koutky ]