Spravce by mel vedet, co muze zpracovavat pri jakych zdrojich.
sort ma switch na kompresi docasnych souboru volitelnym kompresorem.
sort se muze tezko pripravit predem, cte-li ze streamu. Dela co jde.
Jak jsem psal, nevim, jestli awk /tmp pouziva nebo ne.
Na velkych datech je vzdy lepsi udelat nejdriv test a pozorovat zdroje.
T.
Ono swapovat velikansky texty do /tmp, zejmena na mlaych virtualech, taky
nemusi mit uplne skvele vysledky (mensi /tmp mapovany do ramfs se zaplni
velmi rychle a snadno)... a treba takovej sort si neumi predem ohlidat, zda
se mu to do toho /tmp vejde, protoze nikdo pred 30ti lety necekal, jak
obludne velky soubory by nekdo mohl mit ten "genialni" napad sortovat. Mozna
proto awk /tmp nepouziva...?
Nekdy chceme zrusit duplikaty, ale nechceme sortit. Premyslel jsem, jak to
udelat a ono existuje neskutecne jednoduche reseni...
awk ' !x[$0]++'
Mozna by se to nemelo prehnat s velikosti vstupu, awk mozna neumi
"swapowat"
do /tmp jako sort... :-)
Enjoy!
Zdroj:
http://stackoverflow.com/questions/11532157/unix-removing-duplicate-lines-witt
ho
ut-sorting
CePal
|