Prispevek z nastenky Koudink

Autor:	Tuttle (...) on 'Koudink'
Cas:	Ut 13.1.2015 21:59.42
Titulek:	Re: Linux tip: Odstraneni duplicitnich radku se zachovanim

Spravce by mel vedet, co muze zpracovavat pri jakych zdrojich. sort ma switch na kompresi docasnych souboru volitelnym kompresorem. sort se muze tezko pripravit predem, cte-li ze streamu. Dela co jde. Jak jsem psal, nevim, jestli awk /tmp pouziva nebo ne. Na velkych datech je vzdy lepsi udelat nejdriv test a pozorovat zdroje. T. Ono swapovat velikansky texty do /tmp, zejmena na mlaych virtualech, taky nemusi mit uplne skvele vysledky (mensi /tmp mapovany do ramfs se zaplni velmi rychle a snadno)... a treba takovej sort si neumi predem ohlidat, zda se mu to do toho /tmp vejde, protoze nikdo pred 30ti lety necekal, jak obludne velky soubory by nekdo mohl mit ten "genialni" napad sortovat. Mozna proto awk /tmp nepouziva...? Nekdy chceme zrusit duplikaty, ale nechceme sortit. Premyslel jsem, jak to udelat a ono existuje neskutecne jednoduche reseni... awk ' !x[$0]++' Mozna by se to nemelo prehnat s velikosti vstupu, awk mozna neumi "swapowat" do /tmp jako sort... :-) Enjoy! Zdroj: http://stackoverflow.com/questions/11532157/unix-removing-duplicate-lines-witt ho ut-sorting CePal

[ Domu | Prstik | O Piskovisti | Deticky | Nastenky | Koutky ]