Her er oppskrift på korleis du filtrerer ut ei delmengde av datasettet ved hjelp av q, så du kan jobbe vidare med det i andre verktøy.
Forutsetningar: q er installert og du har lasta ned kjøretøy-datasettet (kjoretoy.csv)
Først kan du sjekke kor mange rader utvalget gir. Her med merkenamn = "BMW", som i skjermbildet i første posten din.
q -C readwrite -H -O --delimiter=\; "SELECT COUNT(*) FROM kjoretoy.csv WHERE tekn_merkenavn = 'BMW'"
Svaret er 286 833 treff, og det er godt under grensa på ca. 1 million rader i Excel.
Neste steg er å lagre delmengda til ei ny fil (kjoretoy_bmw.csv):
q -C read -H -O --delimiter=\; "SELECT * FROM kjoretoy.csv WHERE tekn_merkenavn = 'BMW'" > kjoretoy_bmw.csv
I første kommandoen opprettar ein også ei cache-fil (parameter: -C readwrite) som gjer at vidare kommandoar på samme datasett går mykje fortare ved bruk av cache (parameter: -C read). Første kommandoen tok ca. 10 minutt hos meg, mens 2. kommando tok eit halvt minutt. Dersom eg køyrer første kommandoen på nytt med cache, så tar det rundt 5 sekund.
Cache-fila tar ein del diskplass - om lag like mykje som sjølve datasettet.
OBS! Dersom ein opnar ei CSV-fil direkte i Excel, så vil Excel gjette kva datatypar det enkelte felt/kolonne har. Det kan føre til at data blir endra til feil datatype (f.eks. tal blir datoar). For å unngå at Excel rotar til dataene, kan ein først opne Excel, og deretter importere CSV-fila. Brønnøysundregistrene har skrive tips om dette på sine nettsider (under "Korrigere formatfeil i CSV-dokumentet").