Toto sú najlepšie bezplatné otvorené zdroje dát, ktoré môže ktokoľvek použiť

Čo sú to otvorené dáta?

Zjednodušene povedané, otvorené údaje znamenajú druh údajov, ktoré sú otvorené pre kohokoľvek a pre všetkých pre prístup, úpravy, opätovné použitie a zdieľanie.

Open Data odvodzuje svoju základňu od rôznych „otvorených pohybov“, ako sú open source, otvorený hardvér, otvorená vláda, otvorená veda atď.

Vlády, nezávislé organizácie a agentúry sa prihlásili k otvoreniu brány údajov a vytvoreniu ďalších a ďalších otvorených údajov pre voľný a ľahký prístup.

Prečo sú otvorené dáta dôležité?

Otvorené dáta sú dôležité, pretože svet sa čoraz viac riadi dátami. Ak však existujú obmedzenia v prístupe a používaní údajov, myšlienka podnikania a riadenia založeného na údajoch sa nenaplní.

Preto majú otvorené dáta svoje jedinečné miesto. Môže to umožniť úplnejšie pochopenie globálnych problémov a univerzálnych problémov. Môže to dať veľký impulz podnikom. Môže to byť veľkým impulzom pre strojové učenie. Môže pomôcť v boji proti globálnym problémom, ako sú choroby alebo zločin alebo hladomor. Otvorené údaje môžu posilniť postavenie občanov, a tým posilniť demokraciu. Môže zefektívniť procesy a systémy, ktoré spoločnosť a vlády vybudovali. Môže to pomôcť zmeniť spôsob, akým rozumieme svetu a ako doň vstupujeme.

Tu je môj zoznam 15 úžasných zdrojov otvorených údajov:

1. Otvorené údaje Svetovej banky

Ako úložisko najkomplexnejších údajov na svete o dianí v rôznych krajinách sveta sú otvorené údaje Svetovej banky dôležitým zdrojom otvorených údajov. Poskytuje tiež prístup k ďalším súborom údajov, ktoré sú uvedené v katalógu údajov.

Otvorené údaje Svetovej banky sú obrovské, pretože má 3 000 súborov údajov a 14 000 ukazovateľov zahŕňajúcich mikrodáta, štatistiku časových radov a geopriestorové údaje.

Prístup a vyhľadanie požadovaných údajov je tiež celkom ľahké. Všetko, čo musíte urobiť, je zadať názvy indikátorov, krajiny alebo témy a otvorí sa vám pokladnica Open Data. Umožňuje vám tiež sťahovať údaje v rôznych formátoch, ako sú CSV, Excel a XML.

Ak ste novinár alebo akademik, nadchne vás množstvo nástrojov, ktoré máte k dispozícii. Môžete získať prístup k analytickým a vizualizačným nástrojom, ktoré môžu podporiť váš výskum. Môže to podporiť hlbšie a lepšie pochopenie globálnych problémov.

Môžete získať prístup k rozhraniu API, ktoré vám pomôže vytvoriť vizualizácie údajov, ktoré potrebujete, živé kombinácie s inými zdrojmi údajov a mnoho ďalších takýchto funkcií.

Preto nie je prekvapením, že otvorená dáta Svetovej banky sú na vrchole všetkých zoznamov zdrojov otvorených dát!

2. WHO (Svetová zdravotnícka organizácia) - otvorené úložisko údajov

Úložisko otvorených údajov WHO slúži na to, ako SZO sleduje štatistiku špecifickú pre zdravie svojich 194 členských štátov.

Úložisko udržuje údaje systematicky usporiadané. Je k nim prístup podľa rôznych potrieb. Napríklad, či už ide o úmrtnosť alebo záťaž chorôb, je možné získať prístup k údajom klasifikovaným do 100 alebo viacerých kategórií, ako sú rozvojové ciele tisícročia (výživa detí, zdravie detí, zdravie matiek a reprodukčné zdravie, imunizácia, HIV / AIDS, tuberkulóza, malária, zanedbávané choroby, voda a hygiena), neprenosné choroby a rizikové faktory, choroby náchylné na epidémiu, systémy zdravotníctva, zdravie životného prostredia, násilie a úrazy, rovnosť atď.

Pre svoje konkrétne potreby môžete prechádzať súbormi údajov podľa tém, kategórií, indikátorov a krajín.

Dobrá vec je, že je možné stiahnuť si všetky potrebné údaje vo formáte Excel. Údaje môžete tiež monitorovať a analyzovať pomocou jeho dátového portálu.

K dispozícii je tiež rozhranie API k obsahu údajov a štatistík Svetovej zdravotníckej organizácie.

3. Google Public Data Explorer

Prieskumník verejných údajov Google, ktorý bol uvedený na trh v roku 2010, vám môže pomôcť preskúmať obrovské množstvo súborov údajov vo verejnom záujme. Údaje môžete vizualizovať a komunikovať pre svoje príslušné použitie.

Poskytuje údaje z rôznych agentúr a zdrojov. Môžete napríklad získať prístup k údajom od Svetovej banky, amerického úradu pre štatistiku práce a amerického úradu, OECD, MMF a ďalších.

Rôzne zainteresované strany majú prístup k týmto údajom na rôzne účely. Či už ste študent alebo novinár, či už ste tvorcom politiky alebo akademik, môžete tento nástroj využiť na vytváranie vizualizácií verejných údajov.

Pomocou Prieskumníka údajov môžete nasadiť rôzne spôsoby reprezentácie údajov, ako sú čiarové grafy, stĺpcové grafy, mapy a bublinové grafy.

Najlepšie na tom je, že tieto vizualizácie by sa vám zdali dosť dynamické. Znamená to, že ich uvidíte časom meniť. Môžete meniť témy, zameriavať sa na rôzne položky a meniť mierku.

Je tiež ľahko zdieľateľný. Hneď ako graf pripravíte, môžete ho vložiť na svoj web alebo blog alebo jednoducho zdieľať odkaz so svojimi priateľmi.

4. Register otvorených údajov na AWS (RODA)

Toto je úložisko obsahujúce verejné súbory údajov. Sú to údaje, ktoré sú k dispozícii zo zdrojov AWS.

Pokiaľ ide o RODA, môžete vyhľadávať a zdieľať údaje, ktoré sú verejne dostupné.

V aplikácii RODA môžete použiť kľúčové slová a značky na bežné typy údajov, ako sú genomické, satelitné snímky a preprava, aby ste mohli vyhľadať akékoľvek hľadané údaje. To všetko je možné na jednoduchom webovom rozhraní.

Pre každú množinu údajov nájdete podrobnú stránku, príklady použitia, licenčné informácie a výukové programy alebo aplikácie, ktoré tieto údaje používajú.

Použitím širokej škály výpočtových a dátových analytických produktov môžete analyzovať otvorené dáta a budovať ľubovoľné služby, ktoré chcete.

Aj keď údaje, ku ktorým pristupujete, sú dostupné prostredníctvom zdrojov AWS, musíte mať na pamäti, že ich AWS neposkytuje. Tieto údaje patria rôznym agentúram, vládnym organizáciám, výskumníkom, firmám a jednotlivcom.

5. Portál otvorených údajov Európskej únie

Máte prístup k akýmkoľvek otvoreným údajom inštitúcií, agentúr a iných organizácií EÚ, ktoré zverejňujú na jednej platforme, konkrétne k portálu otvorených údajov Európskej únie.

Portál otvorených údajov EÚ je domovom dôležitých otvorených údajov týkajúcich sa oblastí politiky EÚ. Medzi tieto politické oblasti patrí ekonomika, zamestnanosť, veda, životné prostredie a vzdelávanie.

Asi 70 inštitúcií, organizácií alebo oddelení EÚ, ako je Eurostat, Európska environmentálna agentúra, Spoločné výskumné stredisko a ďalšie generálne riaditeľstvá Európskej komisie a agentúry EÚ, zverejnili svoje súbory údajov a umožnili im prístup. Do dnešného dňa počet týchto súborov údajov prekročil počet 1 11700.

Portál umožňuje ľahký prístup. Údaje môžete ľahko prehľadať, preskúmať, prepojiť, stiahnuť a znova použiť pomocou katalógu bežných metadát. Môžete tak urobiť pre svoje konkrétne účely. Môže to byť komerčné alebo nekomerčné účely.

V katalógu metadát môžete vyhľadávať prostredníctvom interaktívneho vyhľadávacieho nástroja (karta Údaje) a dotazov SPARQL (karta Prepojené údaje).

Využitím tohto katalógu môžete získať prístup k údajom uloženým na rôznych webových stránkach inštitúcií, agentúr a organizácií EÚ.

6. FiveThirtyEight

Je to skvelá stránka pre žurnalistiku založenú na dátach a rozprávanie príbehov.

Poskytuje rôzne zdroje údajov pre rôzne odvetvia, ako je politika, šport, veda, ekonomika atď. Môžete si tiež stiahnuť údaje.

Pri prístupe k údajom narazíte na stručné vysvetlenie týkajúce sa každého súboru údajov s ohľadom na jeho zdroj. Dozviete sa tiež, čo to znamená a ako to používať.

Aby boli tieto údaje prehľadné, poskytuje súbory údajov v čo najjednoduchších nechránených formátoch, ako sú súbory CSV. Netreba dodávať, že k týmto formátom majú ľahký prístup a spracovanie ľudia aj stroje.

Pomocou týchto súborov údajov môžete vytvárať príbehy a vizualizácie podľa svojich vlastných požiadaviek a preferencií.

7. Úrad pre sčítanie ľudu USA

Americký úrad pre sčítanie ľudu je najväčšou štatistickou agentúrou federálnej vlády. Uchováva a poskytuje spoľahlivé fakty a údaje týkajúce sa ľudí, miest a ekonomiky Ameriky.

Úrad pre sčítanie ľudu považuje svoje ušľachtilé poslanie rozširovať svoje služby za najspoľahlivejšieho poskytovateľa kvalitných údajov.

Či už ide o federálnu, štátnu, miestnu alebo kmeňovú vládu, všetky využívajú údaje zo sčítania ľudu na rôzne účely. Tieto vlády používajú tieto údaje na určenie umiestnenia nového bývania a verejných zariadení. Využívajú ju tiež v čase skúmania demografických charakteristík spoločenstiev, štátov a USA.

Tieto údaje sa využívajú aj pri plánovaní dopravných systémov a vozoviek. Pokiaľ ide o rozhodovanie o kvótach a vytváranie policajných a požiarnych zón, tieto údaje sa hodia. Keď vlády vytvárajú miestne volebné oblasti, školy, verejné služby atď., Využívajú tieto údaje. Praxou je zhromažďovať informácie o obyvateľstve raz za desať rokov a tieto údaje sú pri dosahovaní rovnakých výsledkov celkom užitočné.

Existujú rôzne nástroje, ako napríklad American Fact Finder, Census Data Explorer a Quick Facts, ktoré sú užitočné v prípade, že chcete vyhľadávať, upravovať a vizualizovať údaje.

Napríklad rýchle fakty obsahujú štatistiku všetkých štátov, krajov, miest a dokonca aj miest s počtom obyvateľov 5 000 a viac.

Americký vyhľadávač faktov vám môže pomôcť odhaliť populárne fakty, ako je populácia, príjem atď. Poskytuje informácie, ktoré sú často požadované.

Dobrá vec je, že môžete vyhľadávať, pracovať s údajmi, získavať informácie o populárnych štatistikách a zobraziť príslušné grafy pomocou nástroja Census Data Explorer. Okrem toho môžete tiež použiť vizuálny nástroj na prispôsobenie údajov v prostredí interaktívnych máp.

8. Data.gov

Data.gov je pokladnicou otvorených údajov vlády USA. Iba nedávno sa rozhodlo o bezplatnom sprístupnení všetkých vládnych údajov.

Keď bolo uvedené na trh, bolo ich iba 47. V súčasnosti existuje 180 000 súborov údajov.

Prečo je Data.gov skvelým zdrojom, je to, že môžete nájsť údaje, nástroje a zdroje, ktoré môžete nasadiť na rôzne účely. Môžete vykonávať výskum, vyvíjať svoje webové a mobilné aplikácie a dokonca navrhovať vizualizácie údajov.

Všetko, čo musíte urobiť, je zadať kľúčové slová do vyhľadávacieho poľa a prechádzať typy, značky, formáty, skupiny, typy organizácií, organizácie a kategórie. To uľahčí ľahký prístup k údajom alebo súborom údajov, ktoré potrebujete.

Data.gov sa riadi schémou otvorených dát projektu - súbor povinných polí (názov, popis, štítky, posledná aktualizácia, vydavateľ, meno kontaktu atď.) Pre každú množinu údajov zobrazenú na serveri Data.gov.

9. DBpedia

Ako viete, Wikipedia je skvelým zdrojom informácií. Cieľom programu DBpedia je získať štruktúrovaný obsah z cenných informácií, ktoré vytvorila Wikipedia.

S programom DBpedia môžete sémanticky vyhľadávať a skúmať vzťahy a vlastnosti prostriedku Wikipedia. Patria sem aj odkazy na ďalšie súvisiace súbory údajov.

V datasete DBpedia je asi 4,58 milióna entít. 4,22 milióna je klasifikovaných v ontológii, z toho 1 445 000 osôb, 735 000 miest, 123 000 hudobných albumov, 87 000 filmov, 19 000 videohier, 241 000 organizácií, 251 000 druhov a 6 000 chorôb.

Pre tieto entity existujú štítky a abstrakty v približne 125 jazykoch. Existuje 25,2 milióna odkazov na obrázky. Existuje 29,8 milióna odkazov na externé webové stránky.

Všetko, čo musíte urobiť, aby ste mohli používať DBpedia, je písať dotazy SPARQL proti koncovému bodu alebo stiahnutím ich výpisov.

DBpedia priniesla úžitok niekoľkým podnikom, ako sú Apple (cez Siri), Google (cez Freebase a Google Knowledge Graph) a IBM (cez Watson), najmä z ich prestížnych projektov spojených s umelou inteligenciou.

10. freeCodeCamp otvorené dáta

Je to komunita otvoreného zdroja. Je to dôležité preto, lebo vám umožňuje kódovať, vytvárať pro bono projekty po neziskových organizáciách a uchádzať sa o prácu ako vývojár.

Aby sa tak stalo, komunita freeCodeCamp.org každý mesiac sprístupňuje obrovské množstvo dát. Premenili to na otvorené dáta.

V tomto úložisku nájdete rôzne veci. Na základe údajov freeCodeCamp môžete nájsť súbory údajov, analýzy rovnakých alebo dokonca ukážok projektov. Môžete tiež nájsť odkazy na externé projekty týkajúce sa údajov freeCodeCamp.

Môže vám pomôcť s rôznymi projektmi a úlohami, ktoré môžete mať na mysli. Či už ide o webovú analýzu, analýzu sociálnych médií, analýzu sociálnych sietí, analýzu vzdelávania, vizualizáciu údajov, vývoj webu založeného na dátach alebo roboty, údaje ponúkané touto komunitou môžu byť mimoriadne užitočné a efektívne.

11. Yelp otvorené datasety

Dátový súbor Yelp nie je v podstate podmnožinou ničoho iného ako našich vlastných firiem, recenzií a používateľských údajov na osobné, vzdelávacie a akademické účely.

V súboroch údajov Yelp Open je 5 996 996 recenzií, 188 593 firiem, 280 991 obrázkov a 10 metropolitných oblastí.

Môžete ich použiť na rôzne účely. Pretože sú k dispozícii ako súbory JSON, môžete ich použiť na výučbu študentov o databázach. Môžete ich použiť na učenie sa NLP alebo na vzorkovanie produkčných údajov, kým rozumiete tomu, ako navrhovať mobilné aplikácie.

V tejto množine údajov nájdete každý súbor zložený z jedného typu objektu, jedného súboru JSON na riadok.

12. Súbor údajov UNICEF

Pretože sa UNICEF zaoberá širokou škálou kritických otázok, zhromaždil príslušné údaje o vzdelaní, detskej práci, zdravotnom postihnutí detí, detskej úmrtnosti, úmrtnosti matiek, vode a sanitácii, nízkej pôrodnej hmotnosti, prenatálnej starostlivosti, pneumónii, malárii, nedostatku jódu porucha, mrzačenie / rezanie ženských pohlavných orgánov a dospievajúci.

Otvorené súbory údajov UNICEF zverejnené v registri IATI: //www.iatiregistry.org/publisher/unicef ​​boli extrahované priamo z operačného systému UNICEF (VISION) a ďalších dátových systémov a odrážajú vstupy jednotlivých kancelárií UNICEF.

Dobrá vec je, že pokiaľ ide o tieto súbory údajov, existuje pravidelná aktualizácia. Údaje sa každý mesiac aktualizujú, aby boli komplexnejšie, spoľahlivejšie a presnejšie.

K týmto údajom môžete slobodne a ľahko získať prístup. Tieto údaje si môžete stiahnuť vo formáte CSV. Pred stiahnutím si môžete tiež pozrieť ukážku údajov.

Aj keď ktokoľvek môže preskúmať a vizualizovať súbory údajov UNICEF, existujú traja hlavní vydavatelia:

PORTÁL PRE TRANSPARENTNOSŤ POMOCI UNICEF: Ak využívate tento portál, máte oveľa ľahší prístup k súborom údajov. Zahŕňa tiež podrobnosti o každej krajine, v ktorej UNICEF pracuje.

Vydavateľ d-portál: Momentálne sa nachádza v beta verzii. Pomocou tohto portálu môžete skúmať údaje IATI.

Môžete vyhľadávať informácie týkajúce sa rozvojových aktivít, rozpočtov atď. Môžete ich vyhľadávať po jednotlivých krajinách.

Dátová platforma vydavateľa: Na tejto platforme môžete ľahko pristupovať k štatistikám, grafom a metrikám údajov, ku ktorým sa pristupuje prostredníctvom registra IATI. Ak kliknete na hlavičky, môžete tiež triediť veľa tabuliek, ktoré vidíte na platforme. Mnoho súborov údajov na platformách tiež nájdete v strojovo čitateľnom formáte JSON.

13. Kaggle

Program Kaggle je vynikajúci, pretože podporuje použitie rôznych formátov publikácie súborov údajov. Lepšia časť je však v tom, že dôrazne odporúča, aby vydavatelia súborov údajov zdieľali svoje údaje v prístupnom a nechránenom formáte.

Platforma podporuje otvorené a prístupné dátové formáty. Je to dôležité nielen pre prístup, ale aj pre to, čo chcete s týmito údajmi robiť. Preto Kaggle Dataset jasne definuje formáty súborov, ktoré sa odporúčajú pri zdieľaní údajov.

Jedinečnou vecou súborov Kaggle je, že nejde iba o dátové úložisko. Každý súbor údajov predstavuje komunitu, ktorá vám umožňuje diskutovať o údajoch, vyhľadávať verejné kódy a techniky a koncipovať svoje vlastné projekty v jadrách.

CSV, JSON, SQLite, Archive, Big Query atď. Sú typy súborov, ktoré podporuje Kaggle. Môžete nájsť rôzne zdroje, aby ste mohli začať pracovať na svojom projekte otvorených dát.

Najlepšie na tom je, že Kaggle vám umožňuje publikovať a zdieľať súbory údajov súkromne alebo verejne.

14. LODUM

Je to iniciatíva otvorených dát univerzity v Münsteri. V rámci tejto iniciatívy je komukoľvek umožnené získať prístup k akýmkoľvek verejným informáciám o univerzite v strojovo čitateľných formátoch. Môžete k nim ľahko získať prístup a znova ich použiť podľa svojich potrieb.

V rámci tohto projektu sú sprístupnené otvorené údaje o vedeckých artefaktoch a kódované ako prepojené údaje.

Pomocou prepojených údajov je možné zdieľať a používať údaje, ontológie a rôzne štandardy metaúdajov. V skutočnosti sa predpokladá, že to bude akceptovaný štandard pre poskytovanie metadát a samotných údajov na webe.

Tím LODUM spoluinicioval stránky LinkedUniversities.org a LinkedScience.org.

Na analýzu dát môžete použiť editor SPARQL alebo balík SPARQL z R.

Balík SPARQL umožňuje pripojiť sa ku koncovému bodu SPARQL cez HTTP, položiť dotaz SELECT alebo aktualizačný dotaz (LOAD, INSERT, DELETE).

15. Úložisko strojového učenia UCI

Slúži ako komplexné úložisko databáz, teórií domén a generátorov údajov, ktoré používa komunita strojového učenia na empirickú analýzu algoritmov strojového učenia.

V tomto úložisku je v súčasnosti 463 súborov údajov ako služba komunite strojového učenia.

Centrum pre strojové učenie a inteligentné systémy na Kalifornskej univerzite v Irvine ho hostí a spravuje. David Aha ju pôvodne vytvoril ako postgraduálny študent na UC Irvine.

Odvtedy ho študenti, pedagógovia a vedci z celého sveta využívajú ako spoľahlivý zdroj súborov údajov strojového učenia.

Funguje to tak, že každý súbor údajov má svoju samostatnú webovú stránku, ktorá obsahuje všetky známe podrobnosti vrátane akýchkoľvek relevantných publikácií, ktoré ich skúmajú. Tieto súbory údajov si môžete stiahnuť ako súbory ASCII, čo je často užitočný formát CSV.

Podrobnosti o súboroch údajov sú zhrnuté podľa aspektov, ako sú typy atribútov, počet inštancií, počet atribútov a rok zverejnenia, ktoré je možné zoradiť a vyhľadať.

Otvorené dátové portály a vyhľadávače:

Aj keď každý rok mnoho agentúr zverejňuje množstvo súborov údajov, veľmi málo súborov údajov je uznaných a zavedených.

Dôvod, prečo len veľmi málo takýchto súborov údajov zostáva ako užitočný zdroj, spočíva v tom, že je výzvou vyvinúť, spravovať a poskytnúť údaje takým spôsobom, aby ich ľudia a organizácie považovali za užitočné a ľahko použiteľné.

Nižšie však nájdete zoznam ďalších niekoľkých dôležitých portálov a platforiem otvorených údajov, ktoré umožňujú používateľom pomerne jednoduchý prístup k otvoreným údajom, študujú vplyv a získavajú cenné poznatky.

  1. Vyhľadávanie v datasete Google
  2. Dataverse
  3. Otvorte dátovú súpravu
  4. Ckan
  5. Otvorte Data Monitor
  6. Plenar.io
  7. Otvorte mapu vplyvu na dáta

Záver

Otvorené dáta sú na dennom poriadku. Svet sa postupne začal uberať smerom k otvoreným systémom a otvorené dáta sú s tým správne synchronizované.

Podniky a organizácie, ktoré využívajú otvorené dáta, získajú konkurenčnú výhodu a budú schopné ovládnuť budúcnosť.