Ako prekonať humbuk AI a stať sa inžinierom strojového učenia

Som si istý, že ste už počuli o neuveriteľných aplikáciách umelej inteligencie - od programov, ktoré prekonajú najlepších svetových hráčov Go, až po samoriadiace autá.

Problém je v tom, že väčšina ľudí sa chytí za humbuk AI a mieša technické diskusie s filozofickými.

Ak chcete prekonať humbuk AI a pracovať s prakticky implementovanými dátovými modelmi, vycvičte sa na pozíciu dátového inžiniera alebo strojového učenia.

V článkoch o AI nehľadajte zaujímavé aplikácie o AI. Hľadajte ich v výukových programoch pre dátové inžinierstvo alebo strojové učenie.

Toto sú kroky, ktoré som urobil pri zostavení tohto zábavného malého škrabáka, ktorý som postavil na analýzu rodovej rozmanitosti v rôznych kódovacích bootcamps. Je to cesta, ktorou som sa vydal na výskum nového online bootcampu AI / ML spoločnosti Springboard so zárukou práce.

Tu je podrobný sprievodca, ako sa dostať do priestoru strojového učenia s kritickou sadou zdrojov pripojených ku každému z nich.

1. Začnite opracovávať svoje postupy pri vývoji Pythonu a softvéru

Začnete tým, že si osvojíte jazyk Python, ktorý je jazykom voľby pre väčšinu technikov strojového učenia.

Šikovný skriptovací jazyk je nástrojom voľby pre väčšinu technikov a vedcov v oblasti údajov. Väčšina nástrojov pre dáta bola postavená v Pythone alebo má zabudovaný prístup API pre ľahký prístup do Pythonu.

Našťastie je Pythonova syntax pomerne ľahká. Tento jazyk má veľa dokumentov a školiacich zdrojov. Zahŕňa tiež podporu pre všetky druhy programovacích paradigiem od funkčného programovania po objektovo orientované programovanie.

Jedna vec, ktorú môže byť trochu ťažké zachytiť, sú tabuľky a medzery požadované na usporiadanie a aktiváciu kódu. V Pythone sú medzery skutočne dôležité.

Ako inžinier strojového učenia by ste pracovali v tíme na vytváraní zložitých, často kritických aplikácií. Teraz je teda vhodný čas na osvieženie najlepších postupov v oblasti softvérového inžinierstva.

Naučte sa používať nástroje na spoluprácu, ako je Github. Zvyknite si písať dôkladné jednotkové testy pre svoj kód pomocou testovacích rámcov, ako je napríklad nos. Otestujte svoje API pomocou nástrojov, ako je Postman. Použite systémy CI, ako je Jenkins, aby ste sa ubezpečili, že sa váš kód nerozbije. Rozvíjajte dobré schopnosti kontroly kódu, aby ste mohli lepšie spolupracovať so svojimi budúcimi technickými kolegami.

Jedna vec na prečítanie : Aké je najlepšie Python IDE pre dátovú vedu? Prejdite si rýchle prečítanie, aby ste pochopili, v ktorej sade nástrojov chcete pracovať, aby ste implementovali Python na množiny údajov.

Notebook Jupyter používam sám, pretože je predinštalovaný s väčšinou dôležitých knižníc údajových vied, ktoré budete používať. Dodáva sa s jednoduchým a čistým interaktívnym rozhraním, ktoré vám umožní upravovať váš kód za behu.

Notebook Jupyter tiež prichádza s rozšíreniami, ktoré vám umožňujú ľahko zdieľať vaše výsledky s celým svetom. S vygenerovanými súbormi sa tiež veľmi ľahko pracuje na Githube.

Jedna vec, ktorú musíte urobiť : Pandas Cookbook vám umožní preniknúť do živých príkladov rámca Pandas, jednej z najsilnejších knižníc na manipuláciu s údajmi. Môžete sa rýchlo prepracovať k príkladu, ako sa cez ňu hrať s množinou údajov.

2. Pozerajte sa na rámce a teóriu strojového učenia

Keď sa už hráte s Pythonom a cvičíte s ním, je čas začať sa zaoberať teóriou strojového učenia.

Dozviete sa, aké algoritmy máte použiť. Ak budete mať základné vedomosti o teórii, ktorá stojí za strojovým učením, budete môcť ľahko implementovať modely.

Jedna vec na prečítanie : Prehliadka desiatich najlepších algoritmov pre začiatočníkov v oblasti strojového učenia vám pomôže začať so základmi. Dozviete sa, že neexistuje „obed zadarmo“. Neexistuje žiadny algoritmus, ktorý vám poskytne optimálny výsledok pre každé nastavenie, takže sa budete musieť do každého algoritmu ponoriť.

Jedna vec, ktorú musíte urobiť : Pohrajte sa s interaktívnym Free Machine Learning v kurze Python - rozvíjajte svoje zručnosti v jazyku Python a začnite implementovať algoritmy.

3. Začnite pracovať s množinami údajov a experimentujte

Nástroje a teóriu máte pod opaskom. Mali by ste premýšľať o malých mini-projektoch, ktoré vám pomôžu zdokonaliť vaše schopnosti.

Jedna vec, ktorú si treba prečítať : Zoznámte sa s 19 bezplatnými verejnými súbormi údajov pre váš prvý projekt v oblasti dátových vied a začnite sa zaoberať tým, kde nájdete rôzne súbory údajov na webe, s ktorými sa môžete pohrať.

Jedna vec, ktorú musíte urobiť : Kaggle datové sady vám umožnia pracovať s mnohými verejne dostupnými datovými sadami. Na tejto zbierke je úžasné, že môžete vidieť, aké populárne sú určité súbory údajov. Môžete tiež vidieť, aké ďalšie projekty boli postavené s rovnakou množinou údajov.

4. Zlepšite svoje dátové schopnosti pomocou nástrojov Hadoop alebo Spark

Teraz, keď cvičíte na menších množinách údajov, budete sa chcieť naučiť pracovať s programami Hadoop alebo Spark. Dátoví inžinieri pracujú so streamingovými údajmi na úrovni výroby v reálnom čase v terabajtovom a niekedy aj petabajtovom meradle. Zrušte tým, že sa budete učiť cestu cez rámec veľkých dát.

Jedna vec na prečítanie : Tento krátky článok Ako sa skladajú Hadoop a Spark? vám pomôže prejsť Hadoopom a Sparkom a ich vzájomným porovnávaním a kontrastom.

Jedna vec, ktorú musíte urobiť : Ak chcete ihneď začať pracovať s rámcom pre veľké dáta, notebooky Spark Jupyter hostované v Databricks ponúkajú úvod do rámca na úrovni výučby a zoznámia vás s príkladmi kódu na úrovni výroby.

5. Pracujte s rámcom hlbokého učenia, ako je TensorFlow

Skončili ste skúmaním algoritmov strojového učenia a prácou s rôznymi nástrojmi pre veľké dáta.

Teraz je čas vziať si druh silného posilňovacieho učenia, na ktoré sa zamerali nové pokroky. Naučte sa rámec TensorFlow a budete na špici práce v oblasti strojového učenia.

Jedna vec na prečítanie : Prečítajte si, čo je TensorFlow? a pochopte, čo sa deje pod kapotou, pokiaľ ide o tento výkonný rámec hlbokého učenia.

Jedna vec, ktorú musíte urobiť : TensorFlow a Deep Learning bez PhD. Je interaktívny kurz vytvorený spoločnosťou Google, ktorý kombinuje teóriu umiestnenú do snímok s praktickými laboratóriami s kódom.

6. Začnite pracovať s veľkými súbormi údajov na úrovni výroby

Teraz, keď ste pracovali s rámcami hlbokého učenia, môžete začať pracovať na veľkých súboroch údajov na úrovni výroby.

Ako inžinier strojového učenia budete robiť zložité inžinierske rozhodnutia týkajúce sa správy veľkého množstva údajov a nasadenia vašich systémov.

Zahŕňalo by to zber údajov z API a web scraping, SQL + NoSQL databáz a keď ich budete používať, tak použite pipeline frameworks ako Luigi alebo Airflow.

Pri nasadzovaní svojich aplikácií môžete na škálovateľnosť a spoľahlivosť používať systémy založené na kontajneroch, ako je Docker, a nástroje, ako je napríklad Flask.

Jedna vec, ktorú si treba prečítať : 7 spôsobov, ako zaobchádzať s veľkými dátovými súbormi pre strojové učenie, je pekné teoretické cvičenie týkajúce sa spôsobu, akým narábate s veľkými súbormi údajov, a môže slúžiť ako praktický kontrolný zoznam použitých taktík.

Jedna vec, ktorú musíte urobiť : Verejne dostupné súbory veľkých dát sú zoznamom miest, kde môžete získať veľmi veľké súbory údajov - pripravené na to, aby ste si mohli vyskúšať svoje nové zručnosti v oblasti dátového inžinierstva.

7. Prax, prax, prax, budovanie smerom k portfóliu a potom práca

Nakoniec ste sa dostali do bodu, v ktorom môžete zostavovať modely strojového učenia pracujúcich. Ďalším krokom k pokroku v kariére strojového učenia je nájsť si prácu u spoločnosti, ktorá vlastní tieto veľké súbory údajov, aby ste mohli svoje schopnosti každý deň uplatniť v najmodernejšom probléme so strojovým učením.

Jedna vec, ktorú si treba prečítať : 41 základných otázok pri rozhovore so strojovým učením (s odpoveďami) vám pomôže precvičiť si vedomosti, ktoré potrebujete na absolvovanie pohovoru o strojovom učení.

Jedna vec, ktorú musíte urobiť : Choďte von a nájdite stretnutia, ktoré sa venujú strojovému učeniu alebo dátovému inžinierstvu v službe Meetup - je to skvelý spôsob, ako stretnúť kolegov v priestore a potenciálnych manažérov prijímania pracovníkov.

Dúfajme, že tento tutoriál pomohol preraziť humbuk okolo AI na niečo praktické a na mieru, ktoré môžete použiť. Ak máte pocit, že potrebujete trochu viac, spoločnosť, s ktorou spolupracujem, Springboard, ponúka bootcamp zameraný na kariéru zameraný na AI a strojové učenie so zárukou zamestnania a mentorstvo 1: 1 od odborníkov na strojové učenie.