Čivava alebo muffin? Moje hľadanie najlepšieho rozhrania API pre počítačové videnie

Tento populárny internetový mém demonštruje alarmujúcu podobnosť zdieľanú medzi čivavami a vdolkami. Tieto obrázky sa bežne zdieľajú na prezentáciách v priemysle umelej inteligencie (AI) (vrátane mňa).

Ale jedna otázka, ktorú som nevidel odpovedať, je, aká dobrá je moderná AI pri odstraňovaní neistoty obrazu, ktorý by mohol pripomínať čivavu alebo muffin? Z dôvodu vašej zábavy a vzdelania túto otázku dnes preskúmam.

Binárna klasifikácia je možná, pretože algoritmus perceptronu bol vynájdený v roku 1957. Ak si myslíte, že AI je teraz medializovaná, denník New York Times v roku 1958 uviedol, že vynález bol počiatkom počítača, ktorý by „dokázal chodiť, rozprávať, vidieť, písať, reprodukovať sa a byť si vedomý svojej existencie. “ Kým perceptrónové stroje, ako napríklad Mark 1, boli navrhnuté na rozpoznávanie obrazu, v skutočnosti dokážu rozlíšiť iba vzory, ktoré sú lineárne oddeliteľné. To im bráni naučiť sa zložité vzory, ktoré sa nachádzajú vo väčšine vizuálnych médií.

Niet divu, že svet bol rozčarovaný a nasledovala zima AI. Odvtedy viacvrstvové vnímanie (populárne v 80. rokoch) a konvolučné neurónové siete (priekopník Yann LeCun v roku 1998) výrazne prekonali jednovrstvové vnímanie v úlohách rozpoznávania obrazu.

Vďaka veľkým označeným súborom údajov, ako je ImageNet, a výkonným výpočtom GPU dosiahli pokročilejšie architektúry neurónových sietí ako AlexNet, VGG, Inception a ResNet najmodernejší výkon v oblasti počítačového videnia.

Rozhrania API pre počítačové videnie a rozpoznávanie obrazu

Ak ste inžinier strojového učenia, je ľahké s týmito modelmi experimentovať a dolaďovať ich pomocou vopred vyškolených modelov a váh v programoch Keras / Tensorflow alebo PyTorch. Ak vám nevyhovuje vyladenie neurónových sietí sami, máte šťastie. Prakticky všetci poprední technologickí giganti a nádejné startupy tvrdia, že „demokratizujú AI“ ponúkaním ľahko použiteľných rozhraní API pre počítačové videnie.

Ktorý je najlepší? Ak chcete odpovedať na túto otázku, musíte najskôr definovať svoje obchodné ciele, prípady použitia produktu, testovacie súbory údajov a metriky úspechu, aby ste mohli navzájom porovnať riešenia.

Namiesto vážneho vyšetrovania môžeme získať aspoň predstavu o rozdielnom správaní sa jednotlivých platforiem na vysokej úrovni ich testovaním s problémom hračiek odlíšiť čivavu od muffina.

Vykonanie skúšky

Za týmto účelom som rozdelil kanonický mém na 16 testovacích obrázkov. Potom používam otvorený zdrojový kód napísaný inžinierom Gauravom Oberoiom na konsolidáciu výsledkov z rôznych API. Každý obrázok je pretlačený cez šesť rozhraní API uvedených vyššie, ktoré vracajú štítky vysokej spoľahlivosti ako svoje predpovede. Výnimkou je spoločnosť Microsoft, ktorá vracia štítky aj titulky, a Cloudsight, ktorý využíva hybridnú technológiu human-AI na vrátenie iba jedného titulku. To je dôvod, prečo Cloudsight dokáže vrátiť strašidelne presné titulky pre zložité obrázky, spracovanie však trvá 10–20krát dlhšie.

Nižšie je uvedený príklad výstupu. Ak chcete zobraziť výsledky všetkých 16 obrázkov čivavy verzus muffiny, kliknite sem.

Ako dobre dopadli API? Okrem spoločnosti Microsoft, ktorá si tento muffin pomýlila s plyšovým zvieraťom, každé ďalšie API rozpoznalo, že obraz je jedlo. Ale nedošlo k dohode o tom, či jedlo je chlieb, koláč, sušienky alebo vdolky. Google bol jediným API, ktoré úspešne identifikovalo muffin ako štítok, ktorý je najpravdepodobnejší.

Pozrime sa na príklad čivavy.

Opäť sa API darilo dosť dobre. Všetci si uvedomili, že obraz je pes, hoci niektorým chýbalo presné plemeno.

Vyskytli sa však definitívne zlyhania. Microsoft vrátil trikrát zjavne nesprávny titulok, pričom muffin označil buď za plyšáka, alebo za plyšového medveďa.

Google bol konečný identifikátor muffinu, ktorý vrátil „muffin“ ako značku najvyššej spoľahlivosti pre 6 zo 7 obrázkov muffinu v testovacej sade. Ostatné API nevracali „muffin“ ako prvý štítok pre akýkoľvek obrázok muffinu, ale vrátili menej relevantné štítky ako „chlieb“, „cookie“ alebo „košíček“.

Napriek mnohým úspechom však spoločnosť Google zlyhala na tomto konkrétnom obrázku vdolka a ako predpovede vrátila výrazy „ňufák“ a „skupina plemien psov“.

Dokonca aj najpokročilejšie platformy strojového učenia na svete narážajú na našu zložitú výzvu čivava verzus muffin. Ľudské batoľa sa bije hlboko v učení, keď má prísť na to, čo je jedlo a čo je Fido.

Ktoré API pre počítačové videnie je teda najlepšie?

Ak chcete zistiť odpoveď na túto nepolapiteľnú záhadu, musíte si prečítať celý článok v originálnom článku a navštíviť stránku TOPBOTS!