Počítačové vidění


Ať vás článek inspiruje, více si povíme na školení!


Počítačové vidění (Computer Vision, CV) je jednou z nejvíce perspektivních a nejplodnějších oblastí zájmu v business světě. Proč a co všechno se za Computer Vision schovává? Řekneme si, poinspirujeme se, a že se jedná o důležité teritorium AI, nahlédneme tentokrát více pod pokličku fungování.

To, že počítač dnes dokáže „vidět“, bylo ještě před 10 lety něco naprosto nepředstavitelného – zlom přišel kolem r 2012 se službou ImageNet, knihovny lidmi otagovaných objektů (tag = popis objektů na obrázku). Mimochodem tuto pracnou techniku se společnosti OpenAI podařilo později obejít a vývoj akcelerovat tím, že se naučila kombinovat obrázek s jeho existujícím textovým popisem (Alt) a tak ho automaticky víceméně spolehlivě interpretovat.

Stroje se dodnes naučily identifikaci objektů, zarámování, kde přesně se objekt na obrázku nachází (Detection), až po přesný ořez objektu na úrovni pixelů (Segmentation) a popis obrázku (Dense Captioning). A to, co se naučily na obrázcích, aplikují i na video, protože video není prakticky nic jiného než sekvence obrázků.

Asi vás napadá, že z tolika možností mohou budou benefitovat veškerá odvětví – pojďme téma otevřít několika ilustrativními nápady na aplikace:

  • Sport: analýza pohybu, hráčské statistiky, jestřábí oko
  • Kamerové systémy: detekce nebezpečných situací, násilí, požárů, záplav, dopravních nehod (ulice, továrny, sklady, letiště, …)
  • Vizuální detekce vad a anomálií, třídění: poruchy elektrického vedení, výrobní linka, pošta, sklad
  • Zdravotnické snímky: detekce vad, nemocí, nádorů, parazitů
  • Autonomní systémy: vidění automobilů, robotické vysavače
  • Zemědělství/lesnicví: detekce chorob, škůdců, sklizeň, zavlažování
  • Zábava: interaktivní učení, zábavní parky
  • Retail: obchody bez pokladny (například Amazon Go)
  • Administrativa: scan formulářů a dokladů

Například automobilka Tesla používá exkluzivně Computer Vision, kdy prostřednictvím pokročilých kamerových systémů umožňuje vozidlům „vidět“ své okolí. Tato data jsou následně analyzována algoritmy strojového učení, umožňující vozidlu rozpoznat objekty, odhadnout vzdálenosti a navigovat v komplexních dopravních situacích bez zásahu člověka. Je to rozdílný přístup od konkurence, která stále pracuje s radarem, LiDARem (Light Detection and Ranging) a s ultrazvukovými senzory pro parkovací asistence.

Je potřeba mít na paměti, že u Computer Vision je potřeba být obzvlášť obezřetný, protože některé aplikace budou extrémně citlivé na etiku a ochranu osobních údajů, někdy až kontroverzním způsobem, jako například u rozpoznávání obličejů (a na něm postavené identifikaci věku, pohlaví, emocí,…).

Computer vision stále není perfektní, ale kontinuálně se zdokonaluje (jako všechno v AI) – prohlédněte si příklady nedokonalostí na obrázcích níže: rozdílná intepretace objektů v různých podmínkách (vs zásadní uživatelský požadavek na AI consistency!) anebo detekce objektů v neobvyklých situacích (spodní foto: detekce lidé v neobvyklých situacích):

Pojďme na konkrétním použití a doplňme si techničtější vysvětlení. Velmi častý use case bude vyhledávání obrázku obrázkem, např „najdi židli podobnou té na fotce“. Model si musí obrázek nejdříve „prohlédnout“, „osahat“, pochopit principy a vztahy v obrázku obsažené. Dělá to takovým způsobem, aby podle zjištěných principů následně uměl identifikovat předmět v různých zobrazeních, v různých prostředích, v různé kvalitě. Obrázek si tedy nejdřív „zakóduje“ (tzv embeduje) na několika na sebe navazujících rozpixelovaných vrstvách (RGB, vždy od detailu v podobě čar a přechodů a „odzoomováním“ do kontextu), aby mu nakonec zůstala číselná reprezentace daného obrázku (tzv vektor v latentním prostoru). Jakmile takové číslo získá, tak podle něj vyhledá obrázky s podobnými výslednými vektorovými parametry.

Podobně užitečný use case s podobnou Machnine Learning logikou je hledání defektů a anomálií – např zmetkovitosti ve výrobě. Vzorový, bezvadný produkt se „zakóduje“ a pak se každý další proti němu porovnává. Odchylky oproti vzoru se okamžitě rozsvítí.

Dalším, hodně častým scénářem, je rozpoznání textu. Zatímco klasický scan (OCR) vám vrátí jen spoustu nestrukturovaného textu, AI identifikace textu porozumí layoutu a uspořádání dokumentu tak, že formuláře/dokumenty interpretuje a pospojuje v nich související informace do tzv key value pairs. Můžete tak plně digitalizovat faktury nebo objednávky, nebo si model dotrénovat na své specifické formuláře.

Každé nasazení Computer Vision bude zpravidla vždycky vyžadovat nějakou míru doučení – tzv Transfer Learningu. Jde v podstatě o to dotrénovat už jednou odladěný model (např obecné rozpoznávání oblečení) o nové/proprietární produkty (např vaši novou kolekci). Vytvořit celý model od začátku by bylo neúnosně drahé, proto se používají open source knihovny (najdete na Huggingface) a na nich se trénují nové produkty do momentu, dokud roste míra úspěšné identifikace v rámci testovacího běhu.

Pokud vás některé scénáře použití počítačového vidění inspirovaly, neváhejte a hurá na to!


Chcete příležitosti AI pochopit lépe?