Jak vydělat lovy mrchožroutů zábavnější pomocí umělé inteligence

Lov lovců po generace existuje. Tradiční hra jde takto:

  • vůdce zapíše seznam předmětů na šrot papíru.
  • týmy pak stráví odpoledne hledáním těchto objektů v okolí - buď venku, nebo uvnitř.
  • Položky vyškrtnou ze seznamu, jak je najdou, a pak pokračují, dokud není seznam úplný.

Jednoduchá pravidla. Ale spousta zábavy.

Modernizace hry pomocí AI

Napsal jsem aplikaci pro Amazonovu platformu Alexa, která modernizuje lov lovců. Využívá nejnovější dostupné technologie - včetně nástrojů umělé inteligence, jako je rozpoznávání obrazu a hlasu.

Předpoklad hry se nemění: najděte deset náhodných položek umístěných ve vaší domácnosti - nebo v okolí vašeho okolí - do jedné hodiny. Kromě toho, že to je Alexa, kdo usnadňuje hru.

Moje aplikace je povolena, pokud jste jedním z milionů lidí, kteří vlastní Amazon Alexa. Níže uvedený popis popisuje, jak jsou využívány všechny nástroje AI, včetně nových služeb AWS - Rekognition a Polly. Tato dovednost se nazývá Scavenger Hunt. Zde je náhled, jak to funguje:

Umělá inteligence # 1 - Alexa

Zahájení hry začíná vyvoláním dovednosti Alexa. Kdokoli se zařízením uvádí následující požadavek.

Alexo, požádej Scavenger Hunt o zahájení nové hry.

Každý z milionů majitelů Alexa může použít svůj hlas k podání této žádosti. Jazyk je jemný. Výběr slov se liší, pokud je tento záměr vytvořen různými pohlavími, věkovými skupinami, etnickými a sociálními demografiemi. Je to síla umělé inteligence, která dešifruje tyto jemné rozdíly ve výběru slov a dialektů do jednoduché žádosti o zahájení hry.

Jak hra funguje?

Hra začíná tím, že Alexa provádí řadu různých technologií. Zde je architektura různých používaných služeb a rozhraní:

Platforma Alexa zpracovává zpracování jazyků a převádí hlasové záměry do texů. Služba Lambda je hostitelem procesní logiky a kód je zapsán v NodeJS. Sledování hry na platformě je prostřednictvím jedinečného čtyřmístného herního kódu vráceného uživateli. Schopnost identifikuje, které položky se mají objevit, a uloží je do záznamu v tabulce DynamoDB.

Logika v Lambdě také zaznamenává časové razítko, kdy hra začala. Funguje to jako virtuální stopky, které odpočítávají šedesát minut pro hraní hry. Uživatel se může kdykoli vrátit a požádat Alexu o aktualizaci skóre. Alexa odpovídá zbývajícím časem a aktuální knihou hledaných předmětů.

Umělá inteligence # 2 - Polly

Baví mě budování skvělých zkušeností uživatelů hlasu v aplikacích Alexa. Kvalita nyní rozlišuje hry na této rostoucí platformě. To je kritické vzhledem k tomu, že nyní existuje více než 10 000 dovedností Alexa.

Vývoj vynikajících uživatelských rozhraní hlasu je jako vytváření rozhlasového vysílání. Skvělý způsobuje větší vzrušení než použití jedinečného hlasu. Zahrnuje cinkoty a zvuky simulující akci. Psaní těchto aplikací vyžaduje psaní kódu i zajímavého příběhu.

Dobré příběhy nejsou monology. Tento přístup vyžaduje, aby pokročilé kódování zahrnovalo více než jeden znak. Zde jsem použil službu Polly a doplnil standardní Alexův hlas. Zde je, jak vypadá „skript“ úvodní zprávy. Hraje se při spuštění nové hry a ukazuje, jak se komponenty navzájem hrají.

Přinést hudbu vyžaduje nahrávání krátkých klipů ve formátu MP3, které obsahují zvuky a znělky. Nahrávám hudbu na plochu a poté ji nahrávám do kbelíku S3. Další je, jak mít mnoho hlasů v dovednosti, jak to má Alexa. Chcete-li vytvořit tento zvukový zážitek, je to hybrid technik. Polly má schopnost generovat 47 různých hlasů ve 24 různých jazycích. Snadno se používá a krátké nahrávání trvá několik minut. Začněte tím, že jdete do konzole a vyvolejte službu Polly.

V anglickém jazyce je na výběr mnoho hlasů. V rozevíracím seznamu jsem vybral angličtinu, Spojené království a klikněte na přepínač ženského hlasu jménem Amy. Dále jsem psal svůj skript do textového pole a Polly ho převedl na řeč. Možnost vpravo dole uloží záznam do souboru MP3. Umístil jsem soubor do kbelíku S3, kde je přístupný pro dovednost Alexa.

Integrace hlasů pomocí SSML

Předchozí část popisuje, jak vytvořit jednotlivé části skriptu. Nyní je čas je spojit. Platforma Alexa vyžaduje, aby každá dovednost měla API, které odpovídá standardnímu modelu zprávy. V tomto modelu představují různé atributy charakteristiky interakce uživatele. Atribut audioOutput objektu odpovědi je to, co Alexa čte zpět uživateli.

Chcete-li vytvořit atribut se všemi čtyřmi částmi, musíte vytvořit označení, které vypadá takto:


  

Značení ukazuje na každý soubor mp3 na veřejně přístupném místě na internetu. Tímto způsobem prohlížeč sestavuje obrázky a text pomocí HTML do jediné skleněné tabule. Alexa provádí stejnou sestavu zvuku pomocí SSML.

Artificial Intelligence # 3 - Rekognition

Hra vyžaduje zapisovatele, takže tuto roli hraje jiná služba. Mozkem našeho moderního úředníka je služba AWS Rekognition. Toto skenuje obrázky, identifikuje všechny položky, které jsou viditelné, a sleduje je pro hru. Zde jsou specifika týkající se podpůrné technologie.

Zpracování obrazu řízené událostmi

Obrázky se nahrávají do kbelíku S3 prostřednictvím webu scavengerskill.com. Kbelík je nastaven tak, aby spustil událost pro každý nový přidaný objekt. Tato událost provádí funkci Lambda a volá rozhraní Rekognition API, aby naskenovala obrázek. Odpověď z volání API obsahuje detekované položky. Funkce zapíše podrobnosti do tabulky DynamoDB a zpřístupní ji dovednosti Alexa.

Zde je například fotografie ze hry a odpovídající odpověď z rozhraní Rekognition API.

{
 “CaptDt”: “2017–04–16”,
 “CaptureTm”: “21:45:40”,
 „GameId“: „9180“,
 „ImageId“: „9180 / upload_13277b04a3c001948f3e570580f377c4.JPG“,
 „Štítky“: [
   {“Důvěra”: 98,8132629395, “Jméno”: “Pohovka”},
   {"Důvěra": 98,8132629395, "Jméno": "Nábytek"},
   {“Důvěra”: 85,2093963623, “Jméno”: “Lampa”},
   {"Důvěra": 85,2093963623, "Jméno": "Stolní lampa"},
   {„Důvěra“: 83.6216506958, „Jméno“: „Konferenční stolek“},
   {„Důvěra“: 83.6216506958, „Jméno“: „Tabulka“},
   {“Důvěra”: 66.3723068237, “Jméno”: “Jídelní stůl”},
   {"Důvěra": 54,6450958252, "Jméno": "Tvrdé dřevo"},
   {"Důvěra": 54,6450958252, "Jméno": "Dřevo"},
   {“Důvěra”: 52,6244163513, “Jméno”: “Nápoj”},
   {“Důvěra”: 52,6244163513, “Jméno”: “Nápoj”},
   {“Důvěra”: 52.0414428711, “Jméno”: “Stínidlo”},
   {“Důvěra”: 50.595413208, “Jméno”: “Jídelna”},
   {“Důvěra”: 50.595413208, “Jméno”: “Vnitřní”},
   {“Důvěra”: 50.595413208, “Jméno”: “Pokoj”}
 ]
}

Odpověď obsahuje řadu štítků použitelných na fotografii a interval spolehlivosti pro každou z nich. V této hře jsem hledal „lampu“ a služba identifikovala, že je na fotografii s 85% jistotou. Zapisovatel mě připsal za to, že jsem to našel!

Amazon Commoditizes zpracování obrazu

Hodnota služby Rekognition je její jednoduchost. Amazon již vyškolil modely strojového učení k rozpoznání mnoha objektů. Abych mohl službu používat, stačí zavolat API s adresou objektu, který chci skenovat. Díky tomu je velmi výkonná služba jednoduchá a levná. Pokud naskenuji 1 000 obrázků, bude to stát 1 $. To mi umožňuje soustředit se na vytváření uživatelského prostředí, včetně vzrušujícího hraní.

Závěr

Baví mě hrát tuto moderní verzi lovce mrchožroutů se svou rodinou. Je zábavné pobíhat po zahradě a fotografovat věci v domě a sousedství a poté se s Alexou zkontrolovat, jaké položky se shodují. Zkuste to prosím a dejte mi vědět, co si myslíte!

"Ach, místa, kam půjdeš!" Je tu legrace!
Body jsou bodovány. Existují hry, které lze vyhrát.
A magické věci, které s tím míčem můžete dělat
z vás udělá nejúspěšnějšího vítěze ze všech. “
- Dr. Seuss, Oh, místa, kam půjdete!