Bilo da je riječ o Siri, Google Now ili Cortani, virtualni pomoćnici na tri vodeće mobilne platforme su potpuno zakazali kad je riječ o nešto složenijim upitima. Developeri Daniel i Aimee Hendycks su napravili pokus zabavnog karaktera, kojim su pokušali vidjeti kako se asistenti ponašaju pri složenim upitima
Dvoje developera je razvilo jednstavan PAAIST test za umjetnu inteligenciju, kojim su za sve platforme pripremili 60 nasumično generiranih pitanja (korištenjem Query Generator). Sama pitanja su naposljetku ispala nešto složenija od uobičajenih korisničkih upita za vremenskom prognozom i dodavanjem podsjetnika.
Odgovori su se ocjenjivali sa 0%, 75% ili 100%, a niti jedan od pomoćnika nije uspio odgovoriti na više od 33,3 posto pitanja. Najgore je prošla Cortana, sa svega 11,7 posto točnih odgovora, a slijedili su Siri (25,8 posto) i Google Now (33,3 posto). S obzirom na postavljena pitanja, jasno je da su se ovakvi rezultati mogli i očekivati, no jednako tako je jasno da su se neka od pitanja mogla postaviti drugačije te dobiti točni odgovori. 'Umjetna inteligencija' iza svih ovakvih pomagala je ipak još u ranoj fazi, a testove poput ovoga se teško može uzeti za ozbiljno, što ne čine ni autori;
'Ovo je nepotpun benchmark napravljen radi zabave. Utvrđivanje snage umjetne inteligencije samo iz ovakvog testa je problematično', stoji u napomeni Hendrycksa.
Zgodno za primijetiti je i to da su rezultati drugih istraživanja pokazali slične rezultate, ili radije, poredak virtualnih pomoćnika: