A Google új technológiát épített fel a hangalapú keresés fokozására, amely a cég szerint még gyorsabbá és pontosabbá teszi azt. Az új technológia a Connectionist Időbeli Osztályozást (CTC) és a szekvenciákat diszkriminatív edzési technikákat használja. 2012-ben a Google átváltott a Gaussian Mixture Model (GMM) -ről a Deep Neural Networks-re (DNN), amely lehetővé tette a társaság számára, hogy jobban felmérje, hogy a felhasználó által akkoriban milyen hangot állított elő, és nagyobb beszédfelismerési pontosságot adott.
Javított akusztikus modelljeink a visszatérő neurális hálózatokon (RNN) támaszkodnak. Az RNN-eknek visszajelzési hurkok vannak a topológiájukban, lehetővé téve számukra az időbeli függőségek modellezését: amikor a felhasználó beszél / u / az előző példában, az artikulációs készüléke a / j / hangból és egy / m / hangból származik. Próbáld ki hangosan mondani - "múzeum" - nagyon természetesen áramlik egy lélegzettel, és az RNN-k ezt el tudják fogni. Az itt használt RNN típus egy hosszú rövid távú memória (LSTM) RNN, amely a memóriacellák és a kifinomult kapu-mechanizmus révén jobban megjegyzi az információkat, mint a többi RNN. Az ilyen modellek elfogadása már jelentősen javította felismerőnk minőségét.
A technológia megváltoztatását a Google hajtotta végre, és most már felhasználják a hangalapú keresések fokozására a Google alkalmazásban iOS és Android rendszeren egyaránt, valamint az Android készülékek diktálására.
Forrás: Google Research Blog