Visual Speech Recognition Lecture – Icarus

Abstract

This lecture overviews Visual Speech Recognition that has many applications in Human-centered Computing, Image and Video Analysis and Social Media Analytics. It covers the following topics in detail: Visual Speech Recognition: Visemes and Phonemes, Face detection, Landmark Localization, Lip reading, Speech reading beyond the lips. Audio-Visual Speech Recognition. Deep Audio-Visual Speech Recognition: Convolutional Neural Networks. Recurrent Neural Networks. Overlapped speech. Speaker targeted AVSR models. Visual Speech Recognition for mobile devices. Visual Speech Recognition DataSets. Experiments on each data set.

Lip reading.

Visemes.

Visual-Speech-Recognition-v4.0-Summary