Η αναγνώριση φωνής χρησιμοποιείται για την μετατροπή ομιλίας ανθρώπων σε κείμενο ή για την αναγνώριση συγκεκριμένων εντολών. Οι προηγμένοι αλγόριθμοι ML εκπαιδεύονται με μεγάλα σύνολα δεδομένων φωνής, επιτρέποντάς τους να αναγνωρίζουν τις ποικίλες οδηγίες και τις ιδιαιτερότητες της ανθρώπινης ομιλίας. Η αναγνώριση φωνής χρησιμοποιείται σε πολλές εφαρμογές, όπως εικονικοί βοηθοί, συστήματα ελέγχου οχημάτων και εφαρμογές αναγνώρισης ομιλητικών εντολών.
Η αναγνώριση εικόνας ασχολείται με την αναγνώριση και κατανόηση των περιεχομένων ενός εικονικού αρχείου. Οι αλγόριθμοι ML εκπαιδεύονται με εκατοντάδες χιλιάδες ή ακόμα και εκατομμύρια εικόνες για να αναγνωρίζουν αντικείμενα, πρόσωπα, τοπία, και πολλά άλλα. Η αναγνώριση εικόνας χρησιμοποιείται σε εφαρμογές όπως η αυτόνομη οδήγηση, η ιατρική διάγνωση, και η κατηγοριοποίηση φωτογραφιών.
Στον συνδυασμό, η αναγνώριση φωνής και εικόνας δημιουργεί προηγμένες εφαρμογές που επιτρέπουν την αλληλεπίδραση με τις συσκευές και τα συστήματα με έναν πιο φυσικό και ανθρώπινο τρόπο.