Le sous-titrage d'images avec de l'audio est apparu comme une t???che difficile mais prometteuse dans le domaine de l'apprentissage profond. Cet article propose une nouvelle approche pour aborder cette t???che en int???grant les r???seaux neuronaux convolutifs (CNN) pour l'extraction des caract???ristiques des images et les r???seaux neuronaux r???currents (RNN) pour l'analyse audio s???quentielle. Plus pr???cis???ment, nous nous appuyons sur des r???seaux neuronaux convolutionnels pr???-entra???n???s tels que VGG pour ...
Read More
Le sous-titrage d'images avec de l'audio est apparu comme une t???che difficile mais prometteuse dans le domaine de l'apprentissage profond. Cet article propose une nouvelle approche pour aborder cette t???che en int???grant les r???seaux neuronaux convolutifs (CNN) pour l'extraction des caract???ristiques des images et les r???seaux neuronaux r???currents (RNN) pour l'analyse audio s???quentielle. Plus pr???cis???ment, nous nous appuyons sur des r???seaux neuronaux convolutionnels pr???-entra???n???s tels que VGG pour extraire les caract???ristiques visuelles des images et nous employons des repr???sentations de spectrogrammes coupl???es ??? des r???seaux neuronaux r???currents tels que LSTM ou GRU pour traiter les entr???es audio. Le mod???le que nous proposons se base non seulement sur le contenu visuel des images, mais aussi sur les indices audio qui les accompagnent. Nous ???valuons les performances de notre mod???le sur des ensembles de donn???es de r???f???rence et d???montrons son efficacit??? ??? g???n???rer des l???gendes coh???rentes et contextuellement pertinentes pour les images avec les entr???es audio correspondantes. En outre, nous menons des ???tudes de tabulation pour analyser la contribution de chaque modalit??? ??? la performance globale du sous-titrage. Nos r???sultats montrent que la fusion des modalit???s visuelles et auditives am???liore significativement la qualit??? du sous-titrage par rapport ??? l'utilisation isol???e de l'une ou l'autre modalit???.
Read Less