La presente investigación tiene como objetivo proponer un método para la detección automática de puntos de interés en contenido audiovisual utilizando la información temporal y espacial. Este método es una alternativa novedosa que pueden aplicar los medios de comunicación en sus centros de documentación audiovisual, con el fin de lograr una localización del contenido audiovisual en videos de forma automática, lo que facilita la gestión de información. Igualmente es crucial su aplicación en sistemas para la búsqueda y catalogación de medias y sistemas que realicen gestión documental y archivística. En este trabajo se propone el uso de diferentes tipos de descriptores para la creación de vocabularios para tareas de detección de objetos diferentes en movimientos y acciones. El método supone que las clases de objetos o acciones son desconocidas por adelantado y explota las propiedades temporales y espaciales de los videos para la creación de un vocabulario que describe estas clases. Las características del espacio y el tiempo se han convertido recientemente en una representación popular de los vídeos para el reconocimiento de acciones y la detección objetos. El nuevo método presentado se compara con propuestas actuales para situaciones similares, obteniendo mejores resultados en la precisión y el rechazo de objetos o acciones falsas.