La señal de vídeo digital (2)

vídeo digital

Para obtener una señal de vídeo digital tenemos que establecer una diferencia porque no es lo mismo construir esa señal a partir de una captación de imagen o de una señal de vídeo analógico. En el primer caso se realiza un tratamiento similar a si se tratase de una señal analógica, de hecho es en el último paso donde la información obtenida se transforman en datos digitales. En el segundo caso, evidentemente, no es necesario todo el proceso inicial por que ya tenemos conformada la señal de vídeo a tratar.
Cuando trabajamos con señales de vídeo digital, normalmente se trabaja en componentes, aunque existe la posibilidad de obtener una señal de vídeo digital a partir de una señal de vídeo compuesta, esto en la práctica realmente no se utiliza.
Al trabajar con información digital, es muy importante controlar la cantidad de información que es necesaria para obtener una determinada calidad en la imagen resultante. Porque si no es así el flujo de datos se puede incrementar considerablemente, y muchas veces este incremento no produce una mejora sustancial de la calidad, por ello, al igual que se hacía con las señales de vídeo analógico cuando se obtenía una señal de vídeo compuesto, lo que se hace es aprovechar la menor sensibilidad del ojo humano a la información de color para reducir esta información.
Según el teorema de Nyquist, para poder reconstruir fielmente una señal analógica a partir del muestreo de la misma, ese muestreo se debe realizar al menos con una frecuencia de dos veces la máxima frecuencia de la señal en cuestión. Si el ancho de banda de cada uno de los tres componentes de color, RGB, de una señal de vídeo es de 5,5 MHz., según el teorema de Nyquist deberíamos utilizar una frecuencia de muestreo de más de 11 MHz. Y es que sabemos que el ojo humano es menos sensible a las variaciones de color, por lo que para reducir la información, en lugar de trabajar con componentes RGB, se trabaja con componentes de diferencia de color, es decir, Y, B-Y, y R-Y. De esta forma podemos utilizar una mayor información en el caso de la señal de luminancia, Y, para la que es más sensible el ojo humano, y una menor información para las otras dos componentes, limitando en este caso, con el correspondiente filtro, el ancho de banda utilizado que en este caso es la mitad, es decir 2,75 MHz. Ésta es una forma sencilla de reducir la información sin afectar significativamente a la calidad de la imagen. Esto no se utiliza siempre ya que habrá veces en las que se busca una mayor calidad, como por ejemplo ocurre en entornos de postproducción. En este caso se trabajara con las señales en componentes RGB y a máxima calidad.
Como hemos visto, necesitamos muestrear la señal de luminancia a más de 11 MHz., y las componentes de diferencia de color a mas de 5,5 MHz. Para simplificar el procesado de la información, y también para que sea más fácil la compatibilidad entre los equipos de diferentes formatos, se buscó una frecuencia que permitiese satisfacer las necesidades de los diferentes formatos de vídeo, y es por ello que la frecuencia de referencia utilizada es de 13,5 MHz, para el caso de la señal de luminancia, Y, y de 6, 75 MHz, para el caso de la señales de color, B-Y y R-Y.
La estructura del muestreo que se realiza tanto a la señal de luminancia como a la señales de color, es de un muestreo octogonal, es decir, se repite en línea, campo y cuadro.
Los datos digitales obtenidos forman un flujo de datos en paralelo con palabras de 10 bits. Este formato es interesante para procesar la información, el procesado es más rápido, pero complica en cierto modo la transmisión. La señal de vídeo digital, según la recomendación ITU-R-BT 601, se puede transmitir como un flujo de datos paralelo de palabras de 10 bits, que se conoce como “interfaz paralelo”. Este interfaz tiene muy poco uso para interconectar equipos por las limitaciones que implica, ya que es necesario utilizar cable de datos de 12 pares, conectores Sub-D de 25 pines y está limitado a conexiones de corta distancia.
En cambio en las instalaciones audiovisuales se utiliza un formato mucho más cómodo, la señal SDI, (Serial Digital Interface), las especificaciones de este formato están recogidas en la recomendación ITU-R-BT 656 para la transmisión de señales de vídeo en componentes digitales, utilizando un flujo de 270 Mbits/s.
Este flujo de 270 Mbits/s se obtiene de un flujo de datos paralelos, con palabras de 10 bits y una frecuencia de 27 MHz. Los datos de este flujo contienen la información de luminancia, Y, muestreada a 13,5 MHz., y de las dos señales diferencia de color muestreadas a 6,75 MHz respectivamente.
Para poder presentar la imagen resultante en una pantalla, al igual que lo que sucede con la señal de vídeo analógico, es necesario utilizar un sincronismo horizontal y otro vertical, pero lo que sucede es que en el caso de señales de vídeo digital esto es mucho más sencillo. Se utiliza una secuencia de palabras para indicar el fin de línea y otra para indicar el comienzo de línea.
En sistemas de TV analógica de 625 líneas, la duración de una línea es de 64 ms de los que 52 ms se utilizan para la señal de vídeo, o parte visible de la línea, y los otros 12 ms para el sincronismo horizontal, nivel de borrado o parte no visible de la línea. Esta estructura, en cierto modo, se mantiene en la señal de vídeo digital.
Esos 64 ms equivalen a 1728 palabras de 10 bits. Estas palabras se reparten entre los diferentes tipos de datos de la siguiente manera: 720 palabras corresponden a las muestras de luminancia, y 360 palabras para cada una de las dos muestras diferencias de color. Esto realmente dura un poco más que en el caso de la señal de vídeo analógica, concretamente 53,33 ms., quedan 288 palabras para la parte no activa de la línea de vídeo. Estas 288 palabras, duran un poco menos que en el caso de la señal de vídeo analógica, para compensar la mayor duración de la parte activa de vídeo. En concreto esta parte no activa de la señal, tiene una duración de 10,66 ms  y se reparte a su vez, en intervalo de borrado de línea, 280 palabras, y 2 secuencias de sincronización de 4 palabras de 10 bits cada una, para indicar el comienzo y final de línea.
La primera secuencia de sincronización se denomina EAV (End of Active Video). Esta secuencia marca el comienzo de la línea, y la segunda secuencia de sincronización se denomina SAV (Start of Active Video) que marca el final.
De estas cuatro palabras, la primera que se transmite es una palabra de 10 bits, todo “1″, en hexadecimal 3FF. A continuación otras dos palabras de 10 bits cada una, todo “0″, en hexadecimal 000. La cuarta palabra es un código con la información de sincronización y en la que indicamos la información de comienzo y final de campo, comienzo y final de borrado vertical, y comienzo y final de borrado horizontal. Son los bits F, V y H. Las palabras 3FF y 000 están reservadas para la sincronización del sistema, por lo que no se pueden utilizar para otro tipo de información, y cuando encontramos estas 3 palabras seguidas indica que la siguiente palabra contiene información de sincronismo, que será cualquiera de los bits anteriores, F, V y H necesarios para poder sincronizar el sistema. Además las 3 primeras palabras son vitales para simplificar el proceso de deserialización de la señal digital.
Para el intervalo de borrado de cada línea se utilizan 280 palabras de 10 bits por lo que se dispone de un flujo de 43,75 Mbit/s (280 x 10 x 15.625).
Esta capacidad, bastante grande, se puede utilizar para transmitir junto con la señal de vídeo digital otros paquetes de datos denominados “ancillary data” que por ejemplo se puede utilizar para enviar datos de audio, opción muy interesante porque permite enviar por el mismo cable el vídeo con su audio asociado. Esto reduce considerablemente la instalación audiovisual.
La estructura de estos datos, tanto en el intervalo horizontal, HANC (Horizontal Ancillary), como en el intervalo vertical VANC (Vertical Ancillary) están definidos en la recomendación ITU-R BT.1364. En la recomendación ITU-R BT.1305 se define más concretamente cuando los datos que se incluyen son de audio digital y que a su vez sea conforme a la recomendación de sonido ITU-R BS.647 que se conoce como AES/EBU.
La recomendación ITU-R BT.1305 define un mínimo de dos canales de audio y un máximo de 16 canales de audio que se transmiten por pares combinados, y asociados en grupos de 4 canales de audio.
En una señal de vídeo digital SDI podemos tener hasta 4 grupos, de dos pares de audio cada uno, lo que hace un máximo de 16 canales. Se trabaja con pares indisolubles de canales de audio por que en la recomendación ITU-R BS.647 se definen cuatro modos de uso posibles, dos sonidos independientes, monofónicos, primario/secundario, o como par estereofónico.
El muestreo utilizado, es preferentemente de 48 Khz., síncrono con el vídeo, es decir, que hay ortogonalidad entre un número de muestras de audio y un número entero de imágenes de vídeo, siendo este número entero de imágenes el periodo de ortogonalidad. Pero la recomendación también soporta otras opciones de muestreo comprendidas entre 32 Khz., y 48 Khz., tanto de forma síncrona como asíncrona.
En los sistemas de 25 imágenes por segundo, la ortogonalidad ocurre en una sola imagen de vídeo, es decir, en un cuadro para las frecuencias de muestreo recomendadas obteniéndose las siguientes muestras por imagen: para 48 Khz., se obtienen 1920 muestras por imagen, para 44,1 Khz., se obtienen 1764 muestras por imagen y para 32 Khz. se obtienen 1280 muestras por imagen. En cambio en los sistemas de 29,97 imágenes por segundo utilizados en el formato de señal de vídeo NTSC, la ortogonalidad audio y vídeo varia dependiendo de la frecuencia de muestreo utilizada para la señal de audio, obteniendo los siguientes valores: 5 imágenes si la frecuencia de muestreo utilizada es de 48 Khz., 100 imágenes si la frecuencia de muestreo utilizada es de 44,1 Khz., esta frecuencia de muestreo se utiliza mucho para el audio de los discos compactos, y 15 imágenes si la frecuencia de muestreo utilizada es de 32 Khz. Estos datos hay que tenerlos en cuenta a la hora de sincronizar señales, pues se producirían problemas para poder mezclar o conmutar dos señales entre sí. Pasa algo similar a lo que sucedía en los sistema de vídeo analógico PAL, que era necesario respetar la secuencia SCH de 8 campos, es decir, 4 imágenes.
Las muestras de audio utilizan 20 bits, aunque es posible soportar muestras de 24 bits o bien 20 bits de audio y 4 para datos AES/EBU. Hay que tener en cuenta que el audio debe incluirse solamente durante los intervalos de borrado horizontal, entre las secuencias EAV y SAV repartido de forma uniforme pero sabiendo que no se pueden utilizar las líneas donde se produce la conmutación entre dos señales, concretamente en las líneas 7 y 320. Y tampoco se pueden utilizar las líneas reservadas para incluir la información para el tratamiento de errores, EDH, en las líneas 5 y 318.
Hay otras líneas reservadas, las líneas 8 y 321, para unos paquetes de control de audio, pero estos no siempre se utilizan por que son opcionales, pero en todo caso es necesario respetar esas líneas y si no se utilizan para incluir los correspondientes paquetes de datos de control, no se incluirá ninguna otra información.
Es de esperar que en el caso de sistema de vídeo de 25 imágenes por segundo no existan problemas debido a la conmutaciones de señales por que la secuencia de ortogonalidad audio y vídeo es de una sola imagen, pero a veces suceden problemas en la conmutación entre dos señales que se manifiestan con chasquidos en audio.
Cuando queremos conmutar dos señales de vídeo digital, SDI, tenemos dos posibilidades. La primera es pasar esa señal serie a paralela, conmutar y volver a pasar la señal de datos paralelo a serie. De este modo las conmutaciones serian limpias y sin errores, siempre que su desfase sea menor de ±18 ns, ya que una palabra dura unos 37 ns. Esto es una precisión similar a la que se necesita cuando se quiere conmutar entre señales PAL por lo que no seria muy complicado de obtener, evidentemente esta solución no es muy viable ya que se requeriría 10 conmutadores por cada punto de cruce.
La otra posibilidad es conmutar directamente la señal SDI, por lo que solo se necesitara un conmutador por cada punto de cruce. Para conseguir en este caso una conmutación limpia se requiere las siguientes condiciones:
-    Las señales a conmutar tienen que ser sincronas, es decir, que compartan una misma señal de referencia de tiempos. Esta condición es la misma que sería necesaria si se tratase de una conmutación de señales de vídeo analógicas.
-    Las señales a conmutar tienen que tener la misma fase V, es decir, tienen que ser isócronas, esta condición es la misma que sería necesaria si se tratase de una conmutación de señales de vídeo analógicas.
-    La conmutación se tiene que realizar en el intervalo de borrado vertical para que no aparezcan campos formados a medias con la mezcla de esas dos señales a conmutar, esta condición es la misma que sería necesaria si se tratase de una conmutación de señales de vídeo analógicas.
Las condiciones anteriores son necesarias, pero no suficientes, por que se pueden producir dos tipos de errores.
El primer error es por la utilización de registros de desplazamiento para pasar de datos digitales paralelo a serie y viceversa. Como estos elementos tienen memoria, su salida no solo depende del bit que reciben en ese momento si no de bits anteriores, por lo que se introduce un error a realizar la conmutación. Este error no es muy importante por la posición donde se producen estos errores, líneas 6 ó 319 del intervalo vertical y no afecta ni a la imagen, ni a las secuencia de sincronización, ni al audio que acompaña a la señal de vídeo.
El segundo tipo de error esta relacionado con la fase V, en vídeo analógico la tolerancia se sitúa en el orden de unos 20 ns, que se corresponde con la décima parte de la duración del impulso 2T y se manifiesta siempre que estemos por debajo de ese valor de tolerancia, como un movimiento lateral de la imagen pero imperceptible. Si se trata de señales de vídeo digital paralelo, la tolerancia es inferior a 18 ns, que se corresponde con la mitad de la duración de una palabra, pudiéndose recuperar los datos digitales sin error, aunque se manifiesta el mismo error en la imagen siendo también imperceptible. El problema esta en el vídeo digital serie, donde la tolerancia tiene que ser menor de 1,8 ns, que se corresponde con la mitad de la duración de un bit, y evidentemente esta tolerancia es prácticamente imposible de conseguir.
La señal que normalmente se utiliza como referencia es una señal analógica de Black Burst, los flancos de bajada de esta señal es de 200 ns, por lo que no es posible ajustar las fases de dos señales con un error menor de ± 1 ns.
Cuando las señales SDI que se conmutan tienen una diferencia de fase mayor que la mitad de la duración de 1 bit, cuando se pasa de serie a paralelo con los registro de desplazamiento, el resultado no será correcto ya que la fase del divisor que se utiliza para obtener el reloj de 27 Mhz., a partir de la señal de 270 Mhz., y que se utiliza para hacer la descarga de los correspondientes registros, estará equivocada, no siendo validos los datos obtenidos hasta que se termine la línea. Por eso es necesario que las conmutaciones se realicen en las líneas reservadas, y que en esas líneas no se incluya ninguna información susceptible de verse afectada por la conmutación.
Para mejorar estos problemas de sincronización, los equipos de conmutación, sobre todo mezcladores de vídeo, utilizan sincronizadores de cuadro en las diferentes entradas para simplificar los ajustes de fase entre señales. De esta forma aumentan la ventana que disponen para situar las fases de las diferentes señales a conmutar, pero en todo caso, es necesario realizar una sincronización de todas las señales a la entrada del mezclador, porque si no, podemos tener los problemas antes descritos. Otra posibilidad a tener en cuenta seria utilizar equipos que procesen las señales de vídeo digital según las diferentes recomendaciones, respetando las líneas reservadas para otros fines.

Texto: José Ruiz

3 comentarios

  1. JuLieta
    #1

    haganlo con la misma informaciom pero menos palabras… !

  2. miriam
    #2

    muy completo

  3. Mario Marano
    #3

    Exelente, amigo Jose. Bien tecnico y matematico como tiene que ser.