Conceitos e Fundamentos do HEVC/H.265

Nº 147 – Dez/Jan 2015

por Tom Jones Moreira

ARTIGO

O futuro da televisão não se dará apenas no campo das tecnologias. Será definido pelas pessoas. Pelos hábitos, consumo, negócios e políticas. Será definido por nós, será definido pela sociedade

Na primeira parte deste artigo se tentará explicar o que é o novo codec HEVC/H.265, seus principais fundamentos e conceitos e suas possíveis funcionalidades.

1. Introdução
High Efficiency Video Coding (HEVC) é um padrão de compressão de vídeo, e sucessor do H.264/MPEG-4 AVC (Advanced Video Coding).
Sua norma é a ISO / IEC 23008-2 MPEG-H e ITU-T H.265. Onde seu conteúdo técnico foi finalizado em 25 de janeiro de 2013 e a especificação foi formalmente ratificada como padrão em 13 abril de 2013.
Uma das principais áreas para o uso do HEVC é o vídeo de alta resolução, como HD (1920x1080p) e UHDTV (4K: 3840 × 2160 ou 8K: 7680 × 4320).
As características estatísticas de tais fluxos de vídeo tendem a ser diferentes se compararmos com um conteúdo de baixa resolução: o tamanho dos frames são maiores e a taxas dos quadros e a qualidade percebida também, o que torna-se obrigatório a imposição de requisitos mais complexos de eficiência de compressão, bem como uma melhor (e maior) complexidade computacional dos processos de codificação e decodificação. Como os smartphones e tablets avançaram para uma arquitetura multi-core (ARM: dual core, quad core etc.) a capacidade de tirar proveito do processamento paralelo é fundamental quando se trata da compressão eficiente de conteúdos de alta resolução. Todos estes pontos foram levados em consideração durante o desenvolvimento do novo padrão.
A codificação hibrida baseada em blocos usada no novo codec é a mesma que foi utilizada nos padrões de codificação de vídeo anteriores (H.264). Para codificar o conteúdo, quadros de vídeo são divididos em blocos que são codificados individualmente, aplicando- se técnicas de predição – baseando-se em blocos vizinhos da mesma imagem (previsão intra blocos ou IntraPrediction) ou de imagens previamente codificadas (por estimativa de movimento / compensação). A diferença entre o resultado previsto e os dados do vídeo original é subseqüentemente codificada por uma aplicação dos blocos de “Transformada” e Quantização. Desta maneira, um bloco pode ser representado por apenas alguns coeficientes diferentes de zero. A quantização de coeficientes de transformação, vetores de movimento, direções de predição, modos de bloco e outros tipos de informação são codificados com entropia sem perdas na codificação. A codificação hibrida baseada em blocos é ilustrada na Figura 1.

Figura 1: Diagrama simplificado de um encoder HEVC. Fonte: Autor baseado em [1]

2. Como tudo isso funciona?
Para garantir o alto nível de eficiência de compressão, e suporte para o processamento paralelo, algumas partes do HEVC foram alteradas se comparado com as gerações anteriores de codecs. Para a maior parte dos codecs H.26X, a maior entidade que poderia ser codificada era um macrobloco (16 × 16 pixels). Já para o HEVC foram introduzidas estruturas de blocos maiores, com mecanismos flexíveis de particionamento. Dessa forma o bloco básico do HEVC é chamado de LCU (Largest Coding Unit) “grande unidade de codificação”) ou CTU (Coding-Tree Unit), que possui um tamanho máximo de 64 × 64 pixels. Cada CTU é a raiz de uma “quadtree” (uma espécie de super macrobloco) e pode ser de forma recursiva dividido em outras pequenas unidades de codificação chamadas de UC (Coding Units), que por sua vez, ainda podem ser divididas em pequenas Unidades de Predição as “PU´s”(Prediction Units) e em TU (Transform Units). Como mostrado nas Figuras 2 e 3.

Figura 2: O “super macrobloco HEVC” LCU Fonte: IEE Consumer Elect. Magazine Julho2012

Figura 3: Um exemplo do particionamento de um LCU em UC´s, PU´s e Tu´s – Fonte: Autor baseado em [2]

2.1 Unidades de Codificação (UC´s) O tamanho dos UC´s pode ser tão grande como a própria LCU, ou pode ser dividido de forma recursiva em quatro tamanhos iguais dessa fonte e tornar-se tão pequeno quanto 8×8, dependendo do tamanho do conteúdo da imagem. (veja a Figura 2) Partições de predição de movimento podem gerar formas quadradas ou retangulares, o que também ocorria com o H264. O diferencial aqui é que o HEVC, também suporta algo chamado Partições de Movimento Assimétrico (AMP: Asymmetric Motion Partitions), que pode dividir cada UC em unidades de predição (PU´s) com largura ou altura desiguais, como ilustrado naFigura 4.

2.2 Unidades de Predição (PU´s)
Como foi dito, cada Unidade de Codificação (UC) pode ser dividida em unidades menores, que formam a base para a predição. Essas unidades são chamadas de PU´s (Prediction Units). Cada unidade de codificação pode conter um ou mais PU´s, e cada um dos PU´s podem ser tão grandes quanto a sua UC ou tão pequenos quanto 4 # 4 em tamanhos de blocos de luminância.

Figura 4: a – simétricos b – assimétricos Pus. Fonte: IEE Consumer Elect. Magazine Julho2012 [3]

Enquanto uma LCU (Supermacrobloco) pode se dividir de forma recursiva em blocos menores de UCs, a divisão de UC em PU não pode ser recursiva (e pode ser feito apenas uma vez). As PU´s podem ser simétricas ou assimétricas. Assumindo que podem ser quadradas ou retangulares. Em particular, uma UC de tamanho 2N # 2N pode ser dividida em até duas PU´s simétricas de tamanho N # 2N ou 2N # N ou quatro PU´s de tamanho N # N, conforme mostrado na Figura 4 acima.

2.3 Unidades de Transformação (UT´s)
O HEVC aplica uma DCT (Transformada Discreta do Cosseno) aos resíduos de dados descorrelatos. As unidades de Transformação (UT´s) são a unidade básica para os processos de transformação e quantização. O tamanho e a forma de uma UT depende do tamanho da unidade de predição (UP) que a originou. Dessa forma uma UT pode ser tão pequena quanto 4#4 ou tão grande quanto 32#32 das amostras de luma de uma imagem.
Cada UC pode conter uma ou mais UT´s, e cada quadrado de uma UC pode se dividir em UT´s menores.
Figura 5 abaixo ilustra como as UT´s podem ser dispostas dentro de uma LCU.

Figura 5: Exemplo das UT´s dentro de uma LCU. [3]

Dessa forma vemos que o tamanho dos blocos de predição, em HEVC pode variar de 4 × 4 amostras até 64 × 64, enquanto o tamanho das transformadas podem variar de 4 × 4 até 32 × 32 amostras. Grandes blocos de predição são a forma mais eficiente para codificar grandes áreas lisas, de imagem simples, enquanto blocos de predição menores e transformadas podem ser usadas para alcançar a precisão em áreas que contêm uma série de detalhes mais complexos na imagem.
A especificação HEVC abrange mais modos de intra -predição do que o H.264, incluindo um modo para aplanar e aproximar uma superfície de pixels vizinhos, e um outro plano com 35 modos de predição angulares, conforme mostrado na Figura 6, abaixo.

A intra-predição pode ser feita em blocos de diferentes tamanhos, baseando-se sempre no tamanho máximo da unidade de predição (UP) que ele pertence, conforme mostra a tabela abaixo:

Figura 6: Modos de Intra-predição para HEVC (a) e H264 (b) Fonte: IEE Consumer Elect. Magazine Julho2012 [3]

O desempenho da Intra-predição ainda pode ser melhorado com a utilização de filtros de suavização de pixels adjacentes chamados de: MDIS (Mode dependent intrasmoothing). O MDIS é ativado com base no tamanho da UP e em geral é utilizado para grandes tamanhos de UP´s e em modos direcionais.
O HEVC tem 6 modos de intra-predição de croma, a saber: Modo direto (DM: DirectMode), Modo Linear (LM: Linear Mode), Vertical (Mode 0), Horizontal (Mode 1), DC (Mode 2), e por fim o Plano (Mode 3).
De forma geral DM e LM exploram a correlação dos componentes de luminância e crominancia. Como o tipo de correlação explorada por DM e LM são diferentes, os dois modos se complementam nos termos da codificação de desempenho. Devido a correlação existente entre Luma e croma, DM e LM são os modos mais utilizados para a melhoria da qualidade da intra-predição e croma.
A Predição para luma usa blocos de compensação de movimento com precisão de até um quarto de pixel, enquanto a compensação de movimento dos componentes de cor é realizada com precisão de um oitavo de pixel. A Interpolação para pixels fracionários usa 8-tap filters para blocos de luma e 4-tap filters para a cor.

Tabela 1 Relação de UP´s x Modos de Intra-predição. Fonte: IEE Consumer Elect. Magazine Julho2012 [3]

2.4 O Codificador de Entropia
Após a transformação, a codificação de entropia é aplicada para codificar todos os elementos e coeficientes que foram quantificados. No HEVC há um único codificador de entropia para os dados de baixo nível. Ele é chamado de CABAC (Context Adaptive Binary Arithmetic Coder) e é similar ao utilizado no H.264, mas foi modificado para facilitar o processamento paralelo.
CABAC é uma técnica de compressão sem perdas, e é muito superior a maioria dos outros algoritmos de codificação de entropia utilizados na codificação de vídeo. Embora ele seja um dos elementos-chave que fornece ao H.264 sua superior capacidade de compressão em relação aos codecs MPEG2 e MPEG1. Porém no H.264 / MPEG-4 AVC, o CABAC é suportado apenas nos Perfis “Main” e “Higher”, uma vez que requer uma quantidade maior de processamento para decodificar, já no HEVC, o mesmo CABAC é usado em todos os perfis do padrão. A Figura 7 ilustra o diagrama em blocos do Codificador de entropia do HEVC, como pode ser visto existem dois modos do codificador: o de Alta eficiência (HEB: high-efficiency binarization) e o de alto rendimento binário (HTB: high-throughput binarization).

Fig.7. O Codificador de Entropia do HEVC

O modo HEB é inteiramente baseado em CABAC enquanto o modo HTB é parcialmente baseado no modo de codificação residual CAVLC (Context-adaptive variable- length coding).
No modo HTB todos os elementos da sintaxe, são codificados por CABAC, exceto os coeficientes residuais que são codificados usando CAVLC. Dessa forma o codificador de entropia do HEVC busca utilizar a melhor características de ambos os codificadores CABAC e CAVLC, e isso lhe proporciona respectivamente uma alta eficiência com baixa complexidade.
O padrão HEVC define, ainda, duas estruturas chamadas de “filtros in-loop”. Um filtro de desbloqueio e outro chamado de S.A.O (Sample Adaptive Offset). Este último é aplicado à saída do filtro de desbloqueio, e aumenta a qualidade das imagens de referência, aplicando deslocamentos transmitidos para as amostras que cumpram determinados critérios. Os filtros in-loop melhoram a qualidade subjetiva do vídeo reconstruído, bem como a eficiência da compressão.
O processo de filtragem chamado de “Deblocking filtering” no HEVC é menos complexo do que no H.264, uma vez que ele esta limitado a uma rede de blocos de 8 x 8. Essa restrição, juntamente com as decisões de filtragem (in-loop) e as operações que não se sobrepõem entre dois limites, simplificam muito o processamento multi-core.

Continuará... Na segunda parte finalizaremos a explicação conceitual do codec e mostraremos o seu desempenho e complexidade

Referências:
[1] Gary J. Sullivan, Jens-Rainer Ohm, Woo-Jin Han, e Thomas Wiegand- Overview of the High Efficiency Video Coding (HEVC) Standard, Dez 2012
[2] JCT-VC, “Encoder-side description of test model under consideration,”in Proc. JCT-VC Meeting, Geneva, Switzerland, Julho 2010,
[3] Mahsa T. Pourazad, Colin Doutre -HEVC: The New Gold Standard for Video Compression, IEEE CONSUMER ELECTRONICS MAGAZINE. Julho 2012, pág. 36 a 47
[4] TK Tan; Marta Mrak; Vittorio Baroncini; Naeem Ramzan (2014-05-18). “Report on HEVC compression performance verification testing”. JCT-VC. Maio 2014.

Tom Jones Moreira é especialista em sistemas digitais, experiência de mais de 12 anos no mercado de Telecom. Consultor de TV Digital para Tecsys. Membro do Fórum SBTVD, Módulo de Promoção e Módulo Técnico, e da Diretoria de Ensino da SET.

Post Tags: