Admin ]

Affichage optimisé : 1280x1024. Nous sommes le  vendredi 22 mars 2019
Vous êtes ici : Accueil  /  4- Signal, acquisition, traitement, stockage
MPEG-1 / MPEG-2 : Compression vidéo (et audio)
mercredi 23 février 2011, par gerla
Les travaux du groupe de travail MPEG ; outils de compression vidéo MPEG-2

Cet article aborde l’écosystème MPEG et les principes mis en œuvre dans les étapes de développement. Depuis 1988, MPEG ( Motion Picture Expert Group ) est le groupe de travail ISO/IEC JTC1/SC29/WG11 chargé du développement de standards de représentation codée d’audio et vidéo numériques. Voir également MPEG home page .

Voir également les autres publications de ce site ainsi que Techniques audiovisuelles et multimédias -tome 1- 3ème édition chez (JPG) Dunod Editeur et dans toutes les bonnes librairies.

1- Liste des standards MPEG et applications

-   MPEG-1 : 1992 - Faible débit, qualité « VHS » analogique, VCD, DV-I, MP3.
-   MPEG-2 : 1994, 1996 - Application de télédiffusion (broadcast) et application DVD.
-   MPEG-4 : 1999 - Compression basée objets audio, vidéo, description de scènes.
-   MPEG-7 : 2001 - Description des contenus audiovisuels (essence, métadonnées).
-   MPEG-21 : 2002 - Description des ressources et droits associés (multimedia framework).

A cette “liste de base”, s’ajoute des standards de mise en œuvre comportant de multiples outils MPEG afin de répondre à des applications spécifiques (MPEG-A, MPEG-B, MPEG-C, MPEG-D), au téléchargement d’applications multimédias (MPEG-E), à l’obtention de taux de compression vidéo élevés (MPEG-H), etc.

Exercice : Dans la liste ci-dessus, quels standards ne décrivent pas les outils de compression audio et vidéo ?

2- MPEG-1 : objectifs, principales caractéristiques

Fin des années 80, l’enregistrement et la lecture de données audionumériques non compressées sur des disques à lecture laser (CD audio au standard CD-DA, red book , 1980) sont parfaitement maîtrisés.

L’image de télévision (2 trames entrelacées, 625 lignes, 50Hz en Europe, Afrique) est encore sous la forme « native » (analogique, la chrominance C est codée PAL/NTSC ou SECAM). Voir Cours de télévision (Dunod), normes de télédiffusion page 55 à 66 et codage chrominance pages 142 à 149.

En grand public, la seule façon de stocker ces images est d’utiliser le magnétoscope à bande VHS, VHS-C (caméscope) ou HI-8 (voir Techniques audiovisuelles et multimédias, Dunod, tome 1, pages 168 à 183). Ces cassettes à bande sont relativement encombrantes. Il est difficile d’accéder à une séquence particulière au milieu d’une bande. Lors de montage vidéo, la copie est de mauvaise qualité.

Des lecteurs laser (seules les diodes laser infrarouge des lecteurs audio existent) sont développés. L’enregistrement audio et vidéo se fait sur des disques à lecture laser de 30cm de diamètre. La vidéo enregistrée est toujours ... analogique !

En grand public, la numérisation des contenus vidéo a fait ses premières armes dans les téléviseurs 100Hz destinés au marché européen. Les industriels développent des téléviseurs dont le rafraîchissement de l’image est deux fois plus rapide : alors que la télédiffusion des images est toujours à 50Hz, l’affichage sur l’écran du téléviseur est à 100Hz. Afin de réduire les défauts engendrés (saccades) par ce doublement de la fréquence trame, la vidéo est numérisée dans le téléviseur et des trames intermédiaires sont calculées (voir Cours de télévision, chapitre vidéo 100Hz, pages 177 à 181).

Les industriels du domaine audiovisuel cherchent quelles pourraient être les solutions permettant d’enregistrer de la vidéo sur un disque laser de type audio (12cm de diamètre). Le secteur des jeux vidéo est encore naissant. Des intérêts économiques énormes sont en perspective.

La commission de travail MPEG se met en place alors que les travaux sur les techniques de compression JPEG ( Joint Photographic Experts Group crée en 1986) ont déjà permis l’élaboration d’un premier standard de compression des images fixes. De plus, un codec vidéo appelé MJPEG ( Motion JPEG ) permet de compresser les images une à une au format JPEG.

Plus récemment et pour mémoire, la norme JPEG a évoluée en intégrant la compression par ondelettes ( JPEG 2000 ). Voir Techniques audiovisuelles et multimédias, Dunod, tome 1, pages 84 à 89 Plus récemment encore, MJPEG 2000 a été choisi pour être la norme du cinéma numérique ISO 26428-1

Quelques caractéristiques remarquables de MPEG-1

MPEG-1 est un standard en 5 parties (parts) :

-   Part 1 : Agencement, combinaison des flux de données issus du codage des images animées et sons associés en un flux unique ( single stream ). Les données sont formatées pour répondre aux exigences des supports de stockage ou de transmission pouvant fournir un débit jusqu’à 1,5 Mbit/s.
-   Part 2 : Spécification des techniques de compression des séquences vidéo (applicables aussi bien en 625 lignes qu’en 525 lignes). Compression temporelle à compensation de mouvement, compression spatiale, DCT et codes à longueur variable.
-   Part 3 : Spécification des techniques de compression audio mono ou stéréo. Utilisation d’un modèle psychoacoustique.
-   Part 4 : Spécification des tests de vérification de la conformité des codeurs et décodeurs MPEG-1 en respect des parts 1,2 et 3.
-   Part 5 : N’est pas un standard technique à proprement parler. Mise en oeuvre (implémentation) logicielle correspondant aux parts 1,2 et 3.

MPEG-1 audio a fait l’objet de travaux sur 3 niveaux ( level ) ou couches. La couche I décrit un modèle de compression audio MUSICAM (Philips) mis en œuvre dans les systèmes d’enregistrement et lecture audionumériques à bande magnétique (DCC, digital compact cassette) ainsi que dans la transmission NICAM.

La couche II est à l’origine de la mise en œuvre ATRAC (Sony) dans les systèmes d’enregistrement et lecture audionumériques à minidisc et dans des caméscopes. La couche III, développée par l’Institut Fraunhofer en 1995, a pour but d’obtenir un taux de compression audio élevé. Le MP3 ( Mpeg audio Level 3 ) est devenu le format de fichier (.mp3) audio destiné aux appareils nomades (baladeur, smartphone).

Initialement développé pour de codage des sons mono et stéréo, des développements complémentaires permettent de prendre en charge l’ environnement sonore multicanal . MP3 Surround ou mp3PRO a été soutenu par Thomson. Des solutions mettent également en œuvre le système SBR ( spectral band replication )développé par Coding Technologies.

Voir Techniques audiovisuelles et multimédias, Dunod, tome 1, pages 78 à 83.

Exercice : Quelles applications sont basées sur le standard MPEG-1 ?

3- MPEG-2 (Parties 1 à 10) : Le codage générique des images animées et sons associés

MPEG-2 est un standard en 9 parties (parts). Les 3 premières parties ont un statut de standard international. Les autres parties sont à différents niveaux de développement, une partie a été retirée. Description très succincte des éléments de MPEG-2 :

Part-1 : Description système , combinaison les données AV en simple ou multiple flux (streams) utilisable pour la transmission ou le stockage. La spécification est faite en Program Stream ou Transport Stream selon l’application.

Part-2 : Compression vidéo , outils de compression améliorés par rapport à MPEG-1. Les outils de compression sont regroupés en niveaux et profiles. Egalement, le profile Multiview (MVP, 1996) permettant le codage de signaux de deux caméras vidéo filmant la même scène sous deux angles légèrement décalées (images 3D).

Part-3 : Compression audio , extension de MPEG-1 Audio, supporte le multicanal.

Part 4 & Part 5 : correspondent aux parts 4 et 5 de MPEG-1.

Part-6 : Management des flux de transport MPEG-1 et MPEG-2

Part-7 : AAC ( advanced audio coding ) - 1997-

Part-9 : RTI ( real time interface ) pour adaptation du flux de transport au média et au décodeur.

Part 8 & Part 10 : non effectives.

Le tableau suivant résume les niveaux et profiles pour lesquels le standard MPEG-2 a été développé. En télédiffusion , il est fait référence au main profil / main level (MP@ML) . Les définitions de I, P et B sont données dans la suite de cet exposé.

(JPG)

Entre autres objectifs, MPEG-2 optimise la qualité par rapport au débit. MPEG-2 décrit également le flux de transport ( transport stream ) audio vidéo

Exercice : Quelles applications audiovisuelles sont basées sur le standard MPEG-2 ?

4- Les bases de la compression MPEG-2

La première étape procède de l’ analyse globale du contenu vidéo . Qu’il s’agisse d’un film (cinéma), d’un reportage (sportif, animalier, ...), d’un journal télévisé (...), le contenu vidéo peut être décomposé en séquences plus ou moins longues. Généralement, à une séquence correspond une prise de vue conservant un arrière plan, y compris dans les déplacements de la caméra ou les effets de zoom.

4-1 MPEG-2 : hiérarchisation des contenus vidéo

Chaque séquence ayant une durée variable et toutes les parties d’une séquence ne présentant pas le même intérêt pour le spectateur ou pour le journaliste (possibilité de coupure lors d’un montage vidéo), MPEG-2 défini le groupe d’image ou GOP ( Group Of Picture ) comme première unité d’analyse du contenu vidéo.

Dans le 1er exemple illustré en figure 1 , on considère des GOP de 4 images. En télévision (2ème exemple), les GOP sont de 12 images ( 0,5s d’un film projeté à 24 images/s ). La scène représente un bateau qui se déplace (Grand Canal, Venise).

(JPG)

Chaque image d’un GOP est ensuite décomposée en tranches ou slice ( figure 2 ). Chaque tranche est décomposée en macroblocs et chaque macrobloc en blocs de 8 x 8 pixels. Chaque bloc comporte trois plans mémoire, un plan Y (luminance), un plan R-Y et un plan B-Y (chrominance). Les cases des plans mémoire sont remplies par les octets des échantillons de Y, R-Y, B-Y (4 :2 :2 ou 4 :2 :0, voir Techniques audiovisuelles et multimédias, tome 1, pages 55, 59 ou voir également Cours de télévision, pages 166 et 167.

MPEG 2 procède ainsi en une hiérarchisation des éléments de l’image. A chacun des ces éléments est affecté un identifiant.

(JPG)

Exercice : Considérant que chaque bloc est constitué de 8x8 pixels, on pourra aisément calculer le nombre de blocs contenus dans une image de 1024 x 768 pixels.

4-2 MPEG-2 : Codage des images d’un GOP (Group Of Pictures)

La première image d’un GOP, est codée et compressée individuellement ( figure 3 ). Le résultat du codage et la compression constitue ce qu’on appelle une image intra (I) . Tous les éléments contenus dans ce codage permettent de reconstruire l’image dans le décodeur.

(JPG)

La quatrième image du GOP est codée par rapport à l’image intra. Les éléments codés correspondant à l’image n°4 constituent ce qu’on appelle une image prédite (P) . La quatrième image du GOP ne peut être reconstruite dans le décodeur que si celui-ci dispose des données de l’image intra et de l’image prédite.

Les 2ème et 3ème images du GOP sont codées par rapport à l’image intra et par rapport à l’image prédite. Les éléments contenus dans ce codage constitue ce qu’on appelle des images bidirectionnelles (B) . Les 2ème et 3ème images du GOP ne peuvent être reconstruites dans le décodeur que si celui-ci dispose des données des images intra, prédite et de chaque image bidirectionnelle.

Le contenu d’une image bidirectionnelle est relativement réduit. Quand des taux de compression élevés sont requis, le contenu des images bidirectionnelles peut ne pas être transmis.

4-2 MPEG-2 : Compression spatiale et compression temporelle

Dans une image, des blocs peuvent se reproduire à l’identique ou, éventuellement, avec de très légères variantes ( figure 4 ). Le premier bloc d’une série étant codé, il devient redondant de coder les autres blocs qui lui sont identiques. Il suffit d’indiquer qu’il y a répétition du premier bloc. MPEG-2 réalise ainsi une compression spatiale ( dans le plan de l’image ).

(JPG)

Dans un GOP, d’une image à l’autre ( figure 4 ), l’ arrière plan est très souvent reproduit à l’identique : dans ce cas, les personnages se déplacent à l’écran. Dans un traveling , c’est tous les éléments de la scène qui se déplacent, le personnage restant au centre de l’écran. Dans un cas comme dans l’autre, il devient possible de déterminer le déplacement des blocs identiques de façon à calculer des vecteurs de mouvement (motion vector).

Les blocs initialement codés dans une image intra et repérés dans l’image prédite ne sont pas codés à nouveau. MPEG-2 ne code que les vecteurs de mouvement. MPEG-2 réalise ainsi une compression temporelle (dans l’ enchaînement des images, dans le temps ).

Voir également Compression vidéonumérique spatiale dans Techniques audiovisuelles et multimédias, tome 1, page 60 et Compression temporelle à compensation de mouvement (motion compensation) pages 63 à 66 .

La figure 5 résume simplement les calculs effectués en fonction du GOP quand on passe d’une image à la suivante.

(JPG)

Exercice : A taux de compression équivalent, quel GOP (4 ou 12) permet d’obtenir un volume de données plus réduit ?

Exercice : lors de la lecture d’une séquence vidéo enregistrée sur un DVD, l’image intra d’un GOP (de 12 images) comporte de nombreuses erreurs. Que peut-on observer sur l’écran du téléviseur ?

Exercice : Quel avantage peut-il y avoir à travailler avec des GOP de 1 image ?

4-2 MPEG-2 : DCT, coefficients

Les compressions spatiale et temporelle précédemment définies (revoir les figures 4 et 5) ne sont pas suffisantes. Il est possible de compresser chaque bloc en analysant son contenu. C’est l’objet de la transformée en cosinus discrète ou DCT ( Discrete Cosine Transform ) et de la quantification des coefficients obtenus.

A la DCT correspond un calcul mathématique qui permet de passer des variations d’amplitude des échantillons d’un bloc (domaine spatiotemporel) à des coefficients de fréquences (domaine fréquentiel).

(JPG)

La DCT est une fonction mathématique réversible  : à partir de coefficients de fréquences, la DCT-1 ou DCTI (DCT inverse) permet de revenir au variations d’amplitude, sans perte de données . La perte des données est introduite en application de la quantification et de tables de compression.

Voir Techniques audiovisuelles et multimédias, tome 1, pages 61 et 62.

Simplement et afin de comprendre le principe de la DCT , on considère les valeurs de luminance Y des pixels d’une image (La même approche peut être faite avec R-Y et B-Y). Il est possible de calculer la pseudo période de la variation de Y (alternance de points blancs et de points noirs, figure 6 ) sur une ligne vidéo constituée de 720 points et écrite en 52 µs. De la durée de la période, on déduit la fréquence correspondante

(JPG)

Dans la figure 7 , l’alternance des points noirs et blancs n’est plus la même et par conséquent, la fréquence change.

Soit à considérer des blocs d’échantillons de luminance de 8x8 pixels et une diffusion MP@ML (revoir le tableau). Dans chaque cas ( figure 8 ), il est possible de déterminer la durée correspondant à 8 pixels d’une ligne et de ce fait, on peut déterminer les fréquences correspondant à chaque séquence de pixels.

(JPG)

De la même façon qu’il est possible de déterminer une suite de motifs constitués par les alternances de valeurs des pixels de la première ligne d’un bloc, il est possible de déterminer des motifs identiques pour la première colonne d’un bloc. La combinaison des séquences en ligne et colonne permet de déterminer les motifs constituant un bloc ( figure 9 ). Pour chaque bloc de l’image, la DCT calcule les coefficients correspondant à chaque motif .

(JPG)

A titre d’exemple , on considère le bloc de luminance de la figure 10 . Dans ce bloc gris uniforme, la valeur de luminance est identique pour chaque pixel (gris moyen = 128 quand le pixel est codé sur 8 bits). Après DCT, le bloc résultant ne comporte plus qu’un coefficient, celui correspondant à la valeur moyenne (DC = 1024, les coefficients DCT étant codés sur 11 bits).

(JPG)

Exercice : Interpréter et compléter les résultats pour chaque bloc de luminance des figures 11 et 12.

5- En guise de conclusion et le diaporama ci-joint

Le diaporama reprend et complète cette présentation. Par exemple, Le pré-processing permet de déterminer et supprimer les éléments de l’image qui ne sont pas ou qui sont peu perceptibles en vision normale. Dans les objets en mouvement, l’œil et le cerveau ne permettent de percevoir que les transitions (perception du contour des formes en mouvement). Les différences de couleurs sont moins bien perçues. De même, en vision latérale, nous percevons seulement les objets en mouvement.

Il est également fait mention du codage entropique  : Les mots binaires le plus fréquemment rencontrés sont convertis en symboles binaires ( code d’Huffman ) comportant un moins grand nombre de bits.

Voir Techniques audiovisuelles et multimédias, tome 1, pages 62 à 66.

Il est également abordé dans ces pages la lecture en zig zag des coefficients DCT des blocs, les schémas montrant un agencement des différentes fonctions de compression en codage, les étapes de construction des images I, P et B.

Enfin, il est fait mention du MPEG-4 et des principes mis en œuvre  : Codage des objets audio et vidéo , stratification des contenus, prise en compte des systèmes de reproduction, ...

Voir « les objectifs de MPEG-4 » dans, Techniques audiovisuelles et multimédias, tome 1, pages 95 à 98 et les « principales fonctions de MPEG-4 pages 99 à 102 et les techniques de codage (dont H264) pages 102 à 106.

voir aussi ...
du même auteur ... gerla
Document(s) associé(s) :
4.5 ko