¿Qué es la compresión de archivos?

La foto que encabeza este artículo está comprimida. Con respecto a la original, usa un 3% de los colores y omite numerosos detalles. Por otro lado, solo ocupa un 5% del espacio en disco.

Que la foto ocupe tan poco espacio no es un milagro: se debe a la compresión de datos, una técnica computacional que se aplica también a la música y vídeos que disfrutas a diario.

En este artículo te explico cómo funciona la compresión de archivos (normales y multimedia), por qué es tan importante y cómo puedes sacarle el máximo provecho en tu día a día.

¿Qué significa comprimir un archivo?

Comprimir es lograr que un archivo ocupe menos sin corromperlo.

Los archivos almacenados en tu disco duro ocupan un espacio determinado sobre la superficie del disco. Si se siguen añadiendo más datos, llegará un momento en el que ya no quedará espacio.

Antes de que se inventara la compresión de archivos, solo había dos opciones: borrar los archivos o añadir más espacio comprando un nuevo disco duro. Dos opciones poco prácticas.

La compresión aplica métodos matemáticos -algoritmos- a los datos para conseguir que estos ocupen menos espacio en el disco, quitando la necesidad de borrar o ampliar el espacio.

Compresión sin pérdida (lossless) vs. Compresión con pérdida (lossy)

Existen dos tipos principales de compresión: sin pérdida de datos (lossless) y con pérdida de datos (lossy). Ambos tipos de compresión tienen sus ventajas e inconvenientes. En la siguiente tabla puedes ver algunos ejemplos de formatos de archivo y su tipo de compresión:

Ten en cuenta a veces se usa un formato para juntar varios archivos en uno sin compresión, cosa que ocurre, por ejemplo, con el formato ISO. En ese caso hablamos de empaquetado de archivos, operación para la que también sirve el formato ZIP.

Compresión sin pérdida o lossless: inflar y desinflar globos

La compresión sin pérdida o lossless consiste en analizar el archivo en busca de repeticiones y patrones que se puedan resumir. Es lo más parecido a comprimir un acordeón. Mira, por ejemplo, este documento con varios tipos de datos:

Cuando lo comprimimos en formato ZIP, que es lossless, esto es lo que ocurre al “acordeón” original que es nuestro archivo de ejemplo:

Como ves, los sectores que se repetían se han reducido mucho, pero los datos no se han perdido: el formato ZIP ha guardado instrucciones que indican cómo “reinflar” el archivo para usarlo.

Nota también cómo algunos de esos sectores (los grises) no se han comprimido apenas: esto se debe a que el nivel de redundancia de esas partes es menor. En otras palabras, si no hay nada que se repita, el compresor no hace nada. Eso explica por qué comprimir archivos muy optimizados, como los JPG, es inútil.

Encontrar repeticiones en un texto es fácil. Por eso la compresión es muy eficaz con los TXT

Otra razón por la que pueden quedar partes sin comprimir es que cada tipo de dato requiere un enfoque distinto a la hora de ser comprimido sin pérdida. Es por ello que hoy en día se prefiere usar compresores específicos para determinados tipos de archivos, llamados comúnmente códecs.

Prácticamente todos los compresores de archivos (WinZip, WinRAR, 7Z) recurren a la compresión lossless porque es fiable y segura: la integridad de los datos se mantiene, y esa es su mayor ventaja. Si necesitas disminuir el espacio ocupado por documentos importantes, la compresión lossless debe ser tu primera elección.

El inconveniente principal de la compresión lossless es que no siempre resulta eficaz, y que el ahorro de espacio que consigue es inferior al que obtienen las técnicas lossy.

Compresión con pérdida o lossy: quitar las piezas no-esenciales

La compresión lossy disminuye el espacio ocupado por un archivo usando una técnica bastante más radical: elimina información que resulta irrelevante para los sentidos humanos.

Por ejemplo, la compresión JPG reduce las variaciones de brillo y color de una foto, mientras que el formato MP3 elimina frecuencias de sonido inaudibles para el oído humano.

Arriba, la forma de onda de un archivo WAV sin compresión; abajo, la versión MP3 a 40kbps (fuente: Audio Grains)

Una cosa a tener en cuenta es que mientras la compresión lossless siempre es máxima, la compresión lossy es ajustable por el usuario como si de un control de televisión se tratara.

La diferencia entre la primera y la segunda Lenna es imperceptible a simple vista

Al comprimir con un algoritmo lossy, hay que preguntarse siempre qué nivel de calidad consideramos aceptable para el uso que vamos a dar al documento comprimido. Es importante consultar una vista previa y no sobrescribir el original.

El compresor de imágenes RIOT en acción. Nota la diferencia de tamaño entre las dos imágenes

La ventaja innegable de la compresión lossy es que consigue reducir el tamaño de los archivos de manera espectacular sin que el contenido pierda sentido.

Gracias a su potencia, la compresión lossy posibilitó el crecimiento de Internet a finales de los 90 gracias a las imágenes JPG. El formato MP3, por otro lado, revolucionó el panorama de la música digital (e hizo posible Napster y el iPod).

Y, desde hace unos años, los formatos de vídeo comprimido han transformado la industria del cine y la televisión. Al poder enviar más datos en menos tiempo y ocupando menos espacio, autores y consumidores audiovisuales han salido ganando.

Lea el artículo completo en:

Softonic Blog

Conocer Ciencia

Latest Posts:

11 de enero de 2013