はじめに

最近JPEGエンコードの方法を学んでおり、ネットで多くの記事を探しましたが、すべての詳細を明確に説明している記事はほとんどなく、プログラミングの際に多くの落とし穴にハマりました。そこで、できるだけPythonコードを交えて詳細を説明する記事を書こうと思います。具体的なプログラムは私のGitHub上のオープンソースプロジェクトを参照してください。

もちろん、この紹介やコードはあまり完璧ではなく、間違いもあるかもしれません。あくまで入門ガイドとしてご容赦ください。

JPEGファイルにおける各種マーカー

多くの記事でJPEGファイルのマーカーについて紹介されていますが、私も実際の画像に注釈を付けたドキュメント（ダウンロード）をアップロードしましたので参考にしてください。

すべてのマーカーは0xff（16進数の255）で始まり、その後にこのブロックのデータのバイト数とブロック情報を記述するデータが続きます。具体的には下図の通りです：

CodeBlock Loading...

ここまでで、画像データ部分だけがまだ書き込まれていません。しかし、画像データ部分がどのようにエンコードされるのか、また前述の量子化やハフマン符号化が具体的にどのように実装されるのかについては、次のパートの説明をご覧ください。

JPEGエンコードの流れ

JPEGエンコードの過程では画像を8×8のブロックに分割する必要があるため、画像の高さと幅がともに8の倍数であることが求められます。そのため、画像の補間やサンプリングの方法を用いて、画像をわずかに変更し、高さと幅が8の倍数になるようにします。何千何万ものピクセルからなる画像にとって、この操作は画像全体のアスペクト比に大きな変化をもたらしません。

CodeBlock Loading...

色空間の変換

JPEG画像ではYCbCr色空間が統一して使用されます。これは人間の目が輝度に対して敏感で、色差に対しては鈍感であるため、CbとCr成分の圧縮を選択的に強めることで、画像の見た目を保ちつつ、より大きくファイルサイズを削減できるからです。YCbCr空間に変換した後、CbとCrの色成分をサンプリングして点数を減らすことで、さらに圧縮を進めることができます。一般的なサンプリング形式には4:4:4、4:2:2、4:2:0があります。これらはSOF0マーカー内の水平サンプリング係数と垂直サンプリング係数に対応します。簡単のため、本記事ではすべてのサンプリング係数を1、つまりサンプリングを行わず、1つのY成分に1つのCb Cr成分が対応する（4:4:4）とします。4:2:2は2つのY成分に1つのCb Cr成分が対応し、4:2:0は4つのY成分に1つのCb Cr成分が対応します。下図のように、各セルが1つのY成分に対応し、青いマス目がCb Cr成分のサンプリング点です。

色空間変換の式は次のとおりです：

Y = 0.299*R + 0.587*G + 0.114*B

Cb = -0.1687*R - 0.3313*G + 0.5*B + 128

Cr = 0.5*R - 0.4187*G - 0.0813*B + 128

上記の演算はすべて四捨五入して整数にします。24ビットのRGB BMP画像ではR、G、B成分の範囲は0～255であり、簡単な数学的関係から、Y、Cb、Cr成分の範囲も0～255であることがわかります。JPEG画像では、通常、各成分から128を引いて、範囲が正負にわたるようにします。

PythonではOpenCVライブラリの関数を使って色空間変換を行うことができます：

CodeBlock Loading...

8×8ブロック分割

JPEGエンコードでは、各8×8ブロックに対して処理を行い、上から下、左から右の順にデータ処理を進め、最後に各ブロックのデータを結合します。各ブロックのY、Cb、Crの3つの色成分については、Y、Cb、Crの順に同じ操作を行います（使用する量子化テーブルとハフマンテーブルは異なります）。

CodeBlock Loading...

DCT変換

DCT（離散コサイン変換）は、空間領域のデータを周波数領域に変換して演算を行うもので、これにより周波数領域で高周波成分のデータを選択的に削減しても、画像の見た目に大きな影響を与えません。また、離散フーリエ変換と比べて、離散コサイン変換はすべて実数領域で演算されるため、コンピュータでの計算に適しています。離散コサイン変換の式は次のとおりです：

F(u,v)=\frac2{\sqrt{MN}}\sum_{x=0}^{M-1}\sum_{y=0}^{N-1}f(x,y)C(u)C(v)\cos\frac{(2x+1)u\pi}{2M}\cos\frac{(2y+1)v\pi}{2N}

ここで $C(u)=\begin{cases}\frac{1}{\sqrt{2}}&u=0\\1&u\neq0\end{cases}$ です。JPEGでは $M=N=8$ です。

もちろんOpenCVライブラリの関数を使うこともできます：

CodeBlock Loading...

量子化

DCT変換後、直流成分は8×8ブロックの最初の要素となり、低周波成分は左上に集中し、高周波成分は右下に集中します。高周波成分を選択的に除去するために、量子化操作を行います。これは実際には8×8ブロックの各要素を一定の値で割ることです。量子化テーブルでは左上の要素が小さく、右下が大きくなっています。量子化テーブルの例を以下に示します（Y成分とCb Cr成分で異なる量子化テーブルを使用します）：

CodeBlock Loading...

量子化処理のコード：

CodeBlock Loading...

量子化後、8×8ブロックの右下部分に多くの0が現れます。これらの0を集中させ、ランレングス符号化でより少ないデータ量にするために、次にジグザグスキャンを行います。

ジグザグスキャン

ジグザグスキャンとは、実際には8×8のブロックを以下の順序で64項目のリストに変換することです。

最終的に、次のような長さ64のリストが得られます：(41, -8, -6, -5, 13, 11, -1, 1, 2, -2, -3, -5, 1, 1, -5, 1, 0, 0, 0, -1, 0, 0, 0, 0, 0, 0, 1, 1, -1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0)。以降の操作ではこのリストを例に説明します。

注意すべき点として、量子化テーブルを保存する際にも、対応するジグザグスキャンを行う必要があります。この形式で保存することで、画像ビューアが正しく画像をデコードできます（私は最初この細かい点で多くのデバッグ時間を費やしました）。本文の最初のマーカー書き込みコードを参照してください。

CodeBlock Loading...

差分符号化（直流成分）

直流成分の値はしばしば大きく、また隣接する8×8ブロックの直流成分は非常に近い値になることが多いため、差分符号化を用いることでよりスペースを節約できます。差分符号化とは、現在のブロックと前のブロックの直流成分の差分を保存するもので、最初のブロックはそのまま保存します。注意点として、Y、Cb、Crの3つの成分はそれぞれ対応して差分符号化が行われ、各成分ごとに引き算が行われます。直流成分nowblockdcの符号化と保存方法については後述します。

CodeBlock Loading...

ゼロのランレングス符号化（交流成分）

ジグザグスキャン後、多くの0が集中し、交流成分のリストは次のようになります：(-8, -6, -5, 13, 11, -1, 1, 2, -2, -3, -5, 1, 1, -5, 1, 0, 0, 0, -1, 0, 0, 0, 0, 0, 0, 1, 1, -1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0)。

ゼロのランレングス符号化では、毎回2つの数を保存します。2つ目の数は非ゼロの数で、1つ目の数はその非ゼロの数の前にある0の個数です。最後に2つの0を終端マーカーとして付けます（特に注意：入力データが0で終わらない場合、2つの0の終端マーカーは不要です。このバグを見つけるのに長い時間がかかりました。下のコードの23行目を参照）。上記のリストをランレングス符号化すると次のようになります：(0, -8), (0, -6), (0, -5), (0, 13), (0, 11), (0, -1), (0, 1), (0, 2), (0, -2), (0, -3), (0, -5), (0, 1), (0, 1), (0, -5), (0, 1), (3, -1), (6, 1), (0, 1), (0, -1),(27, 1), (0, 0)。このデータの長さは42で、元の63に比べていくらか減少しています。もちろん、ここでは特殊なデータを選んでいますが、実際のデータではもっと多くの0が含まれ、すべて0になることもあり、符号化後のサイズはさらに小さくなります。

上記のデータで(27, 1)が赤くなっているのに気づいたかもしれません。これは、第8部の符号化において、最初の数は4ビットで保存されるため、範囲が0～15であり、ここでは明らかに超えているからです。そのため、(15, 0), (11, 1)に分割する必要があります。(15, 0)は16個の0を表し、(11, 1)は11個の0の後に1があることを表します。

CodeBlock Loading...

JPEG特殊バイナリ符号化

以上の準備を経て、このパートでは、符号化された直流成分と交流成分がどのようにデータストリームとしてファイルに書き込まれるかを実際に紹介します。

JPEG符号化では、次のようなバイナリ符号化形式があります：

CodeBlock Loading...

保存する数値について、上記の形式に従って、保存に必要なビット長と実際の保存バイナリ値を得る必要があります。その規則を観察すると、正の数の保存値はその実際のバイナリ表現であり、ビット長も実際のビット長であることがわかります。対応する負の数も同じビット長で、バイナリ値はビット反転したものになります。0は保存不要です。

CodeBlock Loading...

直流成分について、差分符号化後の値が-41だとすると、上記の操作によりビット長は6、保存バイナリストリームは010110となります。数値6については、正規ハフマン符号化を用いてそのバイナリストリームを保存する必要があります。これについては第9部で説明しますが、ここでは6の保存バイナリストリームが100であると仮定します。すると、この8×8ブロックのある色成分の直流成分は100010110として保存されます。

直流成分のバイナリストリームをファイルに書き込んだ後、次にこの8×8ブロックの同じ色成分の交流成分を符号化します。ランレングス符号化後の値は次のとおりです：(0, -8), (0, -6), (0, -5), (0, 13), (0, 11), (0, -1), (0, 1), (0, 2), (0, -2), (0, -3), (0, -5), (0, 1), (0, 1), (0, -5), (0, 1), (3, -1), (6, 1), (0, 1), (0, -1),(15, 0), (11, 1) , (0, 0)。

まず(0, -8)を保存します。2つ目の数についても同様の操作を行い、4ビットと0111が得られますが、直流成分と異なるのは、0x04に対して正規ハフマン符号化を行う点です。ここで上位4ビットは(0, -8)の1つ目の数、下位4ビットは2つ目の数の保存ビット長です。0x04の正規ハフマン符号化後の保存値が1011だとすると、(0, -8)は10110111として保存されます。次に(0, -6)などについても同様の操作を行い、得られたデータストリームを順次ファイルに書き込みます。

もう一つの例として(6, 1)では、1は1ビットで1として保存されるため、0x61に対して正規ハフマン符号化を行います。仮に1111011だとすると、(6, 1)は11110111として保存されます。(15, 0)の場合は0xf0の正規ハフマン符号化値のみが保存されます。

上記の手順で1つの色成分（例えばY）のデータを書き終えたら、次にこの8×8ブロックのCb色成分のデータを書き、さらにCr成分のデータを書きます。同様の方法で、左から右、上から下へと各8×8ブロックのデータを書き込んだ後、EOIマーカー（0xffd9）を書き込んで画像の終了とします。

注意：データ書き込み中に0xffが書き込まれていないか検出する必要があります。マーカーとの衝突を防ぐため、0xffの後には0x00を補います。

CodeBlock Loading...

正規ハフマン符号化

本記事で紹介する正規ハフマン符号化には4つの符号化テーブルがあり、それぞれ輝度直流成分、色差直流成分、輝度交流成分、色差交流成分に使用されます。

CodeBlock Loading...

上記コードのstdhuffmanDC0などは、実際にマーカー内に保存される値です。詳細はマーカーの紹介のコードを参照してください。この数字列のうち、最初の16個の数字(0, 0, 7, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0)は、符号化後の長さが1～16ビットのものがそれぞれ何個あるかを表し、その後に続く12個の数字はちょうど最初の16個の数字の合計になっています。stdhuffmanDC0が実際に記述しているのは下図の通りです：

今のところ、各元データの符号化後のデータ長だけがわかっており、実際の値はわかりません。

正規ハフマン符号化には独自の規則があります：

最小符号長の最初の数の符号は0です；
同じ符号長の符号は連続しています；
次の符号長（jとします）の最初の数の符号aは、前の符号長（iとします）の最後の数の符号bに依存し、a=(b+1)<<(j-i)となります。

規則1により、4の符号は000であることがわかります。規則2により、5の符号は001、3の符号は010、2の符号は011...、0の符号は110となります。規則3により、7の符号は1110、8の符号は11110...となります。

CodeBlock Loading...

最終的に得られるハフマン辞書はかなり長いので、私のGitHubプロジェクトで確認してください。その規則を見つければ、write_num関数内で辞書のインデックスをそのように求めている理由が理解できるでしょう。

JPEG-encode10

JPEG编解码从零开始实现(python JPEG codec)

Python

はじめに

このブログはもともと2021年8月22日にCSDNで公開されたもので、ここにコピーしてついでに一部のフォーマットの問題を修正しました。

JPEG-encode10

JPEG编解码从零开始实现(python JPEG codec)

Python

もちろん、この紹介やコードはあまり完璧ではなく、間違いもあるかもしれません。あくまで入門ガイドとしてご容赦ください。

JPEGファイルにおける各種マーカー

PYTHON

# 写入jpeg格式的译码信息
# filename: 输出文件名
# h: 图片高度
# w: 图片宽度
def write_head(filename, h, w):
    # 二进制写入形式打开文件(覆盖)
    fp = open(filename, "wb")
 
    # SOI
    fp.write(pack(">H", 0xffd8))
    # APP0
    fp.write(pack(">H", 0xffe0))
    fp.write(pack(">H", 16))            # APP0字节数
    fp.write(pack(">L", 0x4a464946))    # JFIF
    fp.write(pack(">B", 0))                # 0
    fp.write(pack(">H", 0x0101))        # 版本号: 1.1
    fp.write(pack(">B", 0x01))            # 像素密度单位: 像素/英寸
    fp.write(pack(">L", 0x00480048))    # XY方向像素密度
    fp.write(pack(">H", 0x0000))        # 无缩略图信息
    # DQT_0
    fp.write(pack(">H", 0xffdb))
    fp.write(pack(">H", 64+3))            # 量化表字节数
    fp.write(pack(">B", 0x00))            # 量化表精度: 8bit(0)  量化表ID: 0
    tbl = block2zz(std_luminance_quant_tbl)
    for item in tbl:
        fp.write(pack(">B", item))    # 量化表0内容
    # DQT_1
    fp.write(pack(">H", 0xffdb))
    fp.write(pack(">H", 64+3))            # 量化表字节数
    fp.write(pack(">B", 0x01))            # 量化表精度: 8bit(0)  量化表ID: 1
    tbl = block2zz(std_chrominance_quant_tbl)
    for item in tbl:
        fp.write(pack(">B", item))    # 量化表1内容
    # SOF0
    fp.write(pack(">H", 0xffc0))
    fp.write(pack(">H", 17))            # 帧图像信息字节数
    fp.write(pack(">B", 8))                # 精度: 8bit
    fp.write(pack(">H", h))                # 图像高度
    fp.write(pack(">H", w))                # 图像宽度
    fp.write(pack(">B", 3))                # 颜色分量数: 3(YCrCb)
    fp.write(pack(">B", 1))                # 颜色分量ID: 1
    fp.write(pack(">H", 0x1100))        # 水平垂直采样因子: 1  使用的量化表ID: 0
    fp.write(pack(">B", 2))                # 颜色分量ID: 2
    fp.write(pack(">H", 0x1101))        # 水平垂直采样因子: 1  使用的量化表ID: 1
    fp.write(pack(">B", 3))                # 颜色分量ID: 3
    fp.write(pack(">H", 0x1101))        # 水平垂直采样因子: 1  使用的量化表ID: 1
    # DHT_DC0
    fp.write(pack(">H", 0xffc4))
    fp.write(pack(">H", len(std_huffman_DC0)+3))    # 哈夫曼表字节数
    fp.write(pack(">B", 0x00))                        # DC0
    for item in std_huffman_DC0:
        fp.write(pack(">B", item))                    # 哈夫曼表内容
    # DHT_AC0
    fp.write(pack(">H", 0xffc4))
    fp.write(pack(">H", len(std_huffman_AC0)+3))    # 哈夫曼表字节数
    fp.write(pack(">B", 0x10))                        # AC0
    for item in std_huffman_AC0:
        fp.write(pack(">B", item))                    # 哈夫曼表内容
    # DHT_DC1
    fp.write(pack(">H", 0xffc4))
    fp.write(pack(">H", len(std_huffman_DC1)+3))    # 哈夫曼表字节数
    fp.write(pack(">B", 0x01))                        # DC1
    for item in std_huffman_DC1:
        fp.write(pack(">B", item))                    # 哈夫曼表内容
    # DHT_AC1
    fp.write(pack(">H", 0xffc4))
    fp.write(pack(">H", len(std_huffman_AC1)+3))    # 哈夫曼表字节数
    fp.write(pack(">B", 0x11))                        # AC1
    for item in std_huffman_AC1:
        fp.write(pack(">B", item))                    # 哈夫曼表内容
    # SOS
    fp.write(pack(">H", 0xffda))
    fp.write(pack(">H", 12))            # 扫描开始信息字节数
    fp.write(pack(">B", 3))                # 颜色分量数: 3
    fp.write(pack(">H", 0x0100))        # 颜色分量1 DC、AC使用的哈夫曼表ID
    fp.write(pack(">H", 0x0211))        # 颜色分量2 DC、AC使用的哈夫曼表ID
    fp.write(pack(">H", 0x0311))        # 颜色分量3 DC、AC使用的哈夫曼表ID
    fp.write(pack(">B", 0x00))
    fp.write(pack(">B", 0x3f))
    fp.write(pack(">B", 0x00))            # 固定值
    fp.close()

CodeBlock Loading...

JPEGエンコードの流れ

PYTHON

# 转换图片大小，必须能被切分成8*8的小块
if((h % 8 == 0) and (w % 8 == 0)):
    nblock = int(h * w / 64)
else:
    h = h // 8 * 8
    w = w // 8 * 8
    YCrCb = cv2.resize(YCrCb, [h, w], cv2.INTER_CUBIC)
    nblock = int(h * w / 64)

CodeBlock Loading...

色空間の変換

色空間変換の式は次のとおりです：

Y = 0.299*R + 0.587*G + 0.114*B

Cb = -0.1687*R - 0.3313*G + 0.5*B + 128

Cr = 0.5*R - 0.4187*G - 0.0813*B + 128

PythonではOpenCVライブラリの関数を使って色空間変換を行うことができます：

PYTHON

YCrCb = cv2.cvtColor(BGR, cv2.COLOR_BGR2YCrCb)
npdata = np.array(YCrCb, np.int16)

CodeBlock Loading...

8×8ブロック分割

PYTHON

for i in range(0, h, 8):
    for j in range(0, w, 8):
        ...

CodeBlock Loading...

DCT変換

F(u,v)=\frac2{\sqrt{MN}}\sum_{x=0}^{M-1}\sum_{y=0}^{N-1}f(x,y)C(u)C(v)\cos\frac{(2x+1)u\pi}{2M}\cos\frac{(2y+1)v\pi}{2N}

ここで $C(u)=\begin{cases}\frac{1}{\sqrt{2}}&u=0\\1&u\neq0\end{cases}$ です。JPEGでは $M=N=8$ です。

もちろんOpenCVライブラリの関数を使うこともできます：

PYTHON

now_block = npdata[i:i+8, j:j+8, 0] - 128        # 取出一个8*8块并减去128 Y分量
now_block = npdata[i:i+8, j:j+8, 2] - 128        # 取出一个8*8块并减去128 Cb分量
now_block = npdata[i:i+8, j:j+8, 1] - 128        # 取出一个8*8块并减去128 Cr分量
now_block_dct = cv2.dct(np.float32(now_block))    # DCT变换

CodeBlock Loading...

量子化

PYTHON

# 亮度量化表
std_luminance_quant_tbl = np.array(
    [
        [16, 11, 10, 16, 24, 40, 51, 61],
        [12, 12, 14, 19, 26, 58, 60, 55],
        [14, 13, 16, 24, 40, 57, 69, 56],
        [14, 17, 22, 29, 51, 87, 80, 62],
        [18, 22, 37, 56, 68,109,103, 77],
        [24, 35, 55, 64, 81,104,113, 92],
        [49, 64, 78, 87,103,121,120,101],
        [72, 92, 95, 98,112,100,103, 99]
    ],
    np.uint8
)
# 色度量化表
std_chrominance_quant_tbl = np.array(
    [
        [17, 18, 24, 47, 99, 99, 99, 99],
        [18, 21, 26, 66, 99, 99, 99, 99],
        [24, 26, 56, 99, 99, 99, 99, 99],
        [47, 66, 99, 99, 99, 99, 99, 99],
        [99, 99, 99, 99, 99, 99, 99, 99],
        [99, 99, 99, 99, 99, 99, 99, 99],
        [99, 99, 99, 99, 99, 99, 99, 99],
        [99, 99, 99, 99, 99, 99, 99, 99]
    ],
    np.uint8
)

CodeBlock Loading...

量子化処理のコード：

PYTHON

now_block_qut = quantize(now_block_dct, 0)        # Y分量 量化
now_block_qut = quantize(now_block_dct, 2)        # Cb分量 量化
now_block_qut = quantize(now_block_dct, 1)        # Cr分量 量化

# 量化
# block: 当前8*8块的数据
# dim: 维度  0:Y  1:Cr  2:Cb
def quantize(block, dim):
    if(dim == 0):
        # 使用亮度量化表
        qarr = std_luminance_quant_tbl
    else:
        # 使用色度量化表
        qarr = std_chrominance_quant_tbl
    return (block / qarr).round().astype(np.int16)

CodeBlock Loading...

ジグザグスキャン

ジグザグスキャンとは、実際には8×8のブロックを以下の順序で64項目のリストに変換することです。

PYTHON

now_block_zz = block2zz(now_block_qut)            # zigzag扫描

# zigzag扫描
# block: 当前8*8块的数据
def block2zz(block):
    re = np.empty(64, np.int16)
    # 当前在block的位置
    pos = np.array([0, 0])
    # 定义四个扫描方向
    R = np.array([0, 1])
    LD = np.array([1, -1])
    D = np.array([1, 0])
    RU = np.array([-1, 1])
    for i in range(0, 64):
        re[i] = block[pos[0], pos[1]]
        if(((pos[0] == 0) or (pos[0] == 7)) and (pos[1] % 2 == 0)):
            pos = pos + R
        elif(((pos[1] == 0) or (pos[1] == 7)) and (pos[0] % 2 == 1)):
            pos = pos + D
        elif((pos[0] + pos[1]) % 2 == 0):
            pos = pos + RU
        else:
            pos = pos + LD
    return re

CodeBlock Loading...

差分符号化（直流成分）

PYTHON

last_block_ydc = 0
last_block_cbdc = 0
last_block_crdc = 0

now_block_dc = now_block_zz[0] - last_block_ydc # 直流分量差分形式记录
last_block_ydc = now_block_zz[0]                # 记录本次量

now_block_dc = now_block_zz[0] - last_block_cbdc
last_block_cbdc = now_block_zz[0]

now_block_dc = now_block_zz[0] - last_block_crdc
last_block_crdc = now_block_zz[0]

CodeBlock Loading...

ゼロのランレングス符号化（交流成分）

PYTHON

now_block_ac = RLE(now_block_zz[1:])

# 0的行程编码
# AClist: 要编码的交流数据
def RLE(AClist: np.ndarray) -> np.ndarray:
    re = []
    cnt = 0
    for i in range(0, 63):
        if(AClist[i] == 0 and cnt != 15):
            cnt += 1
        else:
            re.append(cnt)
            re.append(AClist[i])
            cnt = 0
    # 删除末尾的所有[15 0]
    while(re[-1] == 0):
        re.pop()
        re.pop()
        if(len(re) == 0):
            break
    # 在结尾添加两个0作为结束标记
    if(AClist[-1] == 0):
        re.extend([0, 0])
    return np.array(re, np.int16)

CodeBlock Loading...

JPEG特殊バイナリ符号化

JPEG符号化では、次のようなバイナリ符号化形式があります：

             数值               bit长度            实际保存值
              0                   0                   无
            -1,1                  1                  0,1
         -3,-2,2,3                2              00,01,10,11
   -7,-6,-5,-4,4,5,6,7            3    000,001,010,011,100,101,110,111
     -15,..,-8,8,..,15            4       0000,..,0111,1000,..,1111
    -31,..,-16,16,..,31           5     00000,..,01111,10000,..,11111
    -63,..,-32,32,..,63           6                  ...
   -127,..,-64,64,..,127          7                  ...
  -255,..,-128,128,..,255         8                  ...
  -511,..,-256,256,..,511         9                  ...
 -1023,..,-512,512,..,1023       10                  ...
-2047,..,-1024,1024,..,2047      11                  ...

CodeBlock Loading...

PYTHON

# 特殊的二进制编码格式
# num: 待编码的数字
def tobin(num):
    s = ""
    if(num > 0):
        while(num != 0):
            s += '0' if(num % 2 == 0) else '1'
            num = int(num / 2)
        s = s[::-1]    # 反向
    elif(num < 0):
        num = -num
        while(num != 0):
            s += '1' if(num % 2 == 0) else '0'
            num = int(num / 2)
        s = s[::-1]
    return s

CodeBlock Loading...

注意：データ書き込み中に0xffが書き込まれていないか検出する必要があります。マーカーとの衝突を防ぐため、0xffの後には0x00を補います。

PYTHON

s = write_num(s, -1, now_block_dc, DC0)            # 根据编码方式写入直流数据
for l in range(0, len(now_block_ac), 2):        # 写入交流数据
    s = write_num(s, now_block_ac[l], now_block_ac[l+1], AC0)
    while(len(s) >= 8):                            # 记录数据太长会导致爆内存
        num = int(s[0:8], 2)                    # 运行速度变慢
        fp.write(pack(">B", num))
        if(num == 0xff):                        # 为防止标志冲突
            fp.write(pack(">B", 0))                # 数据中出现0xff需要在后面补两个0x00
        s = s[8:len(s)]

# 根据编码方式写入数据
# s: 未写入文件的二进制数据
# n: 数据前面0的个数(-1代表DC)
# num: 待写入的数据
# tbl: 范式哈夫曼编码字典
def write_num(s, n, num, tbl):
    bit = 0
    tnum = num
    while(tnum != 0):
        bit += 1
        tnum = int(tnum / 2)
    if(n == -1):                    # DC
        tnum = bit
        if(tnum > 11):
            print("Write DC data Error")
            exit()
    else:                            # AC
        if((n > 15) or (bit > 11) or (((n != 0) and (n != 15)) and (bit == 0))):
            print("Write AC data Error")
            exit()
        tnum = n * 10 + bit + (0 if(n != 15) else 1)
    # 范式哈夫曼编码记录0的个数(AC)以及num的bit长度
    s += tbl[tnum].str_code
    # 特殊形式的数据存储num
    s += tobin(num)
    return s

CodeBlock Loading...

正規ハフマン符号化

PYTHON

# 亮度直流量范式哈夫曼编码表
std_huffman_DC0 = np.array(
    [0, 0, 7, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0,
     4, 5, 3, 2, 6, 1, 0, 7, 8, 9, 10, 11],
    np.uint8
)
...
# 换算出哈夫曼字典
DC0 = DHT2tbl(std_huffman_DC0)    # 亮度直流分量
DC1 = DHT2tbl(std_huffman_DC1)    # 色度直流分量
AC0 = DHT2tbl(std_huffman_AC0)    # 亮度交流分量
AC1 = DHT2tbl(std_huffman_AC1)    # 色度交流分量

CodeBlock Loading...

今のところ、各元データの符号化後のデータ長だけがわかっており、実際の値はわかりません。

正規ハフマン符号化には独自の規則があります：

最小符号長の最初の数の符号は0です；
同じ符号長の符号は連続しています；
次の符号長（jとします）の最初の数の符号aは、前の符号長（iとします）の最後の数の符号bに依存し、a=(b+1)<<(j-i)となります。

PYTHON

# 记录哈夫曼字典的类
# symbol: 原始数据
# code: 对应的编码数据
# n_bit: 编码的二进制位数
# str_code: 编码的二进制数据
class Sym_Code():
    def __init__(self, symbol, code, n_bit):
        self.symbol = symbol
        self.code = code
        str_code=''
        mask = 1 << (n_bit - 1)
        for i in range(0, n_bit):
            if(mask & code):
                str_code += '1'
            else:
                str_code += '0'
            mask >>= 1
        self.str_code = str_code
    """定义输出形式"""
    def __str__(self):
        return "0x{:0>2x}    |  {}".format(self.symbol, self.str_code)
    """定义排序依据"""
    def __eq__(self, other):
        return self.symbol == other.symbol
    def __le__(self, other):
        return self.symbol < other.symbol
    def __gt__(self, other):
        return self.symbol > other.symbol
 
 
# 将范式哈夫曼编码表转换为哈夫曼字典
# data: 定义的范式哈夫曼编码表
def DHT2tbl(data):
    numbers = data[0:16]                # 1~16bit长度的编码对应的个数
    symbols = data[16:len(data)]        # 原数据
    if(sum(numbers) != len(symbols)):    # 判断是否为正确的范式哈夫曼编码表
        print("Wrong DHT!")
        exit()
    code = 0
    SC = []                                # 记录字典的列表
    for n_bit in range(1, 17):
        # 按范式哈夫曼编码规则换算出字典
        for symbol in symbols[sum(numbers[0:n_bit-1]):sum(numbers[0:n_bit])]:
            SC.append(Sym_Code(symbol, code, n_bit))
            code += 1
        code <<= 1
    return sorted(SC)

CodeBlock Loading...

JPEG-encode10

JPEG编解码从零开始实现(python JPEG codec)

Python

JPEGエンコードの詳細

JPEGエンコードの詳細

はじめに

JPEGファイルにおける各種マーカー

JPEGエンコードの流れ

色空間の変換

8×8ブロック分割

DCT変換

量子化

ジグザグスキャン

差分符号化（直流成分）

ゼロのランレングス符号化（交流成分）

JPEG特殊バイナリ符号化

正規ハフマン符号化

はじめに

JPEGファイルにおける各種マーカー

JPEGエンコードの流れ

色空間の変換

8×8ブロック分割

DCT変換

量子化

ジグザグスキャン

差分符号化（直流成分）

ゼロのランレングス符号化（交流成分）

JPEG特殊バイナリ符号化

正規ハフマン符号化