Unicode -> UTF-8

Unicode érték                             UTF-8 bytesorozat

                                          1. byte  2. byte  ...
30                                0       7      0 7      0 ...
 |                                |       |      | |      |
00000000 00000000 00000000 0xxxxxxx  <->  0xxxxxxx
00000000 00000000 00000xxx xxxxxxxx  <->  110xxxxx 10xxxxxx

00000000 00000000 xxxxxxxx xxxxxxxx  <->  1110xxxx 10xxxxxx 10xxxxxx
00000000 000xxxxx xxxxxxxx xxxxxxxx  <->  11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
000000xx xxxxxxxx xxxxxxxx xxxxxxxx  <->  111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0xxxxxxx xxxxxxxx xxxxxxxx xxxxxxxx  <->  1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

Az x betűk által jelzett biteket azonos sorrendben kell átpakolni a túloldalra. Minden Unicode karaktert a legkorábbi ráhúzható szabály szerint kell UTF-8-ra átalakítani. Így például az ó betű (Unicode kódja decimális 243, hexadecimális 0x00F3, bináris 00000000 00000000 00000000 11110011) legkorábban a második szabályra húzható rá, tehát UTF-8 kódja bináris 11000011 10110011, vagyis egy decimális 195, azaz hexa 0xC3, majd ezt követően egy decimális 179, azaz hexa 0xB3 byte.

Talán már nem okozok vele meglepetést, ez a html fájl, amit most olvasol, UTF-8 kódolást használ. A múltkori Hello példát folytatva most tehát, ha leírom az ékezetes Helló szót, akkor amikor a géped éppen itt tartott a letöltésben, akkor a 72, 101, 108, 108, 195, 179 bytesorozatot kapta meg ezen oldal részeként.