Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

--- dev:284:charsets [15.11.2018 00:48] – angelegt Manuela v.d.Decken
+++ dev:284:charsets [28.12.2018 23:59] – [UTF-8 and PHP] Manuela v.d.Decken
@@ Zeile 1: / Zeile 1: @@
-====== Charactersets ======
+====== Zeichensätze ======
-Charactersets, a complex and often confusing theme, in which a little light should be brought.
+Zeichensätze, ein komplexes und oft auch verwirrendes Thema, in das ein klein wenig Licht gebracht werden soll.
-First and foremost, we have to note that at **PHP** we strictly make use of the multibyte encoding by **UTF-8**.
+Zuallererst müssen wir festhalten, dass wir bei **PHP** strikt die Multibyte-Codierung von UTF-8 verwenden.
-To learn about the internals of UTF-8 you can visit **[[https://en.wikipedia.org/wiki/UTF-8|Wikipedia]]**
+Um mehr über die Internas von UTF-8 zu erfahren, besuche einfach **[[https://en.wikipedia.org/wiki/UTF-8|Wikipedia - UTF-8]]**
-<div info>\\ Both UTF-8 and UTF-8MB4 from mySQL are 100% compatible to UTF-8 from PHP.</div>
+<div info>\\ Beides, UTF-8 und UTF-8MB4 aus mySQL ist 100% kompatibel zu UTF-8 aus PHP.\\
+In diesem Dokument sind die Schreibweisen  **utf8**||**utf-8** sowie **utf8mb4**||**utf-8mb4** gleichbedeutend.</div>
+Aber keine Sorge, das ganze Kapitel mit Zeichensätzen, Sortierungen und so weiter ist eigentlich nur halb so kompliziert, wie es auf den ersten Blick aussehen mag.\\
+Die Kenntnisse über die Zeichensätze in der Datenbank sind nur wirklich wichtig, wenn man selbst neue Datenbanktabellen entwirft.\\
+Für Programmierer ist es wichtiger, den Umgang mit den Multibyte-Stringfunktionen von PHP zu beherrschen. Denn wenn man diese nicht richtig verstanden hat, kann es durchaus in schweren Fehlern enden.
-===== UTF-8 and PHP =====
+===== UTF-8 und PHP =====
-PHP does not know any kind of 'Collation' or 'UTF-8mb4' or something else! So forget these in concern to PHP!
+PHP selbst kennt weder 'Kollationen' noch 'UTF-8MB4' noch ähnliches! Diese Dinge können bei PHP vergessen werden!
-UTF-8 in PHP exactly matches the definition in **[[https://tools.ietf.org/html/rfc3629|RFC 3629]]** / **ISO/IEC 10646-1:2000 Annex D** and can consist of one and up to four bytes per character. UTF-8 (as well as all Latin fonts) is bit-compatible with the first 128 characters of the original ASCII character table.
+PHP kennt jedoch UTF-8. Und zwar jenes, das exakt den Definitionen in **[[https://tools.ietf.org/html/rfc3629|RFC 3629]]** / **ISO/IEC 10646-1:2000 Annex D** entspricht und welches aus 1 bis 4 Bytes für jedes Zeichen besteht. UTF-8 (wie auch alle Latin_xxx Zeichensätze) ist in den ersten 128 Zeichen identisch zu der originalen ASCII Zeichentabelle.
 <div important>
-Since a character encoded in UTF-8 can be 1, 2, 3, or even 4 bytes in size, many of the 'old' string functions will no longer work correctly!\\
+Da in UTF-8 ein Zeichen mit 1, 2, 3 oder 4 Bytes dargestellt wird, funktionieren viele der 'alten' Stringfunktionen nicht mehr korrekt!\\
-Please use the corresponding multibyte functions instead! i.e. **mb_strlen()** instead of **strlen()**
+Bitte benutzt stattdessen die jeweils korrespondierenden Multibyte Funktionen! z.B. **mb_strlen()** anstatt **strlen()**
-**Examples:**
-^ Char ^ Codepoint ^ UTF-8 (bin) ^ Naming ^
+**Beispiele:**
+^ Zeichen ^ Codepunkt ^ UTF-8 (bin) ^ Benennung ^
 |  a  | U+0061 | 01100001 | LATIN SMALL LETTER A |
 |  á  | U+00E1 | 11000011 10100001 | LATIN SMALL LETTER A WITH ACUTE |
@@ Zeile 25: / Zeile 30: @@
 </PHP>
 </div>
-===== UTF-8 and mySQL =====
+===== UTF-8 und mySQL =====
-Unlike PHP, mySQL does not fully implement UTF-8 according to RFC 3629.
-In mySQL, UTF-8 can only be one to three bytes maximum. As a result, mySQL can not store UTF-8 4-byte characters.
-In order to solve this problem, the implementation of the UTF-8 character set was not changed, but subsequently the character set UTF-8MB4 was introduced. This character set can store any characters up to all 4 bytes.
-Now please do not think that these signs would be the same!\\
-There is of course a difference that can be very important especially for larger databases.
-The small but subtle difference is the memory consumption of these two charsets.
+Im Gegensatz zu PHP implementiert mySQL nicht die vollständige RFC 3629 Definition von UTF-8.
-Whereas UTF-8 dynamically reserves only exactly as many bytes as are needed to represent a character, UTF-8MB4 always occupies each character every 4 bytes. Both in memory and in the database. The increased memory requirement also influences the computation time, the accuracy of indices, the size of the index tables and also the access time.
+In mySQL kann ein UTF-8 Zeichen nur maximal 3 Bytes groß sein. Daher kann mySQL keine 4-Byte Zeichen als UTF-8 speichern.
+Um dieses Problem zu lösen, wurde jetzt nicht die UTF-8 Implementierung an die RFC angepasst, sondern es wurde ein neuer, zusätzlicher Zeichensatz 'UTF-8MB4' eingeführt. Dieser Zeichensatz kann jetzt auch 4-Byte Zeichen speichern.
+Aber jetzt bitte nicht denken, UTF-8(PHP) und UTF-8MB4 wären das selbe!\\
+Da gibt es weiterhin einen wichtigen Unterschied, der sich speziell bei größeren Datenbanken auswirken kann.
+Der kleine aber feine Unterschied besteht im Speicherverbrauch dieser beiden Zeichensätze.
+Während UTF-8 dynamisch nur genau soviel Speicherplatz reserviert, wie ein Zeichen benötigt, beschlagnahmt UTF-8MB4 für jedes Zeichen grundsätzlich immer volle 4 Bytes. Sowohl im Arbeitsspeicher als auch in der Datenbank.Das erhöht natürlich den Speicherbedarf und beeinflusst sowohl die Verarbeitungszeit als auch die mögliche Genauigkeit von Indizes, die Größe der Indextabellen und dadurch auch die Zugriffszeiten.
-**Example of memory consumption**
+**Beispiel Speicherverbrauch**
-^ character set ^ needed memory ^
+^ Zeichensatz ^ Speicherbedarf ^
 |"This is a little text in english, containing 54 signs."||
 | UTF-8: | 54 Byte |
@@ Zeile 44: / Zeile 49: @@
 | UTF-8MB4: | 64.000 Byte |
-oops, your text is about 200 kB? You have lots of such?
+oops, Dein Text ist um die 200.000 Zeichen groß? Du hast viele solcher Texte?
+===== UTF-8 und HTML =====
+Heutzutage sind alle modernen Browser in der Lage, UTF-8 codierte Zeichen darzustellen. Es gibt keinen Grund mehr, Sonderzeichen im HTML-Entity-Format auszugeben.
+Auf jeden Fall ist es für den Browser hilfreich, wenigstens eins der folgenden Metatags im Head-Abschnitt eines HTML-Dokumentes auszugeben.
+<PHP><meta http-equiv="content-type" content="text/html;charset=utf-8">
+<meta charset="UTF-8"></PHP>
 ===== Collations =====
-<div info>\\ Collations does not exist in PHP. These are only properties of text fields in database tables.</div>
+<div info>\\ Collations existieren nicht in PHP. Diese sind nur Eigenschaften von Textfeldern in Datenbanktabellen!</div>
-A collation has nothing to do with storage at first. It exclusively determines the rules according to which texts are sorted in the output.
+Eine Collation hat mit Codierung und Speicherung erst einmal nichts zu tun. Sie bestimmt nur die Regeln, nach denen Texte für die Ausgabe sortiert und verglichen werden.
+Nun, wenn wir auf die Auswahliste der möglichen Collations schauen, dann finden wir für praktisch jeden Zeichensatz eine lange Liste an Möglichkeiten. Einerseits sind da Collations die auf eine einzelne Sprache optimiert sind, andererseits finden wir auch Werte wie **_unicode_ci** und **_general_ci**, welche sprachübergreifend arbeiten.\\
-Now, if we look at the selection list of possible collations, we find there for each character set a long list of possibilities. On the one hand, there are sortings that are optimized for one particular language and on the other hand values like **_unicode_ci** and **_general_ci**, which work across languages.\\
+Der Unterschied zwischen **_unicode_ci** und **_general_ci** ist hauptsächlich eine deutlich unterschiedliche Verarbeitungsgeschwindigkeit.
-The difference between **_unicode_ci** and **_general_ci** is mainly a different processing speed.
+Auch die Sortierung ist unterschiedlich. 'unicode_ci' berücksichtig die wesentlichen Eigenheiten vieler Sprachen, während 'general_ci' rein Buchstabenorientiert arbeitet. Die Sortierung mit 'general_ci' ist deutlich schneller, aber auch viel weniger sprachbezogen und daher ungenauer als 'unicode_ci'.\\
-The sorting with **_general_ci** works much faster, but a bit more inaccurate than with **_unicode_ci**.
+Da unsere Datenbanken (auch die größten) relativ klein sind (10.000 Datensätze ist in der Welt der Datenbanken fast nichts) und auch im Hinblick auf die Mehrsprachigkeit, benutzen wir normalerweise immer die 'unicode_ci' Collation um die UTF-8MB4 Texte zu sortieren.\\
-Since our databases are relatively small (10,000 entries in a table are indeed very few in the world of databases) and also in terms of multilingualism, we usually use the **_unicode_ci** sorting of the **UTF-8MB4** character set.
-But no rule without exception. Text fields that contain only 7-bit characters (ASCII), such as `passwordhash`,` rememberkey` and the like, are defined with the character set '**ascii**' and the collation '**_general_ci**'.
 ===== Links =====
   * [[https://en.wikipedia.org/wiki/UTF-8|Wikipedia UTF-8]]

WebsiteBaker Documentation

Benutzer-Werkzeuge

Webseiten-Werkzeuge

Unterschiede

Seiten-Werkzeuge