Domains mit Umlauten / Sonderzeichen wurden vor vielen Jahren erfunden, und vermutlich würden sie längst überall funktionieren. Trotzdem sieht man sie nirgends. Wie kommt das?
Aus Gründen der Sicherheit und Kompatibilität werden Domain-Namen mit nicht-ASCII Zeichen tatsächlich via Punycode notiert, der echte Domain-Name ist dann xn--irgendwas. Zum Beispiel,
dömäin.example
=
xn--dmin-moa0i.example
Das sieht einfach doof aus wenn der Browser letzteres anzeigt, egal ob dein Link jetzt schöne Sonderzeichen haben könnte.
Das Browser das machen ist extrem wichtig zur Vermeidung von "Homograph"-Angriffen, bei der Phisher eine Domain registrieren die so ähnlich aussieht wie irgendwas bekanntes, aber in Wirklichkeit Sonderzeichen benutzt. Wann Browser Unicode oder Punycode anzeigen unterscheidet sich nach verschiedenen Heuristiken. Der einzige zuverlässige Ansatz für Domains die immer gleich angezeigt werden ist ASCII.
Ich habe auch mal gehört, dass E-Mail damit auch zusätzlich schwieriger wird weil manche Mail-Programme das nicht unterstützen und dann müssen alle Leute den Punycode eintippen.
(Ich hätte ja gerne eine Emoji-Domain. Aber habe mich auch wegen der ganzen Nachteile bisher davon abhalten lassen. Und mit mit .de wird das sowieso nichts.)
Man schließt praktisch 95% (geraten) der Welt aus, die URL direkt eintippen zu können. Außerdem macht es das für suchen über Google auch schwieriger, wenn man keine Umlaute auf der Tastatur hat.
Wie oft hast du schon eine Domain mit kyrillischen Schriftzeichen eingetippt? Außer für homografische Angriffe (Spoofing) ist mir das noch nicht passiert.
Außerdem hätte ich Angst, damit beta-Tester für schlecht getestete Web-Angebote und -Clients zu werden.
Letztere Adresse ist, was man bekommt, wenn man solche URLs an stellen kopiert, die diese Kodierung [1] nicht sofort wieder in das ursprüngliche Format umgewandelt anzeigen.
Passiert übrigens jenseits des Domain-Teils in URLs auch, als %-Kodierung [2]. Da stört es meiner Ansicht aber nicht so stark, weil dann zumindest die Domain selbst irgendwie korrekt aussieht, sofern sie keine kodierten Umlaute enthält.