Weicher Bindestrich

Beim Computer und Artensett, a weicher Bindestrich (ISO 8859: 0xad, Unicode U+00Ad Weicher Bindestrich, Html: ­ oder ­ oder & schüchtern;) oder Silbenbindung (Ebcdic: 0xca), abgekürzt SCHÜCHTERN, ist ein Codepunkt, der in einigen reserviert ist codierte Zeichensätze Zum Zweck des Brechens von Wörtern über Zeilen durch Einfügen von sichtbar Bindestriche. Es sind zwei alternative Möglichkeiten zur Verwendung des weichen Bindestrichs für diesen Zweck aufgetaucht, je nachdem, ob der codierte Text von seinem Empfänger in Linien unterteilt wird oder bereits von seinem Urheber vorformatiert wurde.[1][2][3]
Text, der vom Empfänger formatiert werden soll
Die Verwendung schüchterner Zeichen im Text, die vom Empfänger in Zeilen unterteilt werden Html und Unicode Spezifikationen sowie einige Wortverarbeitungsdateiformate. In diesem Zusammenhang kann der weiche Bindestrich auch als a genannt werden Diskretionäre Bindestrate oder Optionaler Bindestrich. Es dient als unsichtbarer Marker, mit dem ein Ort im Text angegeben wird, an dem eine beilagerte Pause erlaubt ist, ohne a zu erzwingen Zeilenumbruch an einem unangenehmen Ort, wenn der Text erneut geflogen wird. Es wird erst nachher sichtbar Zeilenumbruch Am Ende einer Linie. Die Unicode -Semantik- und HTML -Implementierung des Soft Byphens ähnelt in vielerlei Hinsicht wie Unicode's Null-Breitenraum, mit der Ausnahme, dass der weiche Bindestrich das bewahrt Kerning der Zeichen auf beiden Seiten, wenn sie nicht sichtbar ist. Der Raum mit Nullbreite hingegen wird nicht, da er als sichtbarer Charakter angesehen wird, auch wenn er nicht gerendert wird, wodurch seine eigenen Kerning-Metriken auftreten.
Um die Wirkung eines weichen Bindestrichs in HTML zu zeigen, die Wörter des folgenden Textes[4] wurden mit weichen Bindestrichen getrennt:
MargaretAreYouGrievingOverGoldengroveUnleavingLeavesLikeTheThingsOfManYouWithYourFreshThoughtsCareForCanYouAhAsTheHeartGrowsOlderItWillComeToSuchSightsColderByAndByNorSpareASighThoughWorldsOfWanwoodLeafmealLieAndYetYouWillWeepAndKnowWhyNowNoMatterChildTheNameSorrowsSpringsAreTheSameNorMouthHadNoNorMindExpressedWhatHeartHeardOfGhostGuessedItIsTheBlightManWasBornForItIsMargaretYouMournFor
Bei HTML-Browsern, die weiche Bindestriche unterstützen, wird der oben genannte Text nur an Wortgrenzen neu gestrichen und am Ende jeder Zeile einen Bindestrich einfügen.
Vom Urheber vorformatierte Text
Der schüchterne Charakter wird auch im Text verwendet, in dem bereits Absätze in Zeilen unterteilt wurden, wie z. einfacher Text Dateien, Text gesendet an VT100-Stil Terminalemulatoren oder Drucker oder Seiten in Seitenbeschreibung Sprachen. Dies ist der Anwendungskontext, der ursprünglich von der berücksichtigt wurde Ebcdic und ISO 8859-1 Standards und in vielen implementiert VT100 Terminalemulatoren.[1][2]
Hier ist Shy ein sichtbarer Bindestrich, der normalerweise von einem regulären Bindestrich visuell nicht zu unterscheiden ist, aber ausschließlich zum Zweck des Linienbrechens eingefügt wurde. Der Zweck des weichen Bindestrichs hier ist es, ihn von jedem normalen Bindestrich zu unterscheiden, der Teil der ursprünglichen Schreibweise des Wortes gewesen sein könnte. Diese Unterscheidung hilft bei der Wiederverwendung des bereits formatierten Textes, wenn Linienbrüche und weiche Bindestriche, die während der Wortverpackung eingefügt wurden, entfernt werden müssen, um den Text wieder in seine unformatierte Form umzuwandeln. Zum Beispiel die Funktion von kopieren oder einfügen von a Terminal-Emulator kann anbieten, Linienpausen durch a zu ersetzen Weltraumcharakter, und entfernen Sie alle weichen Bindestriche, einschließlich unmittelbar folgt Whitespace -Charaktere.
Eine Beispielanwendung, die aus diesem Grund weiche Bindestriche ausgibt, ist die dürfen Textformatatter, wie auf vielen Unix/Linux -Systemen verwendet werden, um anzuzeigen Mannseiten.
Codierungen und Definitionen
Schüchterne Zeichen in codierten Zeichensets, ungefähr in chronologischer Reihenfolge:
- Ebcdic platzierte einen schüchternen Charakter (dort als "Silbe -Bindestrich") an Position 202 (0xca bekannt hexadezimal).[1][5] IBM definierte seinen Zweck als einen "Bindestrich, der verwendet wird, um ein Wort am Ende einer Zeile zu teilen [die] entfernt werden kann, wenn ein Programm die Linien anpasst".[6]
- Deutscher Standard LÄRM 31626 definiert a C1 -Steuercodesatz Definieren 0x8d als "optionale Lehrplanungssteuerung (OSC)", ein "Druckregelungszeichen" zur Verwendung von Silbengrenzen in langen Wörtern. Dieser C1 -Kontrollsatz wurde 1979 registriert.[7] (Hinweis: Dies ist nicht dasselbe wie die ISO/IEC 6429 C1 -Kontrollcode Betriebssystembefehl (OSC).))
- ISO 8859-1: 1986 (latein 1) erbte schüchtern von Ebcdic, aber "weicher Bindestrich", platzierte es an Position 0xad (hexadezimal) und erklärte seinen Zweck als "zur Verwendung, wenn eine Zeilenpause in einem Wort festgelegt wurde". Sonstiges ISO 8859 Teile platzierten es an derselben Position, mit Ausnahme von ISO 8859-11 (Latein/Thai), was es fehlt.
- IBM Code Seite 850 (ein MS-DOS Zeichensatz, die alle ISO 8859-1 Zeichen abdecken) an Position 240 = 0xF0 platziert.
- SGML"numerische und spezielle Grafik" (Isonum) Charakterentität SET (ISO 8879: 1986) enthält "& Shy;" Für den ISO 8859-1 Soft Bindestrich.
- Unicode 1.0 (1991) und ISO 10646 (1993) nahmen die ersten 256 Codepositionen von ISO 8859-1 ein, was bei Unicode Code Point von U+00 schüchtern wurde.
- Html 2 (1995) integrierte das "& schüchtern"; Charakterentität aus SGML, entmutigte jedoch explizit ihre Verwendung.
- HTML 4 (1999) definierte den Zweck des Charakters als Kennzeichnung einer Bindestrichmöglichkeit, die nur am Ende einer Linie nach der Formatierung als Bindestrich sichtbar wird.
- Unicode 4.0 (2002) änderte die Kategorie ihres schüchternen Charakters von zuvor "PD" (Interpunktion, Dash) in "CF" (andere Format), wodurch seine Interpretation des Charakters mit dem von HTML 4 ausgerichtet wurde.
Andere Befehle zum Markieren von Bindestrichen in Textformatierungssprachen (ähnlich wie bei HTML 4 und Unicode 4.0 Interpretation von Shy):
Sicherheitsprobleme
Weiche Bindestriche wurden verwendet, um böswillig zu verdecken Domänen oder URLs in E-Mail-Spam.[9][10]
Siehe auch
Verweise
- ^ a b c Jukka Korpela (Januar 2011). "Weicher Bindestrich (schüchtern) - ein hartes Problem?". Tampere University of Technology. Abgerufen 8. April 2011.
- ^ a b Markus G. Kuhn (4. Juni 2003). "Unicode-Interpretation von weichem Bindestrich bricht ISO 8859-1 Kompatibilität" (PDF). Unicode Technischer Ausschuss.L2/03-155R.
- ^ Eric Müller (14. August 2002). "Ja, weicher Bindestrich ist ein schweres Problem". Unicode Technischer Ausschuss.L2/02-279.
- ^ Demonstrationstext stammt aus dem Gedicht Hopkins, Gerard Manley, Frühling und Herbst: zu einem kleinen Kind
- ^ "Erweiterter binär codierter Dezimalstauschcode - S/390".comsci.us. Abgerufen 8. April 2011.
- ^ "Glossar". IBM. Abgerufen 8. April 2011.
- ^ LÄRM (15. Juli 1979). Zusätzliche Kontrollfunktionen für die bibliografische Verwendung gemäß dem deutschen Standard DIN 31626 (PDF). Itcj/Ipsj. ISO-IR-40.
- ^ "Allgemein verwirrte Charaktere".Greg Baker, Simon Fraser Universität. Abgerufen 12. Juli 2011.
- ^ "Spammer verwenden weiche Bindestriche, um bösartige URLs zu verbergen". Slashdot. 7. Oktober 2010. Abgerufen 8. April 2011.
- ^ "Soft Bindestrich - eine neue URL -Verschleierungstechnik". Symantec. Abgerufen 8. April 2011.