Textdatei
Dateiname Erweiterung | .txt |
---|---|
Internet -Medientyp | Text/einfach |
Typschlüssel | TEXT |
Uniform Typ Identifier (UTI) | public.plain-text |
UTI -Konformation | public.text |
Art des Formats | Dokumentdateiformat, Generisches Containerformat |
A Textdatei (manchmal geschrieben Textdatei; Ein alter alternativer Name ist flach) ist eine Art von Computerdatei das ist als Folge von strukturiert Linien von elektronischer Text. Es gibt eine Textdatei als Daten gespeichert innerhalb eines Computerdateisystem. In Betriebssystemen wie z. CP/m und MS-DOS, wo das Betriebssystem die Dateigröße in Bytes nicht verfolgt, wird das Ende einer Textdatei bezeichnet, indem ein oder mehrere Sonderzeichen platziert werden, die als als bezeichnet werden Ende der Datei Markierung als Polsterung nach der letzten Zeile in einer Textdatei. Auf modernen Betriebssystemen wie z. Microsoft Windows und Unix-artig Systeme, Textdateien enthalten kein spezielles EOF -Zeichen, da Dateisysteme auf diesen Betriebssystemen die Dateigröße in Bytes verfolgen. Die meisten Textdateien müssen haben Ende der Linie Grenzwerte, die auf verschiedene Arten durchgeführt werden, je nach Betriebssystem. Einige Betriebssysteme mit Datensatzorientierte Dateisysteme Verwenden Sie möglicherweise keine neuen Zeilengrenzwerte und speichern in erster Linie Textdateien mit Zeilen, die als festgelegte oder variable Längendatensätze getrennt sind.
"Textdatei" bezieht sich auf eine Art Container, während einfacher Text bezieht sich auf eine Art von Inhalt.
Auf allgemeinen Ebene der Beschreibung gibt es zwei Arten von Computerdateien: Textdateien und Binärdateien.[1]
Datenspeicher
Aufgrund ihrer Einfachheit werden Textdateien üblicherweise für verwendet Lagerung von Informationen. Sie vermeiden einige der Probleme, die mit anderen Dateiformaten auftreten, wie z. Endiangess, Polsterbytes oder Unterschiede in der Anzahl der Bytes in a Maschinenwort. Weiter, wann Datenkorruption In einer Textdatei ist es oft einfacher, die verbleibenden Inhalte wiederherzustellen und fortzusetzen. Ein Nachteil von Textdateien ist, dass sie normalerweise einen niedrigen haben Entropie, was bedeutet, dass die Informationen mehr Speicherplatz einnehmen, als es ausschließlich notwendig ist.
Eine einfache Textdatei benötigt möglicherweise keinen zusätzlichen Metadaten (Außer Kenntnis von seiner Zeichensatz) den Leser bei der Interpretation unterstützen. Eine Textdatei darf überhaupt keine Daten enthalten, was ein Fall ist Null-Byte-Datei.
Codierung
Das ASCII -Zeichensatz ist die häufigste kompatible Teilmenge von Zeichensätzen für englischsprachige Textdateien und wird in vielen Situationen im Allgemeinen als Standarddateiformat angenommen. Es deckt amerikanisches Englisch ab, aber für die Briten Pfund-Zeichen, das Eurozeichenoder außerhalb Engländer verwendete Zeichen muss ein reichhaltigeres Zeichensatz verwendet werden. In vielen Systemen wird dies basierend auf dem Standard ausgewählt Gebietsschema Einstellen auf dem Computer, auf dem es gelesen wird. Vor der UTF-8 waren dies traditionell Single-Byte-Codierungen (wie z. ISO-8859-1 durch ISO-8859-16) für europäische Sprachen und breiter Charakter Codierungen für asiatische Sprachen.
Da Codings notwendigerweise nur ein begrenztes Repertoire an Charakteren haben, oft sehr klein, können viele nur einen Text in einer begrenzten Untergruppe menschlicher Sprachen darstellen. Unicode ist ein Versuch, einen gemeinsamen Standard für die Darstellung aller bekannten Sprachen zu erstellen, und die meisten bekannten Zeichensätze sind Teilmengen des sehr großen Unicode -Zeichensatzes. Obwohl für Unicode mehrere Zeichenkodierungen verfügbar sind, ist das häufigste ist UTF-8, was den Vorteil hat, mit ASCII rückwärtskompatibel zu sein; das heißt, jeder ASCII Die Textdatei ist auch eine UTF-8-Textdatei mit identischer Bedeutung. UTF-8 hat auch den Vorteil, dass Es ist leicht automatisch zu erkennen. Ein gemeinsamer Betriebsmodus der UTF-8-fähigen Software beim Öffnen von Dateien mit unbekannter Codierung besteht daher darin, UTF-8 zuerst zu versuchen und auf eine landschemas legierte Codierung zurückzukehren, wenn es definitiv nicht UTF-8 ist.
Formate
Bei den meisten Betriebssystemen der Name Textdatei bezieht sich auf das Dateiformat, das nur erlaubt einfacher Text Inhalt mit sehr wenig Formatierung (z. B. nein Fett gedruckt oder kursiv Typen). Solche Dateien können angezeigt und bearbeitet werden Text Terminals oder in einfach Textredakteure. Textdateien haben normalerweise die MIME Typ Text/einfach
, normalerweise mit zusätzlichen Informationen, die eine Codierung anzeigen.
Microsoft Windows -Textdateien
Ms-dos und Microsoft Windows Verwenden Sie ein gemeinsames Textdateiformat, wobei jede Textzeile durch eine Zwei-Charakter-Kombination getrennt ist: Kutschenrückkehr (Cr) und Zeilenvorschub (LF). Es ist üblich für die letzte Textzeile nicht mit einem CR-LF-Marker und vielen Textredakteuren beendet werden (einschließlich Notizblock) Fügen Sie keine automatisch in die letzte Zeile ein.
An Microsoft Windows Betriebssysteme, eine Datei wird als Textdatei angesehen, wenn das Suffix des Namens der Datei (die "Dateiname Erweiterung") ist .txt
. Viele andere Suffixe werden jedoch für Textdateien mit bestimmten Zwecken verwendet. Zum Beispiel wird der Quellcode für Computerprogramme normalerweise in Textdateien aufbewahrt, die Dateinamen -Suffixe enthalten, die die angeben Programmiersprache in der die Quelle geschrieben ist.
Die meisten Microsoft Windows-Textdateien verwenden "ANSI", "OEM", "Unicode" oder "UTF-8" -Codierung. Was Microsoft Windows Terminology "ANSI-Codierungen" nennt ISO/IEC 8859 Codierungen (d. H. ANSI in den Microsoft Notepad-Menüs sind wirklich "Systemcode-Seite", Nicht-Unikde, Legacy-Codierung), mit Ausnahme von Orten wie Chinesisch, Japanisch und Koreanisch, die Doppel-Byte-Zeichensets erfordern. ANSI -Codierungen wurden traditionell als Standard -System -Lokalisierung innerhalb von Microsoft Windows verwendet, bevor der Übergang zu Unicode. Im Gegensatz dazu sind OEM -Codierungen, auch bekannt als DOS -Code -Seiten, wurden von IBM für die Verwendung im ursprünglichen IBM PC -Textmodus -Anzeigesystem definiert. Sie enthalten typischerweise grafische und leitende Zeichenzeichen, die in DOS-Anwendungen üblich sind. "Unicode" -Encodierte Microsoft Windows-Textdateien enthalten Text in UTF-16 Unicode -Transformationsformat. Solche Dateien beginnen normalerweise mit Byte -Bestellmarke (Bom), was die kommuniziert Endiangess des Dateiinhalts. Obwohl UTF-8 nicht unter Endiangess-Problemen leidet, bereiten viele Microsoft Windows-Programme (d. H. Notepad) den Inhalt von UTF-8-kodierten Dateien mit BOM vor,[2] Um die UTF-8-Codierung von anderen 8-Bit-Kodierungen zu differenzieren.[3]
UNIX -Textdateien
An Unix-artig Das Format des Textdateien des Betriebssystems wird genau beschrieben: Posix Definiert eine Textdatei als eine Datei, die Zeichen enthält, die in Null oder mehr Zeilen organisiert sind.[4] wobei Linien Sequenzen von Null oder mehr Nicht-Newline-Zeichen sind, plus ein terminierender neuer Zeichen.[5] Normalerweise lf.
Zusätzlich definiert POSIX a druckbare Datei Als Textdatei, deren Zeichen druckbar sind oder Platz oder Hinterraum gemäß den regionalen Regeln. Dies schließt die meisten Kontrollzeichen aus, die nicht druckbar sind.[6]
Apple Macintosh Textdateien
Vor dem Aufkommen von Mac OS, das Klassischer Mac OS Das System betrachtete den Inhalt einer Datei (die Datengabel) als eine Textdatei, wenn ihre Ressourcengabel zeigte an, dass der Typ der Datei "Text" war.[7] Zeilen von Macintosh -Textdateien werden mit beendet Cr Figuren.[8]
Als zertifiziertes UNIX verwendet MacOS Posix Format für Textdateien.[8] Einheitliche Kennung (UTI), das für Textdateien in macOS verwendet wird, ist "public.plain-Text"; Zusätzliche, spezifischere UTIs sind: "public.utf8-plain-text" für UTF-8-kodierter Text, "public.utf16-external-plain-text" und "public Codierter Text und "com.apple.traditional-mac-Plain-Text" für klassische Mac OS-Textdateien.[7]
Rendering
Wenn der Benutzer von einem Texteditor eröffnet wird, wird der Inhalt des menschlichen Lesbarens dem Benutzer präsentiert. Dies besteht häufig aus dem einfachen Text der Datei, der für den Benutzer sichtbar ist. Abhängig von der Anwendung können Kontrollcodes entweder als wörtliche Anweisungen des Herausgebers oder als sichtbar gemacht werden Flucht Charaktere Das kann als einfacher Text bearbeitet werden. Obwohl in einer Textdatei auch nur Text vorhanden ist, können die Steuerzeichen in der Datei (insbesondere im End-of-Datei-Zeichen) den einfachen Text durch eine bestimmte Methode unsichtbar machen.
Siehe auch
- ASCII
- Ebcdic
- Dateiname Erweiterung
- Liste der Dateiformate
- Neue Zeile
- Satzstellung markieren
- Texteditor
- Unicode
Notizen und Referenzen
- ^ Lewis, John (2006). Informatik beleuchtet. Jones und Bartlett. ISBN 0-7637-4149-3.
- ^ "Verwenden von Byte -Bestellmarken". Internationalisierung für Windows -Anwendungen. Microsoft. Abgerufen 2022-04-21.
- ^ Freytag, Asmus (2015-12-18). "FAQ-UTF-8, UTF-16, UTF-32 & BOM". Das Unicode -Konsortium. Abgerufen 2016-05-30.
Ja, UTF-8 kann eine BOM enthalten. Es macht jedoch nein Unterschied in Bezug auf die Endiantheit des Byte -Streams. UTF-8 hat immer die gleiche Byte-Reihenfolge. Eine anfängliche BOM wird nur als Signatur verwendet-ein Hinweis darauf, dass sich eine ansonsten nicht markierte Textdatei in UTF-8 befindet. Beachten Sie, dass einige Empfänger von UTF-8-codierten Daten keine BOM erwarten. Wo UTF-8 verwendet wird transparent In 8-Bit-Umgebungen stört die Verwendung einer BOM jedes Protokoll- oder Dateiformat, das zu Beginn bestimmte ASCII-Zeichen erwartet, z. B. die Verwendung von "#!" von am Anfang von Unix -Shell -Skripten.
- ^ "3.403 Textdatei". IEEE STD 1003.1, 2017 Ausgabe. IEEE Computer Society. Abgerufen 2019-03-01.
- ^ "3.206 Linie". IEEE STD 1003.1, 2013 Ausgabe. IEEE Computer Society. Abgerufen 2015-12-15.
- ^ "3.284 druckbare Datei". IEEE STD 1003.1, 2013 Ausgabe. IEEE Computer Society. Abgerufen 2015-12-15.
- ^ a b "System-deklarierte einheitliche Typidentifikatoren". Anleitungen und Beispielcode. Apple Inc. 2009-11-17. Abgerufen 2016-09-12.
- ^ a b "Entwerfen von Skripten für die plattformübergreifende Bereitstellung". MAC Developer Library. Apple Inc. 2014-03-10. Abgerufen 2016-09-12.