Archivo de texto

Ir a: navegación, búsqueda de
Para enviar mensajes de texto lengua, vea Lenguaje SMS.
Un tipo común de icono utilizado para representar archivos de texto en un Explorador de archivos.

A archivo de texto (a veces deletreado "archivo de texto": un viejo nombre alternativo es "Fortune") es una especie de archivo de computadora está estructurado como una secuencia de líneas de Textos electrónicos. Existe un archivo de texto dentro de un sistema de archivos de computadora. Al final de un archivo de texto se denota a menudo mediante la colocación de uno o más caracteres especiales, conocidos como un fin de archivo marcador, después de la última línea de un archivo de texto. Sin embargo, en algunos sistemas operativos populares como Windows o Linux, archivos de texto no contienen ningún carácter especial EOF.

"Archivo de texto" se refiere a un tipo de contenedor, mientras que texto sin formato se refiere a un tipo de contenido. Archivos de texto pueden contener texto, pero no están limitados a los mismos.

En un nivel genérico de descripción, hay dos tipos de archivos: archivos de texto y archivos binarios.[1]

Contenido

  • 1 Almacenamiento de datos
  • 2 Formatos
    • 2.1 ASCII
    • 2.2 UTF-8
    • 2.3 MIME
    • 2.4 .TXT
    • 2.5 Archivos .txt Windows estándar
  • 3 Normalización
  • 4 Renderizado
  • 5 Véase también
  • 6 Notas y referencias
  • 7 Enlaces externos

Almacenamiento de datos

Una estilizada representación icónica de un CSV-formato archivo de texto.

Debido a su simplicidad, archivos de texto son usados comúnmente para almacenamiento de información de la información. Algunos de los problemas encontrados con otros formatos de archivo, como por ejemplo evitan endianness, relleno de bytes, o diferencias en el número de bytes en un Palabra de la máquina. Además, cuando corrupción de datos se presenta en un archivo de texto a menudo es más fácil recuperar y continuar procesando el contenido restante. Una desventaja de archivos de texto es que generalmente tienen una baja entropía, lo que significa que la información ocupa más espacio de almacenamiento que es estrictamente necesario.

Un archivo de texto simple necesita no adicional metadatos para ayudar al lector en la interpretación y por lo tanto puede no contienen datos, que es un caso de archivo de cero bytes.

Formatos

ASCII

El ASCII estándar permite archivos de texto ASCII-solo (a diferencia de la mayoría de otros tipos de archivos) para ser libremente intercambiados y legible en Unix, Macintosh, Microsoft Windows, DOSy otros sistemas. Estos se diferencian en su preferido final de línea Convenio y su interpretación de los valores fuera del intervalo ASCII (su codificación de caracteres).

UTF-8

En archivos de texto inglés contexto puede únicamente ASCII, cuando en un contexto internacional archivos de texto suelen ser permisivas 8 bits permitiendo almacenaje de textos nativos.

En esos contexto internacional, un Marca de orden de bytes pueden aparecer en el inicio del archivo para diferenciar la codificación UTF-8 de la codificación regional obsoleta.[2]

MIME

Archivos de texto suelen tienen la MIME tipo "text/plain", generalmente con la información adicional que indica una codificación. Antes de la llegada de Mac OS X, el sistema Mac OS Mira el contenido de un archivo (la bifurcación de datos) para ser un texto de archivo cuando su ' resource fork ' indicó que el tipo del archivo "Texto". Bajo el sistema operativo Microsoft Windows, un archivo se considera como un archivo de texto si el sufijo del nombre del archivo (el"extensión") es"txt". Sin embargo, muchos otros sufijos se utilizan archivos de texto con fines específicos. Por ejemplo, el código fuente de programas informáticos se mantiene generalmente en archivos de texto que tienen sufijos de nombre de archivo que indica el lenguaje de programación en el que está escrita la fuente.

.TXT

.txt No es un formato de archivo para los archivos que consta generalmente de texto que contiene muy poco de formato (por ejemplo, negrita o cursiva). La definición precisa del formato .txt no está especificada, pero normalmente coincide con el formato aceptado por el sistema terminal o simple editor de texto. Archivos con la extensión .txt fácilmente se pueden leer o abiertos por cualquier programa que lee el texto y, por esa razón, se considera universales (o independiente de la plataforma).

El Conjunto de caracteres ASCII es el formato más común para archivos de texto de lengua inglesa y generalmente se asume que es el formato de archivo predeterminado en muchas situaciones. Para con acentos y otros caracteres no-ASCII, es necesario elegir una codificación de caracteres. En muchos sistemas, esto es elegido sobre la base el valor por defecto locale configuración del equipo se lee sobre. Codificaciones de caracteres comunes incluyen ISO 8859-1 para muchos idiomas europeos.

Porque muchas codificaciones tienen sólo un limitado repertorio de personajes, a menudo sólo son utilizables para representar texto en un subconjunto limitado de lenguas humanas. Unicode es un intento de crear un estándar común para representar todos los idiomas conocidos, y los aparatos más conocido personaje son subconjuntos del gran conjunto de caracteres Unicode. Aunque existen múltiples codificaciones de caracteres de Unicode, el más común es UTF-8, que tiene la ventaja de ser compatible con ASCII; es decir, cada archivo de texto ASCII es también un archivo de texto UTF-8 con idéntico significado.

El principal problema entre ASCII puro y puro UTF-8 se limita a la presencia o ausencia de la BOM. Según Microsoft, el protocolo de Unicode utilizado para archivos txt es UTF-8, aunque en Bloc de notas de la codificación UTF-16LE se llama Unicode.

Archivos .txt Windows estándar

MS-DOS y Windows utilizan un formato común de archivo de texto, con cada línea de texto separados por una combinación de dos caracteres: CR y LF, que tienen códigos ASCII 13 y 10. Es común que la última línea del texto No para terminar con un marcador de CR-LF y muchos editores de texto (incluyendo Bloc de notas) no inserte automáticamente uno en la última línea.

Más archivos de texto de Windows utilizan una forma de codificación ANSI, OEM o Unicode. ¿Qué terminología Windows llama "Codificaciones ANSI" son generalmente solo-octeto ISO-8859 codificaciones (es decir, ANSI en los menús de Microsoft Notepad es realmente "Código de página", no Unicode, legado codificación), excepto en escenarios como el chino, Japonés y coreano que requieren conjuntos de caracteres de doble byte. Las codificaciones ANSI tradicionalmente fueron utilizadas como locales de sistema por defecto en Windows, antes de la transición a Unicode. Por el contrario, codificaciones de OEM, también conocido como páginas de código de MS-DOS, se definieron por IBM para el uso en el sistema de pantalla del modo de texto IBM PC original. Ellos típicamente incluyen caracteres gráficos y dibujo de línea común en aplicaciones de MS-DOS (posiblemente pantalla completa). Pueden utilizar archivos de texto de Windows más recientes tales como una codificación Unicode UTF-16LE o UTF-8, con Marca de orden de bytes.

Normalización

POSIX define un archivo de texto como un archivo que contiene caracteres organizados en cero o más líneas.[3]

POSIX define un archivo imprimible como un archivo de texto cuyos personajes son imprimibles o espacio o retroceso según normas regionales. Esto no incluye caracteres de control, que no son imprimibles.[4]

Renderizado

Cuando se abrió por un editor de texto, se presenta contenido legible para el usuario. Esto a menudo consiste en texto sin formato del archivo visible para el usuario. Dependiendo de la aplicación, códigos de control pueden ser rendidos o instrucciones como literales actuadas por el editor, o como visible caracteres de escape se pueden editar como texto sin formato. Aunque puede haber texto en un archivo de texto, caracteres de control dentro del archivo (especialmente el carácter de fin de archivo) pueden representar el texto sin ser visto por un método en particular.

Véase también

  • Lista de formatos de archivo
  • Extensiones de archivo
  • ASCII
  • EBCDIC
  • Newline
  • Editor de texto
  • Unicode

Notas y referencias

  1. ^ Lewis, John (2006). Ciencias de la computación iluminado. Jones y Bartlett. ISBN0-7637-4149-3.
  2. ^ http://msdn.Microsoft.com/en-us/library/Windows/Desktop/dd374101%28V=vs.85%29.aspx
  3. ^ http://pubs.Opengroup.org/onlinepubs/9699919799/basedefs/V1_chap03.html#Tag _03_395
  4. ^ http://pubs.Opengroup.org/onlinepubs/9699919799/basedefs/V1_chap03.html#Tag _03_282

Enlaces externos

  • C2: el poder de texto sin formato

Otras Páginas

Obtenido de"http://en.copro.org/w/index.php?title=Text_file&oldid=634400515"