Skip to Main Content
It looks like you're using Internet Explorer 11 or older. This website works best with modern browsers such as the latest versions of Chrome, Firefox, Safari, and Edge. If you continue with this browser, you may see unexpected results.

Gestión de datos de investigación (RDM por sus siglas en inglés): Tipos de datos y los formatos

Descripción de los formatos comunes

Aquí algunos ejemplos de formatos de archivo según el tipo. Muchos de estos tipos pueden utilizarse para organizar los datasets de su proyecto.


 

Format

Description

Archive

Archive formats are similar to spreadsheets, but contain more than one row format. Typically they have one format to indicate cruise information, another for station information, and another for the actual measured parameter values.

Auxiliary

Auxiliary formats are usually small files that contain instructions (or other information) that an executable program needs in order to use the data file. They are much less comprehensive than true metadata files, which can play similar roles

Compression

These formats are used for efficient storage or transmission of data, using a variety of compression algorithms in software programs that range from open-source to commercial.

Document

The data are contained in formats usually concerned with digital documents, including proprietary formats (e.g. DOC) or elaborately formatted ASCII text.

Hard Copy

Data on paper, including all types of journals, logbooks, periodicals, etc.

Markup Language

A markup language is an artificial language using a set of annotations to text that give instructions regarding how text is to be displayed.

Message

Highly specified, formal code sequences for reporting weather and surface marine observations.

Metadata

A metadata standard is a common set of terms and definitions that describe data.

Raster and Grid

In the earth sciences, a gridded data file is usually thought of as a set of numbers making up a rectilinear array (i.e. rows and columns) of parameter values, and the raster is sometimes thought of as a visualization of the grid. Both are essential inputs to geographic information systems.

Relational Database

The formats used by Relational Database Management Systems, universally binary and completely invisible to the user.

Self-Describing

These formats contain extensive internal metadata, which provides user systems with all the information needed for both use and discovery. Station data, grids and rasters can be accommodated in these formats.

Spreadsheet

An array of rows and columns, each cell containing either alphanumeric text or numeric values. The columns in the spreadsheet, usually labeled in the first row, contain separate types of information; the rows contain all the separate types of information associated with a single entity, such as an oceanographic station. All rows in a true spreadsheet have exactly the same format.

Vector 

Files containing digital representations of geometric forms, such as points, lines, curves, and shapes or polygon(s), which are all based upon mathematical equations, to represent images in computer graphics. An essential input to geographic information systems.


El contenido de esta sección se obtuvo de: Reed, G. (2015). Research data organization and standards. Ocean Teacher Global Academy: Research Data Management Course [Moodle platform]. Recuperado de, http://classroom.oceanteacher.org/login/index.php

Tipos de datos

En general, cada disciplina maneja en mayor o menor grado los siguientes tipos de datos. La siguiente es una lista de ejemplos de tipos de datos.

  • resultados de experimentos 
  • datos observacionales 
  • simulación de datos 
  • notas de campo
  • imágenes (gráficos, scans) 
  • fotos digitalizadas 
  • documentos "born digital"
  • data cuantitativa (datos de encuesta) 
  • archivos históricos
  • muestras 
  • objetos  (huesos, algas)
  • datos de las redes sociales (eg. estadísticas de twitter)

Tipos de formatos

Establacer un formato apropiado es esenciales para poder reproducir el contenido de los archivos de la manera correcta. Dado a los avances tecnológicos estos se mantienen en constante desarrollo y en muchas ocasiones versiones anteriores pueden caer en desuso y culminar obsoletas, es decir, ningún programa moderno puede reproducir su contenido. Lamentablemente, muchos datos de investigación se pierden por esta razón. Al escoger el formato para guardar tus archivos, verifica que esté aceptado por la comunidad, que sea ampliamente utilizado y que exista algún compromiso por mantenerlo después de varios años. Si existen versiones más adelantadas, siempre puedes migrar tus datos para que no los pierdas. 

Para más detalles sobre formatos de archivos (file formats) vea el siguiente vídeo en el tiempo 3:09. 

Lecture by Greg Reed (AODC, Australia) given during the research data management training course, IODE, 16-20 November 2015

Tipos de extensiones de formatos

Al momento de seleccionar el tipo de archivo o formatos considere el acceso a largo plazo de los datos. Para alargar la vida de sus archivos utilice los formatos que están diseñados para este propósito. Los siguientes tipos de formatos son recomendados sobre los formatos de programados de licencia propietaria.

Archivo Texto Numérico Video Imagen Audio
Use

PDF
TXT
XML
RTF

CSV
Tab Delimited

MPEG-4

TIFF

JPEG2000

WAV

No use

MS Word

MS Excel

Quicktime

GIF
JPG

mp3

Herramientas para identificar el formato apropiado

Existen dos herramientas que pueden ayudarte a tomar una desición informada sobre el tipo de formato a escoger para que tus datos estén accesibles en el futuro. Ambos esfuerzos recogen datos sobre los formatos, programados a que estan atados, versiones y probabilidades de supervivencia o cuando estos se tornaron obsoletos. 

El Archivo Nacional de los Estados Unidos produjo una tabla sencilla con los formatos recomendados y aceptables para su preservación a largo tiempo. Este contiene enlaces a las especificaciones de los formatos y los estándares relacionados.


Las mejores practicas sugieren que el formato sea: 

check

  • no propietario, o sea, de código abierto​
  • ​documentado según estándares del mercado
  • ampliamente aceptado por la comunidad de investigadores
  • no-encriptado​
  • sin compresión