雷丁大学的cookie政策

我们在reading.ac.uk上使用cookie来改善您的体验,监视网站性能并为您定制内容。

阅读我们的cookie策略以了解如何管理您的cookie设置。

文件格式

数据使用的文件格式可能会影响数据的处理方式以及数据保存和共享的效率。在实践中,您对文件格式的选择可能受您所在学科的标准或您在研究中使用的硬件和软件的类型的限制,但您应该尽可能地遵循最佳实践原则。

英国数据服务提供详细的建议格式化你的数据,包括关于最佳保存格式的建议。大学提供指导建议文件格式(PDF),以便将资料存放于研究资料资料馆。

专有和开放格式

文件格式可能是专有的,如Microsoft Excel和Adobe PDF,也可能是开放的,如逗号分隔值(CSV)或开放文档格式(ODF)。

用于数据收集和分析的最佳格式可能并不是用于长期数据保存的最合适格式。专有格式可以提供丰富的、高度指定的功能,但可能会限制数据的可用性,而且长期来看存在风险,因为它们是商业产品,只有获得许可才能使用,而且容易过时。

开放格式可能缺乏丰富的功能,更通用,但它们提供了高可用性,从长期来看风险很低,因为没有许可费,它们的规范是公开的,并且可以通过多个软件包呈现。

工作和保存格式

对于日常工作,使用适合您的研究小组的目的和可访问的文件格式。例如,您可以使用Microsoft Excel进行定量数据分析和可视化。

在可能的情况下,为了长期保存数据,应该以开放的或广泛使用的格式存储数据,并计划在必要时从专有格式进行转换。有关下面提到的任何格式的详细信息,请参阅国会图书馆格式评估

合适的保存格式可能是:

  • 开放格式,例如CSV用于表格数据,ASCII文本(.txt)和PDF/A用于文本和文档,XML带有适当的文档类型定义(DTD)用于结构化的机器可读信息,JPEG用于图像,FLAC用于音频,MPEG-4用于视频。这一类包括文本文件中编码的自描述格式,其中文件包含文件主体中报告的变量信息的标题:示例包括气候系统模型中使用的NetCDF格式,以及表示核苷酸或肽序列的FASTA格式;
  • 广泛使用的专有格式,例如用于表格数据和数据库的MS Excel和MS Access,用于文本的MS Word,用于图像的TIFF 6.0未压缩,以及用于音频的MP3或WAV。

例如,可保留专用格式的原始仪器数据,但也可或可转换为ASCII/CSV格式,以便更广泛地使用;在MATLAB或SPSS等专有软件中分析的数据应以无需软件许可证的用户可访问的格式保存。

在某些转换中,您可能会失去丰富的功能和格式,但从长远来看,您有更大的机会保持内容的完整性。如果一种专有格式提供的更丰富的特性为您的数据增加了价值,那么您也可以始终保留这种格式的数据。Adobe PDF和微软应用程序的流行格式可能会持续很多年。

图像和视听文件可能需要保存在信息最丰富的级别,以支持未来的使用,但可用性的实际考虑也可能进入。例如,一个未压缩的TIFF文件将保留最高级别的信息;相比之下,像JPEG这样的有损压缩格式保存的信息更少,但有实际的好处,即文件大小更小,在线提供的速度更快

研究软件

使用像Python和R这样的开放编程语言来处理和分析数据,在功能上比“指向和点击”专有软件有优势,而且在本质上是可复制的。

例如,要对你的数据进行统计分析,你可以使用SPSS,这是一种专有软件,需要许可证。因为操作是通过与图形用户界面交互来执行的,所以没有可以自动执行的操作脚本。任何希望复制您的分析的人都需要访问SPSS,导入您的数据,并根据您提供的信息重建分析。

如果您使用免费的编程语言R,您就可以进行分析而不必访问专有软件,并且您将能够通过将脚本保存到文本文件来保存完整的分析工作流。您或其他拥有这些脚本的人可以通过执行代码重新运行完全相同的分析;因为分析是自动化的,所以它可以保证是可重复的。因为运行分析不需要软件许可,所以它也是一种更透明的方法。

联系我们

电子邮件

罗伯特•达比,研究数据经理

researchdata@reading.ac.uk

电话:0118 378 6161

下载
Baidu
map