Rss & SiteMap
生物器材论坛 http://www.bio-equip.com/
导读 | 当Benjamin Delory开始撰写关于一种量化植物形态的新方法的论文时,他意识到其中一个图可能很难说明他要表达的东西。他在该论文中提出了一个“永久性条码”(persistence barcode)的方法来描述植物根系的分支结构。问题是该如何具体说明这一方法。 |
Illustration by the Project Twins
本文转载自“生命奥秘”。
德国吕讷堡大学(Leuphana University)的博士后研究员Delory指出,永久性条形码的底层算法是连续和动态的。最好的说明方式是展现动态效果。
科学图表通常呈现为静态图像。但是,这些图表与底层数据是分开的,因此读者无法通过放大感兴趣的特性来更详细地探索图表内的信息。而基因组科学家则需要将数百万个数据点塞进几厘米大的密集视觉图,因此这个问题对于他们来说更为重要。
计算算法的研究人员也会碰到这个问题。科学家经常在开放源代码库(如GitHub)上发布软件,但让代码正常运行说起来容易做起来难。审阅者和其他感兴趣的人通常需要额外的软件和配置来使算法正常运作。
现在一些期刊通过支持交互式数字和代码来填补这个空白。其中之一是F1000Research。该期刊去年与加拿大蒙特利尔的计算机公司Plotly和纽约市的Code Ocean平台达成了合作。F1000Research的开放精神和数据可视化能力吸引了Delory和他的合作者将论文投到该杂志。该论文于1月份见刊。
交互式出版物
纽约时报(New York Times)和fivethyeye.com等网站的一大特点是使用交互式图表,帮助让读者深入研究一个故事的基础数据。但在科学出版中,交互式图表不太常见。
资深出版编辑Thomas Ingraham表示,F1000Research的“活数据”——2014年推出的交互式图表——可以不断更新新数据,但制图复杂,且费时费力。用户可以使用Plotly建立并分享散点图、线图、等高线图和地图的可视化。生成的图像允许读者放大数据,跨越图像和鼠标悬停点来查看绘图值。学生会员费为每年59美元。开源库允许研究人员使用R、MATLAB、Python和Julia代码创建免费的Plotly图形。
Code Ocean网站提供每月10小时,存储容量为50G的免费服务,普通会员每月19美元起。它将代码、数据、结果和用于执行它们的计算环境汇集在一个独立的“计算胶囊”中,以复制作者的计算配置。其他用户可以从codeocean.com下载、修改和运行该代码,也可以通过论文中的小部件进行修改和运行。
现在F1000Research已经发布了6篇包含交互式部件的论文,其中五个有交互式图表,一个有Code Ocean小部件。今年,F1000Research计划增加对交互式蛋白质-蛋白质相互作用图(使用网络映射工具Cytoscape生成)的支持。
事实上,制作交互式图表并没有那么复杂。根据布鲁金斯南达科他州立大学(South Dakota State University)的计算生物学家Xijin Ge的说法,他的一篇论文中加入了交互式Plotly图表,创造这些图表只需要一个额外的代码。西澳大利亚大学海洋研究所和地球科学学院(Oceans Institute and School of Earth Sciences at the University of Western Australia)的珊瑚研究员Tom DeCarlo为古海洋学、古气候学(Paleoceanography and Paleoclimatology)和生物地球学(Biogeosciences)等期刊创建了6个Code Ocean项目。他认为这对科学交流和重复性非常重要。
开源解决方案
对于那些寻求开源计算选择的人来说,一个名为Binder的工具非常有用。该工具可以将任何包含Jupyter笔记本(文本、代码和数据交错的文件)或R代码的公共GitHub存储库转换成可以在浏览器上运行的软件包。用户只需将笔记本存储库地址输入到mybinder.org的搜索栏中,网站便会自动创建一个可共享的交互式工作区。加州州立理工大学(California Polytechnic State University)的Binder项目团队成员Carol Willing表示,这确实有助于提高重现性和易用性。
瑞士苏黎世大学(University of Zurich)Binder项目团队的成员Tim Head指出,这样的工具也简化了同行评议。当他被要求评议一篇期刊文章时,他感到沮丧的是软件无法运行。Head认为,如果他们给他发了Binder链接,就不会有这个问题了。
可用于创建交互式图像的开源平台也很多,包括Bokeh、htmlwidgets、pygal和ipywidgets。大多数平台是以编程方式使用的,通常使用的是科学中常用的R或Python语言。例如,编程人员可以使用ipywidgets将交互式3D图、地图和分子可视化放入Jupyter笔记本中。另一个用JavaScript编写的平台是Vega-Lite。因为Java语言在科学领域不太流行,西雅图华盛顿大学(University of Washington)的Jake VanderPlas和加州州立理工大学(California Polytechnic State University)的Brian Granger开发了一个名为Altair的Python界面,使Java更易于访问。
尽管这些工具中的大多数倾向于为特定图形类型提供功能,但Vega-Lite和Altair在描述变量如何映射到不同的视觉特征,如颜色或形状等功能时使用的“语法”相对灵活。这两个工具还允许图形相互连接——当用户选择一个图的某个区域时,附近区域的显示则相应地更新。华盛顿大学(University of Washington)计算机科学家Jeffrey Heer指出,这让他们能够以多维的方式探索实际数据之间的联系。Vega-Lite就是Heer实验室开发的。
另外,波士顿Rstudio开发的R语言平台Shiny和Plotly公司开发的Python平台Dash让研究人员通过使用下拉菜单和滑块控件等小部件来混合数据、图形和代码,从而创建了交互式应用程序。这两个平台通过将用户的小部件操作传输到远程服务器,远程服务器运行底层代码,并更新页面。
由此产生的应用程序可以使不熟悉编程的研究人员访问数据和工具。例如,特拉维夫大学(Tel Aviv University)的研究生Tal Galili等人合作开发了一个基于Plotly的工具箱,用于根据上传的数据集中构建交互式热图,以及一个运行代码的Shiny界面。北卡罗来纳州达勒姆杜克大学(Duke University)的统计学家Çetinkaya-Rundel为她的本科统计课程建立了Shiny的资源,以帮助她在讲座中阐明复杂的概念。
Çetinkaya-Rundel表示,上课的时候,她会打开一个交互式图表,然后说‘刚才我们已经介绍了这个东西,现在我们移动小部件时会发生什么’,这种教学方式是很有意思的。
在期刊网页上展示这样的交互式图表需要期刊网页对创作工具、编辑工作流程和基础设施进行更改。也可能涉及将科学数据委托给第三方,但这些第三方并不总能保证其持久性。
eLife负责产品开发的Giuliano Maciocci表示,为了解决这个问题,eLife的可重现文献堆栈项目(Reproducible Document Stack project)旨在创建一个终端到终端的工具集,以编写、提交和发布计算可复制的文档。他还指出,这个计划是将一篇论文的核心内容——文本、图形、代码、数据和计算环境——封装在一个可下载的对象中。为了鼓励大家使用该堆栈,eLife期刊正在开放源码。
取得进展
现在支持Code Ocean集成的期刊和出版商越来越多,它们包括GigaScience、IEEE、SPIE、剑桥大学出版社和Taylor&Francis。《细胞生物学杂志》(The Journal of Cell Biology)基于开源OMERO软件的JCB DataViewer,这让读者可以浏览显微镜图像的原始图像,而不是通常看到的经过处理的压缩文件。一个相关的工具图像数据资源(Image Data Resource)可为在任何期刊上发表的论文提供类似的功能。《自然》(Nature)杂志也开始支持交互式图表,例如一篇描述DNA元件百科全书计划(Encyclopedia of DNA Elements)的论文中就使用了这种图表。一位《自然》杂志发言人表示,《自然》正在调研其它几个互动代码和图表平台。与此同时,研究人员也经常在自己的文章中链接到外部可视化。
德克萨斯州休斯顿贝勒医学院(Baylor College of Medicine)的Erez Lieberman Aiden指出,随着越来越多的期刊采纳交互式图表,科学信息的在线表达可能会发生根本性的变化,这意味着可重复性的提高。Aiden最近在《细胞》(Cell)杂志上发表了一篇包含染色质相互作用的可视化图表的论文。静态图表只是数据的一个体现。Aiden认为,有相关背景的读者需要能够得出自己的结论。2017年阅读文献的方式与1974年阅读报纸的方式应该是不一样的。
原文检索:
Kendall Powell. (2018) Data visualization tools drive interactivity and reproducibility in online publishing. Nature, 554: 133-134.
来源:生命奥秘/张洁