首页 > 科研教程 > 技术帖|手把手教你原始数据上传NCBI
2020
10-12

技术帖|手把手教你原始数据上传NCBI

近期收到不少售后咨,老师发表文章需要将数据上传到NCBI数据库,下面小编就把最新版的详细流程介绍给大家,记得收藏哦

1、注册NCBI账号

如果已经注册过NCBI ,直接登陆。

2、登录后转入NCBI主页

点击进入“Submit ”( 红框所示)

3、选择上传数据的类别

如图红框所示,选择“Sequence Read Archive(SRA)”,然后点击“GO“按钮进入。

4、进入上传入口界面

如下图所示,首先点击进入My profile,填写个人信息并保存,应该注意是NCBI已经取消了向qq.com、163.com和foxmail.com发送邮件,请选择其他邮箱,然后点击“New submission”按钮。

接着进入My profile界面,填写姓名、单位和地址等信息。完成以后,进入到上传的主界面,又有诸多步骤,下面进行详细介绍。

4.1进入Submitter界面

界面显示的是你之前填写的个人信息,直接点击“continue”按钮。

4.2进入General Information界面

该界面值得注意的是数据的公开时间,如果用于发表文章,建议指定公开的日期应该早于投稿日期,因为审稿人可能要查看你的数据,当然后期也是可以调整数据的公开日期的。

4.3进入Project Info界面

给你的实验取个名字并简要描述,然后点击“continue”按钮,如图所示。

4.4进入Sample Type界面

根据你的样本,选择相应的样本类型,如“Micrbe”。

4.5进入Attributes界面

接下来是对样本的描述,可以在线填写表格或者上传表格(需要先下载NCBI提供的表格文件进行填写)。NCBI提供了两种格式的表格供我们下载后填写,分别是TSV格式和xlsx格式。TSV格式也是可以用excel打开,每列表格都有固定的格式,切记要准确填写。这里推荐直接下载excel(xlsx格式)文件。

这里推荐直接下载excel(xlsx 格式) 文件,如下图所示。

首先,表格内容根据你之前所选的样本类型的不同而不同。其次应该注意:绿色字段是必填项;黄色字段是选填项;蓝色字段也是必填项,如果没有取得资料可以填“not collected ”、“not applicable”或“missing”。

在每一列字段的右上角有一个红色三角形的每一列都有一个注释,如果你将鼠标悬停在标题上,可以显示该提示信息。必须按照提示的格式填写,否则会报错。填写还表格后,点击“选择文件”按钮,找到你填写的表格,完成上传。

下图是日期的格式报错的例子,可以看出地址信息填写错误,国名要大写字母开头,中间用冒号分隔(注意不支持中文格式的符号)。遇到这种情况要先点击“Delete”删除上传的文件,根据表格中的提示,重新修改后再上传。

4.6进入SRA metadata界面

与上一步骤类似,先下载表格,填写数据的信息。

SRA metadata表格如下,

该表格分为三个sheet,第一和第三的sheet是一些补充说明。需要填写的是第二个sheet。这里要注意:“sample_name”要与上一步表中“sample_name”相对应,除了“bioproject_accession”可以不填,其他蓝色列必填。

完成表格的更改后,就可以上传了,如果有报错,请根据提示更改表格重新上传。

4.7进入Files界面

进入到该页面后就可以上传数据了,NCBI 提供了多种上传数据的方法,最常用的是浏览器上传和命令行上传。如果数据量少,可以使用浏览器上传,选择就不再赘述了,如下图所示。

如果数据量大,用ftp 或浏览器方法上传,不仅速度慢而且还有会中断的现象。这时候推荐使用Aspera 软件上传数据,其优点是上传速度快,可在windows和linux系统下以命令行运行。

首先,在使用Aspera上传数据之前,需要下载安装Aspera 软件,如下图所示,进入NCBI主页,点击Download。

进入Aspera下载界面,如下图所示。

准入IBM Aspera下载页面,点击下载,然后windows下安装。

安装完成后,进入命令行模式。输入命令行:

首先进入用户目录:C:\Users\10243 (请改成自己的用户名)

然后键入:

“AppData\Local\Programs\Aspera\Aspera Connect\bin\ascp.exe”-i <path/to/key_file> -QT -l100m -k1 -d <path/to/folder/containing files>

subasp@upload.ncbi.nlm.nih.gov:uploads/1024346672@qq.com_TkJUSuck

注意软件路径加上英文格式的双引号,否则可能会报错。

-i 下载的key file的路径<aspera.openssh>

-I 上传的最大速度<100m>

-d 数据存放的路径(以“\”结尾)这是根据你数据的存放路径来输入的subasp@upload.ncbi.nlm.nih.gov:uploads/1024346672@qq.com_TkJUSuck 是注册邮箱生成的随机码。

windows系统命令行示例如下:

linux系统下的命令行示例如下:

等待数据上传完成后,点击“Select preload folder”按钮。

然后核实一下信息,上传就快完成了。

回到manage data项,会看见刚才上传的Bioproject,大概一天后就会通过NCBI审核,并邮件通知你,里面会有id信息,或者进入到该界面,自己找到对应的id。

到此,上传数据就算完成了。


最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情