技术帖|手把手教你原始数据上传NCBI
卖萌控的博客
点击这里进入电脑版页面!体验更好
技术帖|手把手教你原始数据上传NCBI
2020-10-12 萌小白


近期收到不少售后咨,老师发表文章需要将数据上传到NCBI数据库,下面小编就把最新版的详细流程介绍给大家,记得收藏哦



1、注册NCBI账号



如果已经注册过NCBI ,直接登陆。



2、登录后转入NCBI主页





点击进入“Submit ”( 红框所示)






3、选择上传数据的类别



如图红框所示,选择“Sequence Read Archive(SRA)”,然后点击“GO“按钮进入。








4、进入上传入口界面



如下图所示,首先点击进入My profile,填写个人信息并保存,应该注意是NCBI已经取消了向qq.com、163.com和foxmail.com发送邮件,请选择其他邮箱,然后点击“New submission”按钮。






接着进入My profile界面,填写姓名、单位和地址等信息。完成以后,进入到上传的主界面,又有诸多步骤,下面进行详细介绍。



4.1进入Submitter界面



界面显示的是你之前填写的个人信息,直接点击“continue”按钮。



4.2进入General Information界面



该界面值得注意的是数据的公开时间,如果用于发表文章,建议指定公开的日期应该早于投稿日期,因为审稿人可能要查看你的数据,当然后期也是可以调整数据的公开日期的。






4.3进入Project Info界面



给你的实验取个名字并简要描述,然后点击“continue”按钮,如图所示。






4.4进入Sample Type界面



根据你的样本,选择相应的样本类型,如“Micrbe”。



4.5进入Attributes界面



接下来是对样本的描述,可以在线填写表格或者上传表格(需要先下载NCBI提供的表格文件进行填写)。NCBI提供了两种格式的表格供我们下载后填写,分别是TSV格式和xlsx格式。TSV格式也是可以用excel打开,每列表格都有固定的格式,切记要准确填写。这里推荐直接下载excel(xlsx格式)文件。






这里推荐直接下载excel(xlsx 格式) 文件,如下图所示。






首先,表格内容根据你之前所选的样本类型的不同而不同。其次应该注意:绿色字段是必填项;黄色字段是选填项;蓝色字段也是必填项,如果没有取得资料可以填“not collected ”、“not applicable”或“missing”。



在每一列字段的右上角有一个红色三角形的每一列都有一个注释,如果你将鼠标悬停在标题上,可以显示该提示信息。必须按照提示的格式填写,否则会报错。填写还表格后,点击“选择文件”按钮,找到你填写的表格,完成上传。



下图是日期的格式报错的例子,可以看出地址信息填写错误,国名要大写字母开头,中间用冒号分隔(注意不支持中文格式的符号)。遇到这种情况要先点击“Delete”删除上传的文件,根据表格中的提示,重新修改后再上传。






4.6进入SRA metadata界面



与上一步骤类似,先下载表格,填写数据的信息。






SRA metadata表格如下,






该表格分为三个sheet,第一和第三的sheet是一些补充说明。需要填写的是第二个sheet。这里要注意:“sample_name”要与上一步表中“sample_name”相对应,除了“bioproject_accession”可以不填,其他蓝色列必填。



完成表格的更改后,就可以上传了,如果有报错,请根据提示更改表格重新上传。



4.7进入Files界面



进入到该页面后就可以上传数据了,NCBI 提供了多种上传数据的方法,最常用的是浏览器上传和命令行上传。如果数据量少,可以使用浏览器上传,选择就不再赘述了,如下图所示。






如果数据量大,用ftp 或浏览器方法上传,不仅速度慢而且还有会中断的现象。这时候推荐使用Aspera 软件上传数据,其优点是上传速度快,可在windows和linux系统下以命令行运行。






首先,在使用Aspera上传数据之前,需要下载安装Aspera 软件,如下图所示,进入NCBI主页,点击Download。






进入Aspera下载界面,如下图所示。






准入IBM Aspera下载页面,点击下载,然后windows下安装。



安装完成后,进入命令行模式。输入命令行:



首先进入用户目录:C:\Users\10243 (请改成自己的用户名)



然后键入:



“AppData\Local\Programs\Aspera\Aspera Connect\bin\ascp.exe”-i <path/to/key_file> -QT -l100m -k1 -d <path/to/folder/containing files>



subasp@upload.ncbi.nlm.nih.gov:uploads/1024346672@qq.com_TkJUSuck



注意软件路径加上英文格式的双引号,否则可能会报错。



-i 下载的key file的路径<aspera.openssh>



-I 上传的最大速度<100m>



-d 数据存放的路径(以“\”结尾)这是根据你数据的存放路径来输入的subasp@upload.ncbi.nlm.nih.gov:uploads/1024346672@qq.com_TkJUSuck 是注册邮箱生成的随机码。



windows系统命令行示例如下:






linux系统下的命令行示例如下:






等待数据上传完成后,点击“Select preload folder”按钮。






然后核实一下信息,上传就快完成了。






回到manage data项,会看见刚才上传的Bioproject,大概一天后就会通过NCBI审核,并邮件通知你,里面会有id信息,或者进入到该界面,自己找到对应的id。






到此,上传数据就算完成了。





发表评论:
昵称

邮件地址 (选填)

个人主页 (选填)

内容