数据库调研

发布时间:2024年01月19日

需求:

aaseqstargeting_scorepossibility_scoretargeting_specificitypossibility_specificity
说明:生成的氨基酸序列靶向性模型分数产量模型分数是否被靶向模型推理是否被活性模型所推理
MMQIEFIKOGSMNFRFIPVLFPNAKKEHVP0.99150.991100
EMQIEFIKOGSMNFRFIPVLFPNAKKEHVE0.99130.990100
AMQIEFIKOGSMNFRFIPVLFPNAKKEHVD0.99110.989100
MMQIEFFIKOGSMNFRFIPVLFPNAKKEHVP0.99090.988100
EMQIEFIKOGSsMNFRFIPVLFPNAKKEHVE0.99070.987100
AMQIEFIKOGSMNFRFIPpVLFPNAKKEHVD0.99050.986100

1、可能3小时产生一亿条不同的序列数据,这个时候该用什么时候的数据库???

2、?

1.? 生成器以生产者模式生成大量待推理序列片段

  1. 生产者不用在乎消费者(模型推理)是否在消费,跟消费者消费行为解耦,是异步的。
  2. 生成的序列在某个数据库里,是否推理用一个字段来标记。

2.? ?

现有数据库积累了一年的数据,查询越来越慢,IT陈家宇给的操作是 把每天插入的数据表做成分区表。

分区表的概念是,一般 按照 CREATION_DATE ,建立分区表,因为一般查询 按照 创建时间去查询是普遍现象。

数据库里,一般一个表就是一个文件,所以不分区, 这个文件会越来越大。

分区表的意思,表还是这个表,如果你分区是按照一天去建立分区表,那就是一天的数据是一个文件,这样我查询,不需要在整张几个GB在大文件里去找一遍,只在当天的文件里去找,这样速度会快很多。

后续会写个事件,event,每天先建立明天的分区表,备份昨天的分区表,删除30天以前的分区表
?

文章来源:https://blog.csdn.net/txpp520/article/details/135669466
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。