Linux下文件的拆分以及随机取样
需求200W的文本文件,需要删除以某些字符开始的行,然后在剩下的文件中取4个10W的样本。样本不重复。 一开始觉得使用MySQL导入到数据库,发现速度太慢了。 所以使用先拆分后取样的方式,保证不重复即可,概率上可能会有所偏差,不影响结...
Linux 查看内存/CPU信息
系统信息1234567891011121314151617181920(base) cong@cong ~ neofetch -` cong@cong...
需求200W的文本文件,需要删除以某些字符开始的行,然后在剩下的文件中取4个10W的样本。样本不重复。 一开始觉得使用MySQL导入到数据库,发现速度太慢了。 所以使用先拆分后取样的方式,保证不重复即可,概率上可能会有所偏差,不影响结...
系统信息1234567891011121314151617181920(base) cong@cong ~ neofetch -` cong@cong...