Linux

Linux下文件的拆分以及随机取样

需求200W的文本文件,需要删除以某些字符开始的行,然后在剩下的文件中取4个10W的样本。样本不重复。 一开始觉得使用MySQL导入到数据库,发现速度太慢了。 所以使用先拆分后取样的方式,保证不重复即可,概率上可能会有所偏差,不影响结...