两个数据导入脚本

博主： Chr
发布时间：2020 年 11 月 25 日
22050 次浏览
35 条评论
2369字数
分类：程序设计

前言

i> 最近下了某个数据库，十几GB的纯文本数据也没法直接看，就写了个脚本自动导进数据库

执行效果

x> 本文仅分享数据处理脚本，不提供数据及其下载方式

QQ

'''
# @Author       : Chr_
# @Date         : 2020-11-25 15:51:26
# @LastEditors  : Chr_
# @LastEditTime : 2020-11-25 18:03:46
# @Description  : QQ
'''
import pymysql
# 请自行修改为自己的数据库，数据表名为qq，包含id，qq，phone两个字段
db = pymysql.connect("localhost", "root", "123456", "shegong")
sql = 'INSERT INTO `shegong`.`qq`(`qq`, `phone`) VALUES (%s, %s)'
cursor = db.cursor()
print('开始处理')
with open('6.9更新总库.txt',encoding='utf-8') as f:
    j = 0
    i = 0
    pd = False
    for line in f:
        q,*_,p = line.split('----')
        # 如果运行中断，把数据库最后一条数据替换下面的值再重新运行即可
        if not pd and q == '3523406341':
            pd = True
            print('找到结尾')
        if not pd:
            continue
        try:
            cursor.execute(sql, (q, p))
            i += 1
            if i >= 100000:
                db.commit()
                i = 0
                j += 1
                print(f'{j}00000 条提交完毕')
        except Exception as e:
            print(f'存取出错 {q} {p} {e}')
            pass
print('文件尾')
db.commit()
db.close()
print('导入完成')

微博

'''
# @Author       : Chr_
# @Date         : 2020-11-25 16:24:16
# @LastEditors  : Chr_
# @LastEditTime : 2020-11-25 18:17:13
# @Description  : weibo
'''
import pymysql
# 请自行修改为自己的数据库数据表名为wb，包含id，uid，phone两个字段
db = pymysql.connect("localhost", "root", "123456", "shegong")
sql = 'INSERT INTO `shegong`.`wb`(`uid`, `phone`) VALUES (%s, %s)'
cursor = db.cursor()
print('开始处理')
with open('微博五亿2019.txt', encoding='utf-8') as f:
    j = 0
    i = 0
    pd = False
    for line in f:
        p,*_, uid = line.split()
        # 如果运行中断，把数据库最后一条数据替换下面的值再重新运行即可
        if not pd and uid == '15890981333':
            pd = True
            print('找到结尾')
        if not pd:
            continue
        try:
            cursor.execute(sql, (uid, p))
            i += 1
            if i >= 100000:
                db.commit()
                i = 0
                j += 1
                print(f'{j}00000 条提交完毕')
        except Exception as e:
            print(f'存取出错 {uid} {p} {e}')
            pass
print('文件尾')
db.commit()
db.close()
print('导入完毕')

本文链接：https://blog.chrxw.com/archives/2020/11/25/1422.html
转载请保留本文链接，谢谢

最后修改：2020 年 12 月 02 日

如果觉得我的文章对你有用，请随意赞赏

35 条评论

Clancy
2023年07月15日 14:46:52

为什么我的报错QwQ：
```
File "wb5e.py", line 20
p,*_, uid = line.split()
^
SyntaxError: invalid syntax
```

回复
1. Clancy
  2023年07月15日 14:52:29
  
  @Clancy
  
  解决了，必须用py3.x
  
  回复
otk
2021年01月28日 14:59:23

这个是不是数据表要自己手动创建

回复
1. Chr
  2021年01月28日 16:01:15
  
  @otk
  
  是的，数据库结构参考代码
  
  回复
  1. otk
    2021年01月28日 23:15:32
    
    @Chr
    
    已经成功导入了，之前是数据库的问题。我现在还想问一下如果导入中断了，是吧当前最后一条的qq字段替换成3523406341，那对应行phone字段需要动吗？
    
    回复
    
    Chr
    2021年01月29日 00:59:29
    
    @otk
    
    21行的qq只是用来定位导入中断的地方用的，读取到以后才会执行导入操作。
    
    回复
    
    otk
    2021年01月29日 23:06:58
    
    @Chr
    
    卡在这个位置148600000行了 553746669----18604999767后面和前面的格式也没区别啊。
    报错：
    Traceback (most recent call last):
    File "qq.py", line 19, in
    q,*_,p = line.split('----')
    ValueError: not enough values to unpack (expected at least 2, got 1)
    
    回复
    
    Chr
    2021年01月29日 23:42:41
    
    @otk
    
    手动跳过这一行即可，21行的qq成下面的qq
    
    回复
    
    otk
    2021年02月02日 16:08:28
    
    @Chr
    
    貌似是因为python读不了这么多数据，我把后面的数据抠出来一部分就没事了。这个python有的调吗？我试过分割txt但是太大了，分不开
    
    回复
    
    Chr
    2021年02月02日 16:43:08
    
    @otk
    
    qq那个文件中间有一行是几百万个空格，我的电脑没有报错，你报错可能是内存不够？
    
    回复
    
    otk
    2021年01月30日 00:08:49
    
    @Chr
    
    不行下一行也提示这个，我在txt里找到了这几行，跟前面的格式没有任何区别。字符我都用文字对比软件对比了，一毛一样
    
    回复
    
    otk
    2021年01月29日 13:20:35
    
    @Chr
    
    每次导入到148000000条就会中断，然后把py里的那个值改成最后一条QQ还是会从头开始导入，这啥情况
    
    回复
    
    Chr
    2021年01月29日 15:13:53
    
    @otk
    
    下个断点自己调试下哪里有问题
    
    回复
  2. otk
    2021年01月28日 16:33:07
    
    @Chr
    
    数据表 shegong.qq
    字段 qq 类型 varchar 长度 255
    字段 phone 类型 varchar 长度 255
    
    回复
    
    otk
    2021年01月28日 16:36:43
    
    @otk
    
    (1146, "Table 'shegong.qq' doesn't exist")
    存取出错 526728445 13029916004
    
    回复
    
    123
    2021年02月01日 11:26:03
    
    @otk
    
    检查一下 148659433 行
    
    回复
testsb
2021年01月28日 09:39:52

先处理数据中的空格换行符和格式，保存为新文档，然后手工load file导入

回复
1. testsb
  2021年01月28日 10:13:51
  
  @testsb
  
  windows下导入会报错
  
  回复
aa
2021年01月05日 18:10:34

运行闪退啊

回复
atriangle
2020年12月28日 21:54:18

该评论仅登录用户及评论双方可见

回复
qaws
2020年12月28日 20:12:40

可以分享一下数据吗？

回复
陌上
2020年12月28日 16:31:05

总共多少条数据呀？导了几百万还是没结束→_→

回复
1. Chr
  2020年12月28日 17:39:07
  
  @陌上
  
  5亿条和7亿条
  
  回复
  1. 陌上
    2020年12月28日 17:46:51
    
    @Chr
    
    两个多小时才导了4千万数据，这也太慢了，是我电脑太垃圾了嘛
    
    回复
kjl
2020年12月19日 01:04:27

请问这个耗时多久完成？

回复
1. Chr
  2020年12月19日 15:09:07
  
  @kjl
  
  看服务器性能，我花了大概3天
  
  回复
  1. kjl
    2020年12月20日 21:27:57
    
    @Chr
    
    好的好的，多谢！基于您的源码，我改了一下，jd的也导入进去了
    
    回复
    
    Chr
    2020年12月21日 18:38:38
    
    @kjl
    
    感觉应该做个分表机制的，5亿条查起来太慢了
    
    回复
fiky
2020年12月02日 14:07:14

求分享一下数据吗

回复
dock
2020年12月02日 13:26:39

求分享

回复
小柒
2020年12月02日 13:23:23

博主可以分享一下数据吗

回复
zzz
2020年12月02日 12:43:44

谢谢

回复
zzz
2020年12月02日 09:32:46

你好，求分享数据可以吗或者数据来源

回复
zjw
2020年12月01日 21:57:16

求分享

回复
jjjj
2020年12月01日 15:15:44

可以分享一下数据吗

回复