博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python bs4结合数据库用法
阅读量:4985 次
发布时间:2019-06-12

本文共 1166 字,大约阅读时间需要 3 分钟。

# -*- coding:utf-8 -*-from urllib.request import urlopenfrom bs4 import BeautifulSoup as bsimport refrom pymysql import cursorsimport pymysql#请求URL并把把结果用UTF-8编码resp=urlopen('https://en.wikipedia.org/wiki/Main_Page').read().decode('utf-8')#使用bs解析soup=bs(resp,'html.parser')listUrls=soup.findAll('a',href=re.compile('^/wiki/'))#获取所有以/wiki/开头的a标签的href属性for url in listUrls:    if not re.search('\.(jpg|JPG)$',url['href']):        #string只能获取一个  get_text()获取标签下所有的文字        print(url.get_text(),'< - - - >','https://en.wikipedia.org'+url['href'])#获取href属性        #获取数据库连接        conn = pymysql.Connect(            host='localhost',            port=3306,            user='root',            password='root',            db='wikiurl',            charset='utf8'        )        try:            with conn.cursor() as cur:#用with可以自动关闭cur.close                sql="insert into `urls`(`urlname`,`urlhref`) values(%s,%s)"                #执行sql语句                cur.execute(sql,(url.get_text(),'https://en.wikipedia.org'+url['href']))                #提交sql语句                conn.commit()        finally:            conn.close()

 

转载于:https://www.cnblogs.com/ceshixuexi/p/7763740.html

你可能感兴趣的文章
shell脚本 ----每天学一点shell
查看>>
FZU2150 :Fire Game (双起点BFS)
查看>>
php_常用操作_读取文件_数据库操作
查看>>
Linux中GCC源码编译安装
查看>>
equals与==关于Object覆盖和重载问题
查看>>
KVO
查看>>
js基础教程四之无缝滚动
查看>>
关于C51 keil使用中.c文件的链接心得
查看>>
Ios 弹框 MJPopup,KxMenu
查看>>
ssh框架添加时添加不到数据库问题
查看>>
解决AR中Receivable Activities 运行不了的问题
查看>>
SQL SERVER 如何处理带字母的自增列--【叶子】
查看>>
使用DocFX生成文档
查看>>
AssemblyInfo.cs文件的作用
查看>>
android之PackageManager简单介绍
查看>>
GitLab备份与恢复
查看>>
20155307《网络对抗》免杀原理与实践
查看>>
《Android开发卷——自定义日期选择器(三)》
查看>>
游里工夫独造微一一小平邦彦传
查看>>
HTML5 JSON ( tuple => Object => JSON => Object=> Elements_of_tuple )
查看>>