IT记录

日常学习、工作的点滴记录


  • 首页

  • categories

  • archive

  • tags

  • 搜索

使用pdf2image将pdf文件转为图片

发表于 2021-10-09   |   分类于 Python   |   暂无评论

Python有多种方式将pdf文件转为图片,最简单的是使用pdf2image。

安装相应软件

sudo apt-get install poppler-utils
pip install pdf2image

直接运行

from pdf2image import convert_from_path, convert_from_bytes
import os,sys
import tempfile
from pdf2image.exceptions import (
    PDFInfoNotInstalledError,
    PDFPageCountError,
    PDFSyntaxError
)
with tempfile.TemporaryDirectory() as path:
    images_from_path = convert_from_path('./data/普通高等学校本科专业目录.pdf', dpi=300,fmt='jpg', output_folder='./data/pic')

此缺点是无法指定输出的文件名,但文件名的最后部分有_01数字进行标识。

使用Beautiful Soup解析下载数据导入MongoDB

发表于 2021-10-09   |   分类于 数据库   |   暂无评论

安装Beautiful Soup及html解析器lxml

pip install bs4
pip install lxml

解析新浪高考热讯并导入MongoDB

import requests
import time
from bs4 import BeautifulSoup
import pymongo

myclient = pymongo.MongoClient('mongodb://localhost:27017/')
mydb = myclient["gaokao"]
mycol = mydb["news"]
n = 0
for i in range(1,11):    
    url = 'http://edu.sina.com.cn/other/roll.d.html?cat=80459&page={}&page_size=30'.format(str(i))
    strhtml = requests.get(url)
    strhtml.encoding = 'utf8'
    soup = BeautifulSoup(strhtml.text,'lxml')
    data = soup.select('#Main > div.listBlk > ul > li > a')
    for item in data:
        web_xx.clear()
        n += 1
        m_num = 'sina'+str(n).rjust(6, '0')
        web_xx.setdefault(m_num,{})
        web_xx[m_num]['title'] = item.get_text()
        c_url = item.get('href')
        web_xx[m_num]['url'] = c_url
        content = requests.get(c_url)
        content.encoding = 'utf8'
        soup_content = BeautifulSoup(content.text)
        data1 = soup_content.select('#artibody')
        for item1 in data1:
            web_xx[m_num]['content'] = item1.get_text()
            time.sleep(3)
        mycol.insert_one(web_xx) 
        print(m_num+'入库成功!')

Jupyterlab的插件管理

发表于 2021-10-09   |   分类于 Jupyterlab   |   暂无评论

除了通过面板管理插件,还可以通过命令行进行插件管理。

安装一个生成目录的插件

jupyter labextension install @jupyterlab/toc

查看一下安装的插件

jupyter labextension list

卸载一个已安装的插件

jupyter labextension uninstall @jupyterlab/toc

Python处理JSON中文乱码解决问题

发表于 2021-10-09   |   分类于 Python   |   暂无评论

在将从数据查询出来的数据转化为json时,会出现中文乱码问题,需要:

json.dumps(r, ensure_ascii=False)

加入ensure_ascii=False既可以解决。

ubuntu下安装MongoDB CE版

发表于 2021-10-09   |   分类于 数据库   |   暂无评论

获取公钥

wget -qO - https://www.mongodb.org/static/pgp/server-4.4.asc | sudo apt-key add -

如果未安装gnupg,需要安装并重新导入key

sudo apt-get install gnupg
wget -qO - https://www.mongodb.org/static/pgp/server-4.4.asc | sudo apt-key add -

创建MongoDB的源

echo "deb [ arch=amd64,arm64 ] https://repo.mongodb.org/apt/ubuntu focal/mongodb-org/4.4 multiverse" | sudo tee /etc/apt/sources.list.d/mongodb-org-4.4.list

更新并安装

sudo apt-get update
sudo apt-get install -y mongodb-org

启用MongoDB服务,运行

sudo systemctl enable mongod    
mongo

1...17181920212223

一个高端大气上档次的网站

115 文章
5 分类
51 标签
GitHub 知乎 V2EX SF
© 2026 IT记录
Typecho
主题 - NexT.Pisces