IT记录

日常学习、工作的点滴记录


  • 首页

  • categories

  • archive

  • tags

  • 搜索

解决pdfminer与pdfplumber冲突问题

发表于 2021-10-11   |   分类于 Python   |   暂无评论

python处理pdf文件,网上一般推荐使用pdfminer3k和pdfplumber这两个库。但如果安装这两个库,则会发生冲突,主要是pdfplumber无法导入。卸载掉pdfminer3k也不起作用,因为系统还会保留lib/python3.8/site-packages/下的pdfminer目录。

网上的解决办法中,无论是按照先pdfminer3k后pdfplumer顺序的,还是回退pdfplumber版本的,都不起作用。

如果二者得兼,可以使用以下办法:

首先安装pdfplumber,然后将pdfminer目录改名为Newpdfminer。

再安装pdfminer3k,安装完毕后将pdfminer目录改名为newpdfminer,然后将原Newpdfminer修改回pdfminer。

Jupyterlab重新启动后,导入包的时候使用newpdfminer代替pdfminer,比如:

from newpdfminer.pdfparser import PDFParser, PDFDocument
from newpdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from newpdfminer.converter import PDFPageAggregator
from newpdfminer.layout import LAParams, LTTextBox
from newpdfminer.pdfinterp import PDFTextExtractionNotAllowed

这样就可以解决二者冲突问题。

不过测试了一下通过程序生成的pdf文件,号称以处理文本见长,但使用繁琐的的pdfminer3k出现了乱码,而简洁明了,以处理表格见长的pdfplumber反而没有出现乱码问题。

Ubuntu二进制文件安装Gitea

发表于 2021-10-09   |   分类于 系统应用   |   暂无评论

安装Gitea二进制文件

安装Gitea,使用sqlite数据库,需要安装git,sqlite

sudo apt install sqlite3
sudo apt install git

创建git用户

sudo adduser --system --group --disabled-password --shell /bin/bash --home /home/git --gecos 'Git Version Control' git

下载最新的Gitea二进制文件,创建目录并设置所需的权限和所有权

wget -O /tmp/gitea https://github.com/go-gitea/gitea/releases/download/v1.15.4/gitea-1.15.4-linux-amd64
sudo mv /tmp/gitea /usr/local/bin
sudo chmod +x /usr/local/bin/gitea
sudo mkdir -p /var/lib/gitea/{custom,data,indexers,public,log}
sudo chown git: /var/lib/gitea/{data,indexers,log}
sudo chmod 750 /var/lib/gitea/{data,indexers,log}
sudo mkdir /etc/gitea
sudo chown root:git /etc/gitea
sudo chmod 770 /etc/gitea

下载创建Systemd Unit位文件

sudo wget https://raw.githubusercontent.com/go-gitea/gitea/master/contrib/systemd/gitea.service -P /etc/systemd/system/

下载完毕后,可以启用并启动Gitea服务:

sudo systemctl daemon-reload
sudo systemctl enable --now gitea
Created symlink /etc/systemd/system/multi-user.target.wants/gitea.service → /etc/systemd/system/gitea.service.

现在已经下载并运行了Gitea,默认情况下,Gitea会侦听所有网络接口上端口3000上的连接,可以通过Web界面完成安装了。

升级Gitea

升级Gitea与安装类似,安装之前需要停止Gitea

sudo systemctl stop gitea
sudo systemctl restart gitea

其中/etc/gitea下的api.ini如果版本变动不大,可以重复使用

Openpyxl检查空单元格

发表于 2021-10-09   |   分类于 Python   |   暂无评论

使用Openpyxl处理Excel文件中的空单元格,其类型为None或NoneType,无法通过‘’为空来判断。
检查空单元格需要使用if cell.value:来进行检查。

Numpy随机数组的创建

发表于 2021-10-09   |   分类于 Python   |   暂无评论

创建一个长度为10的数组,数组的值都为0:

np.zeros(10,dtype=int)

创建一个3*5的浮点型数组,数组的值全部为3.14

np.full((3,5),3.14)

创建5个元素数组,这5个元素均匀分布到0到1之间

np.linspace(0,1,5)

创建一个3*3的在0~1范围内的随机数组成的数组

np.random.random((3,3))

创建一个3*3的,[0,10)区间的随机整型数

np.random.randint(0,10,(3,3))

MongoDB的数据备份及恢复

发表于 2021-10-09   |   分类于 数据库   |   暂无评论

MongoDB的数据备份

默认情况下:

mongodump

数据会被备份到当前目录下的dump目录下。

mongodump -h dbhost -d dbname -o dbdirectory

则指定数据库及备份的目录

MongoDB的数据恢复

mongorestore -h <hostname><:port> -d dbname <path>

如果不指定数据库及备份文件的路径,则恢复当前目录下dump目录内的备份

1...121314151617181920212223

一个高端大气上档次的网站

115 文章
5 分类
51 标签
GitHub 知乎 V2EX SF
© 2026 IT记录
Typecho
主题 - NexT.Pisces