Welcome 微信登录
编程资源 图片资源库 蚂蚁家优选 PDF转换器

首页 / 操作系统 / Linux

使用 JavaScript 实现对 PDF 的全文索引

使用 JavaScript 实现对 PDF 的全文索引

我曾今在一个售卖法律和财务数据库访问方案(他们称之为“智能信息”)的公司工作。大多数法庭记录都是通过PACER以PDF形式提供的,一个站点被特地开发出来用于发布法庭记录。基于这个数据集的一个意义重大的数据库产品需要建立一条处理管道,它能够从超过两亿分份PDF文档中提取文本并对其进行索引,展示美国超过20年的诉讼记录。这些处理过程将花费数月的机器时间,使得软件工作组在构建它们时的面临很大的压力。在这一处理过程中的早期有个一步骤是从电子...
在Linux中使用线程

在Linux中使用线程

我并不假定你会使用Linux的线程,所以在这里就简单的介绍一下。如果你之前有过多线程方面的编程经验,完全可以忽略本文的内容,因为它非常的初级。首先说明一下,在Linux编写多线程程序需要包含头文件pthread.h。也就是说你在任何采用多线程设计的程序中都会看到类似这样的代码:1 #include <pthread.h>当然,进包含一个头文件是不能搞定线程的,还需要连接libpthread.so这个库,因此在程序连接阶段应该有类似这样的指令:g...
本地POSIX线程库(NPTL)

本地POSIX线程库(NPTL)

在Linux操作系统中,本地POSIX线程库(NPTL)是一种软件特性,它可让Linux的内核,高效地运行那些使用POSIX风格的线程所编写的程序。测试中,NPTL在一个IA-32处理器上,成功地同时跑了10万个线程,启动这些线程只用了不到2秒。比较起来,在不支持NPTL的内核上,这个测试花费了大约15分钟。以前(也就是在2.6内核以前),Linux把进程当作其调度实体,内核并不真正支持线程。可是,它提供了一个clone()系统调用—&mdas...
Linux的新式线程同步原语——Futex

Linux的新式线程同步原语——Futex

在我的上一篇文章《本地POSIX线程库》http://www.linuxidc.com/Linux/2013-10/91409.htm中,提到了Futex一词,发现好多读者误以为这是我的笔误,将Mutex错写为Futex了。其实Futex是Linux的一种全新的线程同步原语。本文将为您解读高效的Futex。 Futex是fast userspace mutex的缩写,意思是快速用户空间互斥体。Linux内核把它们作为快速的用户空间的锁和信号量的预制构件提...
使用autotools自动生成Makefile并在此之上使用dh-make生成可发布的deb程序包

使用autotools自动生成Makefile并在此之上使用dh-make生成可发布的deb程序包

使用autotools自动生成Makefile并在此之上使用dh-make生成可发布的deb程序包(详解)一、前言本文将介绍如何使用autotools生成一个Makefile文件,并在此基础上使用dh-make和debuild生成一个可发布的deb程序包,这也是我们在Linux下开发应用程序以及想要发布应用程序需要做的。无论是在Linux还是在Unix环境中,make都是一个非常重要的编译命令。不管是自己进行项目开发还是安装应用软件,我们都经常要用到mak...
《OpenGL超级宝典》学习笔记

《OpenGL超级宝典》学习笔记

OpenGL超级宝典 第4版 中文版PDF+英文版+源代码 见 http://www.linuxidc.com/Linux/2013-10/91413.htm第一章 OpenGL的介绍用二维的方式观察3D的世界,仍然是3D世界,因为其能够触发大脑判断它的深度。这个效果与它的颜色的改变、纹理、光照、着色以及各种不同的颜色强度(由于光照的原因)。接下来就学习基本概念。透视:是指直线之间的角度,正是它产生了三维的幻觉。颜色和着色:通过增加颜色来创建实心物体,更加...
<< 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 >>