Welcome

首页 / 软件开发 / JAVA / StreamTokenizer

StreamTokenizer2007-05-29 yycnet.yeah.net yyc译尽管StreamTokenizer并不是从InputStream或OutputStream衍生的,但它只随同InputStream工作,所以十分恰当地包括在库的IO部分中。
StreamTokenizer类用于将任何InputStream分割为一系列“记号”(Token)。这些记号实际是一些断续的文本块,中间用我们选择的任何东西分隔。例如,我们的记号可以是单词,中间用空白(空格)以及标点符号分隔。
下面是一个简单的程序,用于计算各个单词在文本文件中重复出现的次数:
//: SortedWordCount.java// Counts words in a file, outputs// results in sorted form.import java.io.*;import java.util.*;import c08.*; // Contains StrSortVectorclass Counter {private int i = 1;int read() { return i; }void increment() { i++; }}public class SortedWordCount {private FileInputStream file;private StreamTokenizer st;private Hashtable counts = new Hashtable();SortedWordCount(String filename)throws FileNotFoundException {try {file = new FileInputStream(filename);st = new StreamTokenizer(file);st.ordinaryChar(".");st.ordinaryChar("-");} catch(FileNotFoundException e) {System.out.println("Could not open " + filename);throw e;}}void cleanup() {try {file.close();} catch(IOException e) {System.out.println("file.close() unsuccessful");}}void countWords() {try {while(st.nextToken() !=StreamTokenizer.TT_EOF) {String s;switch(st.ttype) {case StreamTokenizer.TT_EOL:s = new String("EOL");break;case StreamTokenizer.TT_NUMBER:s = Double.toString(st.nval);break;case StreamTokenizer.TT_WORD:s = st.sval; // Already a Stringbreak;default: // single character in ttypes = String.valueOf((char)st.ttype);}if(counts.containsKey(s))((Counter)counts.get(s)).increment();elsecounts.put(s, new Counter());}} catch(IOException e) {System.out.println("st.nextToken() unsuccessful");}}Enumeration values() {return counts.elements();}Enumeration keys() { return counts.keys(); }Counter getCounter(String s) {return (Counter)counts.get(s);}Enumeration sortedKeys() {Enumeration e = counts.keys();StrSortVector sv = new StrSortVector();while(e.hasMoreElements())sv.addElement((String)e.nextElement());// This call forces a sort:return sv.elements();}public static void main(String[] args) {try {SortedWordCount wc =new SortedWordCount(args[0]);wc.countWords();Enumeration keys = wc.sortedKeys();while(keys.hasMoreElements()) {String key = (String)keys.nextElement();System.out.println(key + ": " + wc.getCounter(key).read());}wc.cleanup();} catch(Exception e) {e.printStackTrace();}}} ///:~
最好将结果按排序格式输出,但由于Java 1.0和Java 1.1都没有提供任何排序方法,所以必须由自己动手。这个目标可用一个StrSortVector方便地达成(创建于第8章,属于那一章创建的软件包的一部分。记住本书所有子目录的起始目录都必须位于类路径中,否则程序将不能正确地编译)。
为打开文件,使用了一个FileInputStream。而且为了将文件转换成单词,从FileInputStream中创建了一个StreamTokenizer。在StreamTokenizer中,存在一个默认的分隔符列表,我们可用一系列方法加入更多的分隔符。在这里,我们用ordinaryChar()指出“该字符没有特别重要的意义”,所以解析器不会把它当作自己创建的任何单词的一部分。例如,st.ordinaryChar(".")表示小数点不会成为解析出来的单词的一部分。在与Java配套提供的联机文档中,可以找到更多的相关信息。
在countWords()中,每次从数据流中取出一个记号,而ttype信息的作用是判断对每个记号采取什么操作——因为记号可能代表一个行尾、一个数字、一个字串或者一个字符。
找到一个记号后,会查询Hashtable counts,核实其中是否已经以“键”(Key)的形式包含了一个记号。若答案是肯定的,对应的Counter(计数器)对象就会增值,指出已找到该单词的另一个实例。若答案为否,则新建一个Counter——因为Counter构建器会将它的值初始化为1,正是我们计算单词数量时的要求。
SortedWordCount并不属于Hashtable(散列表)的一种类型,所以它不会继承。它执行的一种特定类型的操作,所以尽管keys()和values()方法都必须重新揭示出来,但仍不表示应使用那个继承,因为大量Hashtable方法在这里都是不适当的。除此以外,对于另一些方法来说(比如getCounter()——用于获得一个特定字串的计数器;又如sortedKeys()——用于产生一个枚举),它们最终都改变了SortedWordCount接口的形式。
在main()内,我们用SortedWordCount打开和计算文件中的单词数量——总共只用了两行代码。随后,我们为一个排好序的键(单词)列表提取出一个枚举。并用它获得每个键以及相关的Count(计数)。注意必须调用cleanup(),否则文件不能正常关闭。
采用了StreamTokenizer的第二个例子将在第17章提供。