import nltk.datadef stripTags(s):intag = [False]def chk(c):if intag[0]:intag[0] = (c != '>')return Falseelif c == '<':intag[0] = Truereturn Falsereturn Truereturn ''.join(c for c in s if chk(c))
file = open("e:\\inputs.txt")
while 1:line = file.readline()if not line:breakresult = stripTags(line)sent_detector = nltk.data.load('tokenizers/punkt/english.pickle')file2 = open("e:\\outputs.txt", "a")file2.write('\n'.join(sent_detector.tokenize(result.strip())))file2.close();
上述代碼中需要安裝NLTK并下載punkt語料庫。
詳見鏈接,很詳細。
import nltknltk.download()
選擇Models 下載punkt
版权声明:本站所有资料均为网友推荐收集整理而来,仅供学习和研究交流使用。
工作时间:8:00-18:00
客服电话
电子邮件
admin@qq.com
扫码二维码
获取最新动态