博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python 部分数据处理代码
阅读量:5794 次
发布时间:2019-06-18

本文共 1990 字,大约阅读时间需要 6 分钟。

# -*- coding:utf8 -*-

import os
import jieba.posseg as pseg
# -*- coding:utf8 -*-
import os
 
def splitSentence(inputFile,name):
    fin = open(inputFile, 'r')      #以读的方式打开文件
    print name
    fout= open('/home/xdj/target/'+name,'w')         #以写得方式打开文件
    for eachLine in fin:
        line = eachLine.strip().decode('utf-8', 'ignore')      #去除每行首尾可能出现的空格,并转为Unicode进行处理
    line=line.strip('\n')                                       #去掉多余空行
        wordList = pseg.cut(line)                        #用结巴分词,对每行内容进行分词    
        outStr = ''
        for word in wordList:#
        #print word.word,word.flag            
        outStr += word.word+'/'+word.flag
    #print outStr
        fout.write(outStr.encode('utf-8'))              #将分词好的结果写入到输出文件
        fout.write('\n')
    fin.close()
    fout.close()
 
path='/media/软件/zhuomian/VARandLDA/xuejiesourse'
fns=[os.path.join(root,fn) for root,dirs,files in os.walk(path) for fn in files]
#fout= open('/home/xdj/myOutput.txt','w')  
 
i=-1
num=0
for f in fns:
    print f
    i=i+1
    strm = '%d' %i
    splitSentence(f,strm)
#fout.close()
print num   

 

# -*- coding:utf8 -*-import osimport jieba.posseg as pseg# -*- coding:utf8 -*-import osdef splitSentence(inputFile,name):    fin = open(inputFile, 'r')      #以读的方式打开文件    print name    fout= open('/home/xdj/target/'+name,'w')         #以写得方式打开文件    for eachLine in fin:        line = eachLine.strip().decode('utf-8', 'ignore')      #去除每行首尾可能出现的空格,并转为Unicode进行处理    line=line.strip('\n')                                       #去掉多余空行        wordList = pseg.cut(line)                        #用结巴分词,对每行内容进行分词            outStr = ''        for word in wordList:#        #print word.word,word.flag                    outStr += word.word+'/'+word.flag    #print outStr        fout.write(outStr.encode('utf-8'))              #将分词好的结果写入到输出文件        fout.write('\n')    fin.close()    fout.close()path='/media/软件/zhuomian/VARandLDA/xuejiesourse'fns=[os.path.join(root,fn) for root,dirs,files in os.walk(path) for fn in files]#fout= open('/home/xdj/myOutput.txt','w') i=-1num=0for f in fns:    print f    i=i+1    strm = '%d' %i    splitSentence(f,strm)#fout.close()print num

 

转载于:https://www.cnblogs.com/XDJjy/p/5273276.html

你可能感兴趣的文章
Android 给WebView设置Cookie
查看>>
JavaSE(八)之集合概述
查看>>
第三百七十六节,Django+Xadmin打造上线标准的在线教育平台—创建用户操作app,在models.py文件生成5张表,用户咨询表、课程评论表、用户收藏表、用户消息表、用户学习表...
查看>>
纹理文本
查看>>
Nginx 学习笔记(一)如何配置一个安全的HTTPS网站服务器
查看>>
反射原理(Class获取方式)
查看>>
[LeetCode] Maximum Swap 最大置换
查看>>
CentOS7 vsftp使用ftp客户端登录时不同的用户进入到不同的文件夹方法
查看>>
css animation和keyframes
查看>>
根据MAC地址前6位知道网络设备是哪家公司生产的
查看>>
JavaWeb(四)EL表达式
查看>>
Python exp() 函数
查看>>
zookeeper 系列文章
查看>>
PHP PSR基本代码规范(中文版)
查看>>
JSP——MVC模式+Servlet生命周期
查看>>
hashCode与equals的作用与区别及应当注意的细节
查看>>
CentOS系统很卡的基本排查方法
查看>>
ASP.NET MVC使用Bootstrap系列(5)——创建ASP.NET MVC Bootstrap Helpers
查看>>
使用纯CSS3实现一个3D旋转的书本
查看>>
Java--高效的定时任务设计
查看>>