10205501451
/
Lazy_Timer

# import re# import torch# import torch.nn as nn# import jieba# import pandas as pd# # from torchtext import data## class LSTMNet(nn.Module):#   def __init__(self,vocab_size,embedding_dim,hidden_dim,layer_dim,output_dim):#     super(LSTMNet,self).__init__()#     self.hidden_dim= hidden_dim#     self.layer_dim = layer_dim#     self.embedding = nn.Embedding(vocab_size,embedding_dim)#     # LSTM+全连接#     self.lstm = nn.LSTM(embedding_dim,hidden_dim,layer_dim,#               batch_first=True)#     self.fcl= nn.Linear(hidden_dim,output_dim)#   def forward(self,x):#     embeds = self.embedding(x)#     r_out,(h_n,h_c)=self.lstm(embeds,None)#     out = self.fcl(r_out[:,-1,:])#     return out## def Chinese_pre(text_data,stopwords):#   # 字母转化为小写， 去掉数字#   text_data = text_data.lower()#   text_data = re.sub("\d+","",text_data)#   # 分词，使用精确模式#   text_data = list(jieba.cut(text_data,cut_all = False))#   # 去除停用词和多余空格#   text_data = [word.strip() for word in text_data if word not in stopwords]#   # 处理后的词语使用空格连接为字符串#   text_data = " ".join(text_data)#   return text_data## def TexttoLable(textdata):#   # 将输入文本转为tensor#   # 首先对文本进行分词#   from nltk.corpus import stopwords#   import nltk#   nltk.download('stopwords')#   words = stopwords.words('english')#   stopwords = set()#   with open("stop.txt",encoding="utf-8") as infile:#       for line in infile:#           line = line.rstrip('\n')#           if line:#               stopwords.add(line.lower())#   for i in words:#     stopwords.add(i)#   textdata=Chinese_pre(textdata,stopwords)##   data1=[]#   for i in range(128):#     data1.append(textdata)#   df = pd.DataFrame({'cutword':data1})##   df.to_csv("tmp.csv")##   mytokenize = lambda x:x.split()#   from torchtext.legacy import data#   TEXT = data.Field(sequential = True,tokenize = mytokenize,#             include_lengths=True,use_vocab=True,#             batch_first=True,fix_length=40)##   LABEL = data.Field(sequential =False,use_vocab=False,#             pad_token=None,unk_token=None)#   # 对所有读取的数据集的列进行处理#   text_data_fields = [#     ("labelcode",LABEL),#     ("cutword",TEXT)#   ]#   # 读取数据#   # 读取数据#   traindata,valdata,testdata = data.TabularDataset.splits(#       path="./",format="csv",train="tmp.csv",fields = text_data_fields,#       validation = "tmp.csv",#       test ="tmp.csv",skip_header=True#   )##   em = testdata.examples[0]#   TEXT.build_vocab(traindata,max_size=100,vectors=None)##   # 定义一个迭代器，将类似长度的示例一起批处理#   BATCH_SIZE=128#   test_iter = data.BucketIterator(testdata,batch_size=128)###   vocab_size=len(TEXT.vocab)#   embedding_dim=50#   hidden_dim=256#   layer_dim=1#   output_dim=4#   lstmmodel = LSTMNet(vocab_size, embedding_dim, hidden_dim, layer_dim, output_dim)##   res=0#   model = torch.load("model.pkl")#   for step,batch in enumerate(test_iter):#         textfinal = batch.cutword[0]#         out = model(textfinal)#         pre_lab = torch.argmax(out,1)#         res = pre_lab[0]#   print(res.numpy())## TexttoLable("萝卜云服交流群等3个会话	")