keras 简单 lstm实例(基于one-hot编码)

作者:赶圩归来阿理理 时间:2023-07-11 05:42:04 

简单的LSTM问题,能够预测一句话的下一个字词是什么

固定长度的句子,一个句子有3个词。

使用one-hot编码

各种引用


import keras
from keras.models import Sequential
from keras.layers import LSTM, Dense, Dropout
import numpy as np

数据预处理


data = 'abcdefghijklmnopqrstuvwxyz'
data_set = set(data)

word_2_int = {b:a for a,b in enumerate(data_set)}
int_2_word = {a:b for a,b in enumerate(data_set)}

word_len = len(data_set)
print(word_2_int)
print(int_2_word)

一些辅助函数


def words_2_ints(words):
ints = []
for itmp in words:
 ints.append(word_2_int[itmp])
return ints

print(words_2_ints('ab'))

def words_2_one_hot(words, num_classes=word_len):
return keras.utils.to_categorical(words_2_ints(words), num_classes=num_classes)
print(words_2_one_hot('a'))
def get_one_hot_max_idx(one_hot):
idx_ = 0
max_ = 0
for i in range(len(one_hot)):
 if max_ < one_hot[i]:
  max_ = one_hot[i]
  idx_ = i
return idx_

def one_hot_2_words(one_hot):
tmp = []
for itmp in one_hot:
 tmp.append(int_2_word[get_one_hot_max_idx(itmp)])
return "".join(tmp)

print( one_hot_2_words(words_2_one_hot('adhjlkw')) )

构造样本


time_step = 3 #一个句子有3个词

def genarate_data(batch_size=5, genarate_num=100):
#genarate_num = -1 表示一直循环下去,genarate_num=1表示生成一个batch的数据,以此类推
#这里,我也不知道数据有多少,就这么循环的生成下去吧。
#入参batch_size 控制一个batch 有多少数据,也就是一次要yield进多少个batch_size的数据
'''
例如,一个batch有batch_size=5个样本,那么对于这个例子,需要yield进的数据为:
abc->d
bcd->e
cde->f
def->g
efg->h
然后把这些数据都转换成one-hot形式,最终数据,输入x的形式为:

[第1个batch]
[第2个batch]
...
[第genarate_num个batch]

每个batch的形式为:

[第1句话(如abc)]
[第2句话(如bcd)]
...
每一句话的形式为:

[第1个词的one-hot表示]
[第2个词的one-hot表示]
...
'''
cnt = 0
batch_x = []
batch_y = []
sample_num = 0
while(True):
 for i in range(len(data) - time_step):
  batch_x.append(words_2_one_hot(data[i : i+time_step]))
  batch_y.append(words_2_one_hot(data[i+time_step])[0]) #这里数据加[0],是为了符合keras的输出数据格式。 因为不加[0],表示是3维的数据。 你可以自己尝试不加0,看下面的test打印出来是什么
  sample_num += 1
  #print('sample num is :', sample_num)
  if len(batch_x) == batch_size:
   yield (np.array(batch_x), np.array(batch_y))
   batch_x = []
   batch_y = []
   if genarate_num != -1:
    cnt += 1

if cnt == genarate_num:
    return

for test in genarate_data(batch_size=3, genarate_num=1):
print('--------x:')
print(test[0])
print('--------y:')
print(test[1])

搭建模型并训练


model = Sequential()

# LSTM输出维度为 128
# input_shape控制输入数据的形态
# time_stemp表示一句话有多少个单词
# word_len 表示一个单词用多少维度表示,这里是26维

model.add(LSTM(128, input_shape=(time_step, word_len)))
model.add(Dense(word_len, activation='softmax')) #输出用一个softmax,来分类,维度就是26,预测是哪一个字母

model.compile(loss='categorical_crossentropy', optimizer='rmsprop', metrics=['accuracy'])

model.fit_generator(generator=genarate_data(batch_size=5, genarate_num=-1), epochs=50, steps_per_epoch=10)
#steps_per_epoch的意思是,一个epoch中,执行多少个batch
#batch_size是一个batch中,有多少个样本。
#所以,batch_size*steps_per_epoch就等于一个epoch中,训练的样本数量。(这个说法不对!再观察看看吧)
#可以将epochs设置成1,或者2,然后在genarate_data中打印样本序号,观察到样本总数。

使用训练后的模型进行预测:

result = model.predict(np.array([words_2_one_hot('bcd')]))

print(one_hot_2_words(result))

可以看到,预测结果为

e

补充知识:训练集产生的onehot编码特征如何在测试集、预测集复现

数据处理中有时要用到onehot编码,如果使用pandas自带的get_dummies方法,训练集产生的onehot编码特征会跟测试集、预测集不一样,正确的方式是使用sklearn自带的OneHotEncoder。

代码


import pandas as pd
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder(handle_unknown='ignore')
data_train=pd.DataFrame({'职业':['数据挖掘工程师','数据库开发工程师','数据分析师','数据分析师'],
    '籍贯':['福州','厦门','泉州','龙岩']})
ohe.fit(data_train)#训练规则
feature_names=ohe.get_feature_names(data_train.columns)#获取编码后的特征名
data_train_onehot=pd.DataFrame(ohe.transform(data_train).toarray(),columns=feature_names)#应用规则在训练集上

data_new=pd.DataFrame({'职业':['数据挖掘工程师','jave工程师'],
    '籍贯':['福州','莆田']})
data_new_onehot=pd.DataFrame(ohe.transform(data_new).toarray(),columns=feature_names)#应用规则在预测集上

来源:https://blog.csdn.net/a274767172/article/details/84674723

标签:keras,lstm,one-hot
0
投稿

猜你喜欢

  • TypeScript新语法之infer extends示例详解

    2024-03-13 20:42:27
  • Python+OpenCV之图像轮廓详解

    2023-08-10 18:59:42
  • ASP网页编程的19个基本技巧

    2023-07-09 11:52:01
  • 通过python改变图片特定区域的颜色详解

    2021-09-17 11:01:22
  • 解决PyCharm中光标变粗的问题

    2022-10-24 15:47:32
  • python政策网字体反爬实例(附完整代码)

    2021-04-27 19:51:32
  • mysql8.0忘记密码的详细解决方法

    2024-01-12 20:50:00
  • Python访问Redis的详细操作

    2022-03-13 13:22:25
  • python 层次聚类算法图文示例

    2023-09-25 05:57:46
  • Python实现排序方法常见的四种

    2022-02-18 08:06:15
  • 利用JS提交表单的几种方法和验证(必看篇)

    2023-08-17 16:43:22
  • Python编程之基于概率论的分类方法:朴素贝叶斯

    2023-10-08 10:15:52
  • ajax Google PageRank3(PR值)查询源代码

    2007-11-04 13:31:00
  • VS2019创建MFC程序的实现方法

    2023-03-30 09:32:34
  • 如何利用python发送邮件

    2022-11-09 09:34:31
  • 使用mysqldump导入数据和mysqldump增量备份(mysqldump使用方法)

    2024-01-23 15:44:43
  • asp数组使用特法

    2009-05-11 12:43:00
  • 关于PyTorch环境配置及安装教程(Windows10)

    2021-04-23 09:04:31
  • 详解python中的Turtle函数库

    2021-10-17 19:50:45
  • Python实现emoji表情的简单方法

    2023-07-09 13:10:22
  • asp之家 网络编程 m.aspxhome.com