GO语言利用K近邻算法实现小说鉴黄

作者:hebedich 时间:2023-06-21 17:15:25 

Usuage:
  go run kNN.go --file="data.txt"

关键是向量点的选择和阈值的判定
样本数据来自国家新闻出版总署发布通知公布的《40部 * * 网络小说名单》


package main

import (
 "bufio"
 "flag"
 "fmt"
 "io"
 "log"
 "math"
 "os"
 "path"
 "path/filepath"
)

var debug bool = false
var data_dir string = "./moyan"    //文件存放目录
var limen float64 = 0.1159203888322267 //阈值

const (
 MIN_HANZI rune = 0x3400
 MAX_HANZI rune = 0x9fbb
)

var labels []rune = []rune{
 0x817f, 0x80f8, 0x4e73, 0x81c0,
 0x5c41, 0x80a1, 0x88f8, 0x6deb,
}

func errHandle(err error) {
 if err != nil {
   log.Fatal(err)
 }
}

func load(name string) (m map[rune]int, err error) {
 f, err := os.Open(name)
 if err != nil {
   return nil, err
 }
 defer f.Close()
 buf := bufio.NewReader(f)
 m = make(map[rune]int)
 var r rune
 for {
   r, _, err = buf.ReadRune()
   if err != nil {
     if err == io.EOF {
       break
     }
     return nil, err
   }
   if r >= MIN_HANZI && r <= MAX_HANZI {
     m[r] += 1
   }
 }
 return m, nil
}
func classify(m map[rune]int) (idv []float64, dis float64) {
 len_m := len(m)
 for i, v := range labels {
   if debug {
     fmt.Println(i, m[v], string(v), float64(m[v])/float64(len_m))
   }
   idv = append(idv, float64(m[v])/float64(len_m))
 }
 for _, v := range idv {
   dis += math.Pow(v, 2)
 }
 dis = math.Sqrt(dis)
 return
}
func check(fp string, dis float64) {
 switch {
 case dis >= limen:
   fmt.Println(fp, dis, "涉黄")
 case dis == 1.0:
   fmt.Println(fp, dis, "你在作弊吗")
 case dis == 0:
   fmt.Println(fp, dis, "检查一下文件字符编码是不是utf8格式吧")
 default:
   fmt.Println(fp, dis, "正常")
 }
}

func walkFunc(fp string, info os.FileInfo, err error) error {
 if path.Ext(fp) == ".txt" {
   m, err := load(fp)
   errHandle(err)
   _, dis := classify(m)
   check(fp, dis)
 }
 return err
}

var file string

func init() {
 _, err := os.Stat(data_dir)
 if err != nil {
   err = os.Mkdir(data_dir, os.ModePerm)
   errHandle(err)
 }
 flag.StringVar(&file, "file", "", "file read in,if you don't give the file read in,"+
   "it will create a data dictionary,just pust your files in it")
}

func main() {
 flag.Parse()
 if file == "" {
   filepath.Walk(data_dir, walkFunc)
   return
 }
 m, err := load(file)
 errHandle(err)
 _, dis := classify(m)
 check(file, dis)

}

以上所述就是本文的全部内容了,希望大家能够喜欢。

标签:GO语言,K近邻算法
0
投稿

猜你喜欢

  • python实现批量解析邮件并下载附件

    2023-07-05 02:32:16
  • Python jieba分词添加自定义词和去除不需要长尾词的操作方法

    2023-05-05 11:20:35
  • python任务调度实例分析

    2021-06-30 12:42:57
  • Python数据分析之获取双色球历史信息的方法示例

    2022-10-05 21:16:34
  • python调用jenkinsAPI构建jenkins,并传递参数的示例

    2023-08-09 13:13:55
  • asp生成静态HTML(动态读取)

    2013-06-27 19:54:48
  • JavaScript/TypeScript中==和===的区别详解

    2024-04-25 13:14:39
  • django使用django-apscheduler 实现定时任务的例子

    2021-06-09 05:10:44
  • python写入并获取剪切板内容的实例

    2023-08-03 10:44:04
  • Python基础数据类型tuple元组的概念与用法

    2022-11-25 03:59:16
  • 解决MySQL8.0安装第一次登陆修改密码时出现的问题

    2024-01-21 16:19:49
  • Linux/UNIX和Window平台上安装Mysql

    2024-01-24 00:00:15
  • python使用json序列化datetime类型实例解析

    2021-03-03 05:33:40
  • VS2019创建MFC程序的实现方法

    2023-03-30 09:32:34
  • 深入php var_dump()函数的详解

    2023-11-08 16:09:01
  • sql server update 表的问题

    2009-10-04 20:32:00
  • Pyramid添加Middleware的方法实例

    2022-11-25 18:50:34
  • Python+Tableau广东省人口普查可视化的实现

    2022-02-12 21:53:59
  • php判断用户是否关注微信公众号

    2024-04-28 09:45:25
  • 懒就要懒到底——鼠标自动点击(含时间判断)

    2024-04-22 22:18:06
  • asp之家 网络编程 m.aspxhome.com