薛定谔的猫
数据挖掘二:文本分析

1. 语料库 语料库是我们要分析的所有文档的集合 import os import os.path import codecs import pandas # 递归得到所有文件路径 file_paths = [] # 递归得到所有文件内容 …

博客(200): / 名称 地址 1 数据挖掘一:概况 https://blog.astipsy.com/archives/615 2 数据挖掘二:文本分析 https://blog.astipsy.com/archives/637 3 数 …

数据挖掘一:概况

概况 定义: 从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程 作用: 解决四类问题:分类、聚类、关联、预测 方法: 决策树、神经网络、关联规则、聚类分析等 结果: 输出模型或规则 常见的商业问 …

RabbitMQ的实现

点击查看RabbitMQ教程 生产者: $config = [ ‘host’ => ‘127.0.0.1’, ‘vhost’ => ‘rabbitmqhost’, ‘port’ => 5672, ‘login’ => …

MySQL主从配置

主数据库 修改配置文件,在[mysqld]下面添加 server-id=1 # 主服务ID,随意设置,不与从服务ID重复即可 innodb_flush_log_at_trx_commit=2 sync_binlog=1 # 开启binlog …

PHPstorm常用快捷键

CTRL+N 查找类 CTRL+SHIFT+N 全局搜索文件 ,优先文件名匹配的文件 CTRL+SHIFT+ALT+N 查找php类名/变量名 ,js方法名/变量名, css 选择器 CIRL+B 找变量的来源,跳到变量申明处 CTRL+G …

令牌桶

<?php /** * 令牌桶 * Class TokenBucket */ class TokenBucket { // 令牌最大数量 private $token_num; // redis对象 private $redis; / …

MySQL 大数据查询优化

1.  对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。 2. 应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如: selec …

MySQL性能优化

慢查询 mysql> show variables like ‘%slow%’; +——————+——-+ | Variable_name | Value | +——————+- …

git基本操作

通过git init命令把当前目录变成Git可以管理的仓库 用命令git add告诉Git,把文件添加到仓库: git add readme.txt git add -A .添加所有改变的文件。 注意 -A 选项后面还有一个句点。 git …

已默默运行了

Made By astipsy.