numpy数组常用处理函数

numpy数组常用处理函数

  • numpy 数组是python机器学习常用的数据结构,在这里简单记下常见的使用方法和一些初学时遇到的问题
  1. 注意事项
  • 使用数组时不要犯低级错误,注意行数和列数,不要搞反了。
  • np.array转化宽度不一致的数组时会出现未知错误,使用时要谨慎。
  • numpy使用元组作为引用,容易和多维数组按层拆分搞混,多维数组不支持元组索引(numpy也支持按层拆分)如:a[1,2]b[1][2]
  • 注意矩阵乘法转置。
  • 注意numpy不是默认二维数组, 若矩阵为向量,则只有shape[0](即向量长度为shape[0]而不是它作为矩阵时的shape[1]): [1,2,3,4] 看作矩阵: shape:[1,4] 看作向量:shape:[4]
  • 在维度不匹配的时候可以加上shape先判断。
  • 矩阵第一个参数为行数,第二个为列数…申请空白2维矩阵:(0,2)
  • 添加新行:
    np.append(red,[vx],axis=0)此处的vx必须升维到与大矩阵相同,axis表示添加一行
    yellow=np.r_[yellow,[vx]],道理同上

    查看更多

Fwaf短源码学习

Fwaf

Fwaf是GitHub上的一个机器学习Web恶意请求防火墙,代码比较简洁,思路也比较清晰,由于和自己的某个想法很契合,就稍作分析。

库的使用和特征化

Fwaf使用sklearn库训练样本集。
其中,使用TfidfVectorizer对字符串进行特征化。

TfidfVectorizer

  • TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,互联网上的搜索引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果中出现的顺序。

查看更多

terminal和VIM的分屏简单命令

Linux下的分屏

在远程登陆Linux时,要远程启动多个程序,分屏显得很重要。 在这里小记一下几种简单的分屏命令。

1、terminal分屏

使用tmux对terminal分屏,常用指令如下:

  • 开启tmux:在terminal中输入tmux开启分屏。

  • tmux ls: 显示已有的tmux会话

  • tmux attach-session -t 数字: 选择tmux

  • tmux kill-session -t session-name:关闭tmux

  • 开启鼠标移动、调节窗口大小等功能:[ctrl]+b+:后输入 set -g mouse on

查看更多

林轩田机器学习基石 第一周、第二周

第一周,基本概念

  • 机器学习可以进行的条件:
    1、 有某种模式可以学习。
    2、 这种模式不知道怎么手工明确规定(如果通过编写可以实现的就不需要机器学习)。
    3、 有数据资料。

  • 机器学习四种元素:
    1、 输入X。
    2、 输出Y。
    3、 hypothesis H。
    4、 资料 D

数据挖掘和机器学习有很多重合点,但不是一模一样。

查看更多

江城子 随想

晨日暖阳斜倚窗。绿树桩,白屋房。
微风过面,虫鸣燕正忙。城中伊人早登墙,红笑靥,含蓄望。
料知心事不可想。蛾眉锁,轻拂妆。
路客打量,何事溢心房。遥寄命途多渴望,手心暖,思却凉。

重拾HEXO

似乎从来没有开始过
之后会常来的
抛弃word 23333