aliyun 服务器从0 到1 配置开发手册

2018.10.11 购买最低配1核 512M  Ubuntu16.04 服务器从0 到1 开始配置

记录一下配置的每一步方便后面查阅

1.服务器PHP 服务配置

步骤一:更新apt

sudo apt-get update

步骤二:安装apache

sudo apt install apache2

步骤三:安装php7

sudo apt install php7.0

#php7.0 -v

PHP 7.0.32-0ubuntu0.16.04.1 (cli) ( NTS )

Copyright (c) 1997-2017 The PHP Group

Zend Engine v3.0.0, Copyright (c) 1998-2017 Zend Technologies

    with Zend OPcache v7.0.32-0ubuntu0.16.04.1, Copyright (c) 1999-2017, by Zend Technologies

如果出现以上信息,则证明安装php7.0成功 整合一下php和apache

sudo apt install libapache2-mod-php7.0

步骤四:安装MySQL

sudo apt-get install mysql-server

步骤五:重启MySQL和Apache

  1. sudo service mysql restart
  2. sudo service apache2 restart

apache2 ssl 配置

sudo a2enmod ssl   //启用ssl模块

 

sudo apt-get install openssl  //安装openssl

/etc/apache2/sites-enabled/000-default.conf

<VirtualHost *:443>

ServerAdmin webmaster@unixmen1.local

ServerName  ssl.fnkeep.com

ServerAlias ssl.fnkeep.com

DocumentRoot /var/www/fnkeepssl

ErrorLog ${APACHE_LOG_DIR}/error.log

CustomLog ${APACHE_LOG_DIR}/access.log combined

<Location />

Order allow,deny

Allow from all

</Location>

LogLevel info

SSLEngine on

SSLProtocol TLSv1 TLSv1.1 TLSv1.2

SSLCipherSuite ECDHE-RSA-AES128-GCM-SHA256:ECDHE:ECDH:AES:HIGH:!NULL:!aNULL:!MD5:!ADH:!RC4

SSLCertificateFile cert/public.pem

SSLCertificateKeyFile cert/214298008990373.key

SSLCertificateChainFile cert/chain.pem

ErrorLog ${APACHE_LOG_DIR}/error.log

CustomLog ${APACHE_LOG_DIR}/access.log combined

</VirtualHost>

远程登录mysql
MySQL>GRANT ALL PRIVILEGES ON *.* TO ‘root’@’%’ IDENTIFIED BY ‘yourpassword’ WITH GRANT OPTION; MySQL>FLUSH PRIVILEGES;

vim/etc/mysql/mysql.conf.d/mysqld.cnf

注销 #bind = 127.0.0.1

 

 

 

wordpress  rewrite 配置

 

a2enmod rewrite
sudo service apache2 restart


ubuntu 创建用户
root@worker:/home# useradd -r -m -s /bin/bash spark 
root@worker:/home# passwd spark 
Enter new UNIX password:  
Retype new UNIX password:  
passwd: password updated successfully 
root@worker:/home# ls 
kuku  spark 
root@worker:/home#
加root sudo 权限

root@iZm5eddn3qllt2r7b5cpvvZ:/home#chmod u+w /etc/sudoers 

root@iZm5eddn3qllt2r7b5cpvvZ:/home# sudo vim /etc/sudoers

root@iZm5eddn3qllt2r7b5cpvvZ:/home# chmod u-w /etc/sudoers

https://github.com/mcdona1d/RaspberryWechatPi

需要用到的所有硬件

  • 路由器
  • 树莓派主板
  • 树莓派电源(5V 2A)
  • 至少 8g tf卡 (推荐class 10,8g足矣)
  • 支持ouv的摄像头(罗技C170)
  • 花生棒及电源(或用花生壳内网版代替)
  • 乐高积木(小颗粒)
  • 两根网线
  • 温度传感器(DHT11)
  • 光线传感器(光敏电阻模块)
  • 人体红外传感器(HC-SR501)
  • 继电器(5V低电平触发)
  • 步进电机(28BYJ-48-5V)
  • 步进电机驱动板(UL2003型)
  • GPIO连接线若干

数据库处理 依赖 :  /var/www/python/django/mysite

 

Rocket chat client 依赖:  /home/francesco/botv1

 

Rocket Chat server 依赖:  /home/francesco/newrocket.chat/Rocket.Chat

 

Chatbot English   依赖: /var/www/python/django/mysite/ChatterBot/flask-chatterbot

 

标记培训数据越来越成为部署机器学习系统的最大瓶颈。我们展示了Snorkel,这是首个同类系统,使用户无需手工标记任何培训数据即可培训最先进的模型。相反,用户编写表示任意启发式的标签函数,其可能具有未知的准确性和相关性。通过整合我们最近提出的最新机器学习范例 – 数据编程的第一个端到端实现,浮潜可以减少他们的输出而无需访问基本事实。我们根据过去一年与公司,机构和研究实验室合作的经验,提出了一个灵活的界面层来撰写标签功能。在用户研究中,主题专家建立的模型速度提高2.8倍,平均预测性能提高45倍。5%与7个小时的手工标签。我们在这个新设置中研究了建模折衷方案,并提出了一个优化器,用于实现折衷决策的自动化,从而可以实现每管线执行速度高达1.8倍的加速。在与美国退伍军人事务部和美国食品和药物管理局的两项合作中,以及代表其他部署的四个开源文本和图像数据集合,Snorkel提供的平均预测性能比先前的启发式方法提高了132%在大型手工培训集的预测性能平均3.60%之内。PVLDB参考格式:A. Ratner,SH Bach,H. Ehrenberg,J. Fries,S. Wu,C. R’e。浮潜:快速培训数据创建与弱监督。PVLDB,11(3):xxxx-yyyy,2017. DOI:10.14778 / 3157794.3157797 我们在这个新环境中研究建模折衷方案,并提出一个优化器来实现折衷决策的自动化,每个管道执行速度最高可达1.8倍。在与美国退伍军人事务部和美国食品和药物管理局的两项合作中,以及代表其他部署的四个开源文本和图像数据集合,Snorkel提供的平均预测性能比先前的启发式方法提高了132%在大型手工培训集的预测性能平均3.60%之内。PVLDB参考格式:A. Ratner,SH Bach,H. Ehrenberg,J. Fries,S. Wu,C. R’e。浮潜:快速培训数据创建与弱监督。PVLDB,11(3):xxxx-yyyy,2017. DOI:10.14778 / 3157794.3157797 我们在这个新环境中研究建模折衷方案,并提出一个优化器来实现折衷决策的自动化,每个管道执行速度最高可达1.8倍。在与美国退伍军人事务部和美国食品和药物管理局的两项合作中,以及代表其他部署的四个开源文本和图像数据集合,Snorkel提供的平均预测性能比先前的启发式方法提高了132%在大型手工培训集的预测性能平均3.60%之内。PVLDB参考格式:A. Ratner,SH Bach,H. Ehrenberg,J. Fries,S. Wu,C. R’e。浮潜:快速培训数据创建与弱监督。PVLDB,11(3):xxxx-yyyy,2017. DOI:10.14778 / 3157794.3157797 退伍军人事务部和美国食品和药物管理局,以及代表其他部署的四个开源文本和图像数据集,Snorkel提供的平均预测性能比先前的启发式方法提高了132%,平均降低了3.60%大型手工培训集的预测性能。PVLDB参考格式:A. Ratner,SH Bach,H. Ehrenberg,J. Fries,S. Wu,C. R’e。浮潜:快速培训数据创建与弱监督。PVLDB,11(3):xxxx-yyyy,2017. DOI:10.14778 / 3157794.3157797 退伍军人事务部和美国食品和药物管理局,以及代表其他部署的四个开源文本和图像数据集,Snorkel提供的平均预测性能比先前的启发式方法提高了132%,平均降低了3.60%大型手工培训集的预测性能。PVLDB参考格式:A. Ratner,SH Bach,H. Ehrenberg,J. Fries,S. Wu,C. R’e。浮潜:快速培训数据创建与弱监督。PVLDB,11(3):xxxx-yyyy,2017. DOI:10.14778 / 3157794.3157797 大型手工培训集预测性能的60%。PVLDB参考格式:A. Ratner,SH Bach,H. Ehrenberg,J. Fries,S. Wu,C. R’e。浮潜:快速培训数据创建与弱监督。PVLDB,11(3):xxxx-yyyy,2017. DOI:10.14778 / 3157794.3157797 大型手工培训集预测性能的60%。PVLDB参考格式:A. Ratner,SH Bach,H. Ehrenberg,J. Fries,S. Wu,C. R’e。浮潜:快速培训数据创建与弱监督。PVLDB,11(3):xxxx-yyyy,2017. DOI:10.14778 / 3157794.3157797
Continue reading

ABSTRACT

Labeling training data is increasingly the largest bottleneck in deploying machine learning systems. We present Snorkel, a first-of-its-kind system that enables users to train stateof-the-art models without hand labeling any training data. Instead, users write labeling functions that express arbitrary heuristics, which can have unknown accuracies and correlations. Snorkel denoises their outputs without access to ground truth by incorporating the first end-to-end implementation of our recently proposed machine learning paradigm, data programming. We present a flexible interface layer for writing labeling functions based on our experience over the past year collaborating with companies, agencies, and research labs. In a user study, subject matter experts build models 2.8× faster and increase predictive performance an average 45.5% versus seven hours of hand labeling. We study the modeling tradeoffs in this new setting and propose an optimizer for automating tradeoff decisions that gives up to 1.8× speedup per pipeline execution. In two collaborations, with the U.S. Department of Veterans Affairs and the U.S. Food and Drug Administration, and on four open-source text and image data sets representative of other deployments, Snorkel provides 132% average improvements to predictive performance over prior heuristic approaches and comes within an average 3.60% of the predictive performance of large hand-curated training sets. PVLDB Reference Format: A. Ratner, S. H. Bach, H. Ehrenberg, J. Fries, S. Wu, C. R´e. Snorkel: Rapid Training Data Creation with Weak Supervision. PVLDB, 11 (3): xxxx-yyyy, 2017. DOI: 10.14778/3157794.3157797

Continue reading

1 什么是文本挖掘?

文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成。目前研究和应用最多的几种文本挖掘技术有:文档聚类、文档分类和摘要抽取。

2 什么是自然语言处理?

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究人与计算机之间用自然语言进行有效通信的理论和方法。融语言学、计算机科学、数学等于一体的科学。
自然语言处理原理:形式化描述-数学模型算法化-程序化-实用化
语音的自动合成与识别、机器翻译、自然语言理解、人机对话、信息检索、文本分类、自动文摘等。

3 常用中文分词?

中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及切词,这里整理了一些中文分词工具。
StanfordNLP(直接使用CRF 的方法,特征窗口为5。)汉语分词工具(个人推荐)

哈工大语言云

庖丁解牛分词

盘古分词  ICTCLAS(中科院)汉语词法分析系统

IKAnalyzer(Luence项目下,基于java的)

FudanNLP(复旦大学)

Continue reading

Enrique S´anchez-Villamil, Mikel L. Forcada, and Rafael C. Carrasco
Transducens
Departament de Llenguatges i Sistemes Inform`atics
Universitat d’Alacant
E-03071 Alacant
Abstract. A simple, robust sliding-window part-of-speech tagger is
presented and a method is given to estimate its parameters from an untagged
corpus. Its performance is compared to a standard Baum-Welchtrained
hidden-Markov-model part-of-speech tagger. Transformation into
a finite-state machine —behaving exactly as the tagger itself— is demonstrated.
1 Introduction

Continue reading

滑动窗口基础部分词性标注用于部分的语音标签文本。

自然语言高百分比的单词是超出上下文范围的单词可以分配多于一个部分的语音。这些含糊不清的单词的百分比通常在30%左右,尽管它在很大程度上取决于语言。解决这个问题在很多自然语言处理领域都非常重要例如,在机器翻译中,改变单词的词性可以显着改变其翻译。

基于滑动窗口的词性标注器是这样的程序,其通过查看词语周围的固定大小的“窗口”以被消除歧义,将单一词性分配给词的给定词汇形式。

这种方法的两个主要优点是:

正式定义[ 编辑]

是应用程序的一组语法标签,也就是说,可能被分配给一个词的所有可能标签的集合,并让

成为应用程序的词汇。

是形态分析的一个功能,它分配每个形态分析

它的一组可能的标签,

,这可以通过完整的词典或形态分析器来实现。

是集词类,在一般的将是一个分区

与每个限制

所有的话

将收到相同的一组标签,即每个单词类中的所有单词

Continue reading

SVD:

 

SVD算法详解

下面开始介绍SVD算法,假设存在以下user和item的数据矩阵:

这是一个极其稀疏的矩阵,这里把这个评分矩阵记为R,其中的元素表示user对item的打分,“?”表示未知的,也就是要你去预测的,现在问题来了:如何去预测未知的评分值呢?上一篇文章用SVD证明了对任意一个矩阵A,都有它的满秩分解:

Continue reading