最热门文章

常用标签

云输入法 好的站点 数据之美 数据库优化 网站优化 网页安全 跨浏览器 输入法 重构 页面优化 Android CSS css优化 facebook firebug HTML html重构 html5 HTTP协议 http历史 ie javascript Last Modified lighttpd linux linux后台开发 MYSQL mysql优化 netstat ping QQ QQ云输入法 QQWeb输入法 web web开发 Web服务器 web服务器配置 web设计 WEB颜色 xhtml

Archive for the ‘杂项’ Category:

[转]搜索引擎中的网页分类技术

关于网页分类的技术,说的虽然浅显了些,不过总结的不错。分类技术不仅仅用到了搜索引擎中,web2.0的很多应用都会用到这个技术。通过学习好的模型,把未知的东西进行分类。 转自:http://djt.open.qq.com/portal.php?mod=view&aid=18 1. 技术背景 分类问题是人类所面临的一个非常重要且具有普遍意义的问题。将事物正确的分类,有助于人们认识世界,使杂乱无章的现实世界变得有条理。自动文本分类就是对大量的自然语言文本按照一定的主题类别进行自动分类,它是自然语言处理的一个十分重要的问题。文本分类主要应用于信息检索,机器翻译,自动文摘,信息过滤,邮件分类等任务。文本分类的一个关键问题是特征词的选择问题及其权重分配。 在搜索引擎中,文本分类主要有这些用途:相关性排序会根据不同的网页类型做相应的排序规则;根据网页是索引页面还是信息页面,下载调度时候会做不同的调度策略;在做页面信息抽取的时候,会根据页面分类的结果做不同的抽取策略;在做检索意图识别的时候,会根据用户所点击的url所属的类别来推断检索串的类别等等。 2. 自动分类的原理和步骤 在分类的时候首先会遇到文档形式化表示的问题,文档模型有3种:向量空间模型,布尔模型和概率模型,其中我们常用的是向量空间模型。向量空间模型的核心描述如下: 文档(Document):文本或文本中的片断(句子或段落)。 特征项(Term):文档内容用它所包含的基本语言单位来表示,基本语言单位包括字、词、词组、短语、句子、段落等,统称为特征项。 特征项权重(Term Weight):不同的特征项对于文档D的重要程度不同,用特征项Tk附加权重Wk 来进行量化,文档D可表示为(T1,W1;T2,W2;…;Tn,Wn) 向量空间模型(Vector Space Model):对文档进行简化表示,在忽略特征项之间的相关信息后,一个文本就可以用一个特征向量来表示,也就是特征项空间中的一个点;而一个文本集可以表示成一个矩阵,也就是特征项空间中的一些点的集合。 相似度(Similarity):相似度Sim(D1,D2)用于度量两个文档D1和D2之间的内容相关程度。当文档被表示为文档空间的向量,就可以利用欧氏距离、内积距离或余弦距离等向量之间的距离计算公式来表示文档间的相似度。 其中特征选取是文本表示的关键, 方法包括:文档频率法(DF)、信息增益法和互信息法等等。 在做特征选取之前,一般还要进行预处理的工作,要对先对网页降噪。另外在实际的分类中,除了利用文档的内容特征之外,可能还会用到实际应用中所特有的特征,比如在网页分类中,可能用到url的特征、html的结构特征和标签特征等信息。 分类的基本步骤是这样的:定义分类体系,将预先分类过的文档作为训练集,从训练集中得出分类模型,然后用训练获得出的分类模型对其它文档加以分类。 3. 常用的分类算法 文档自动分类是学术界研究多年,技术上比较成熟的一个领域。目前分类算法主要分下面这些: 其中比较常用的是:支持向量机(SVM)方法、朴素贝叶斯(NB)方法、神经网络(NN)方法、K近邻(KNN)方法、决策树(Decision Tree)方法等。 支持向量机(Support Vector Machines, SVM)由Vapnik在1995年提出,用于解决二分类模式识别问题。它通过寻找支持向量来确定决策面,并使分类间隔最大。SVM方法提供了解决 “维数灾难”问题的方法。SVM方法较好的理论基础和它在一些领域的应用中表现出来的优秀的泛化性能,尽管SVM算法的性能在许多实际问题的应用中得到了验证,但是该算法在计算上存在着一些问题,包括训练算法速度慢、算法复杂而难以实现以及检测阶段运算量大等等。 朴素贝叶斯(Naive Bayes,NB) 概率分类器是机器学习中很常用的一种方法,其基本思想是利用单词和分类的联合概率来估计给定文档的分类概率。 贝叶斯公式:P(C|X)*P(X)=P(X|C)*P(C) 特征向量:X=(x1,x2,x3…)    C={C1,C2,……} 其中P(C)是每个类别的先验概率,即,互联网上各个分类所占总页面的比例 P(X|C):条件概率,表示在类别为C的训练集合中,X的分布情况。 P(X):每个特征值的分布,由于特征值的分布是随机的,所以P(X)相等 神经网络(Neural network,NN)技术是人工智能中的成熟技术。将神经网络用于文档分类时,需要为每个分类建立一个神经网络,通过学习得到从输入单词(或者更复杂的特征词向量)到分类的非线性映射。其计算量和训练时间非常庞大。 KNN是著名的模式识别统计学方法,已经有四十年历史,它是最好的文本分类算法之一。KNN算法相当简单:给定一个测试文档,系统在训练集中查找离它最近的k个邻居,并根据这些邻居的分类来给该文档的候选分类评分。把邻居文档和测试文档的相似度作为邻居文档所在分类的权重。如果这k个邻居中的部分文档属于同一个分类,则该分类中的每个邻居的权重求和并作为该分类和测试文档的相似度。该方法的特点是允许文档可以属于多个分类。KNN通过查询已知类似的例子的情况,来判断新例子与已知例子是否属于同一类。 通过我们对现实网页的分类测试情况看,这些方法中SVM方法的效果是比较好的,但是性能不高; 朴素贝叶斯的分类效果虽然略差于SVM,但是性能上要好很多。 4. 网页分类应用 4.1分类算法 实际应用中, 除了分类效果外, 速度是一个需要重点考虑的因素。 4.2分类类别 在搜索引擎中, 在不同的应用场景下, 会有不同的分类的标准, 比如在链接调度中需要信息页、索引页这样的分类,不同类型的页面更新调度的周期不一样;排序对分类的要求又不同, 比如按表现形式分图片、视频等;按网站类型分为论坛、博客等,不同类型的页面抽取策略也会不尽相同;再按内容主题分成小说、招聘和下载等类别。对网页从多个维度进行分类,能更好给用户提供更为贴切的检索结果。 4.3 特征选取 在学术研究中, 一般比较重视分类算法的研究,在特征选择上比较忽视。传统的特征选择一般是用TF*IDF等方法选择内容关键字等,这也是我们使用的一个重要因子, 但是除内容特征之外,我们还会用到很多其它特征,比如:网站特征、html特征和url特征等,这些特征会明显的提高分类的准确率和召回率。

Posted in 杂项
Tags:

【转】前端开发者了解的10项技能

本篇文章介绍了10种,前端开发者要掌握的技能;并且这些技能可以让前端开发者价值百万。准确的说,这些技能可以让你能够轻松步入百万富翁的行列。 哪些技能呢?下面就列出这10项技能,看看你符合价值百万的前段开发者的队伍中嘛? 现在的开发工具,有用的开发工具数以千计。快速掌握新工具将是你的首要技能。比如:Kissmetrics\Usabilla\Padi Act。 墨守成规,可不是前端开发者应有的素质。 前段开发者的工作,重点在于如何进行设计上的迭代式开发。你可以使用大量工具并进行数十次的测试。但同时也要是前段代码、速度、拓展性、质量等的守护者。 大部分的前端开发者需要从开发者那里获得帮助,所以良好的沟通技能不可或缺,在没有产品经理的情况下更是如此。 前端开发者的工作之一是保证站点的前端代码,那么应用如何工作的,那就必须要知道了。更改或优化JS代码,你需要有这个能力。 前端开发者对设计要有感觉,并且可以再利用原有的设计。当然你也许有做Photoshop或HTML/CSS的高手,但是他们也都是很稀缺的。所以前端开发者要对设计有那么一定的感觉。 很努力的优化、测试,但很多时间也会得到糟糕的结果。这就要求前端开发者敢于测试,甚至明知道可能会失败。要拿出令人信服的数据来,可有效规避让你的老板涉入其中,那将非常糟糕。 不同的web网站都有转化率的要求,这只是老板关注的?No。某些时候转化率的提升将遇到阻力,而变得很困难。这时候前端开发者需要大胆的尝试。作为这个职位,你应该喜欢转化率提升的请求,否则你将会失去前进0.1%的动力。 你能写HTML,CSS,以及JavaScript,都应该保证易于后期操作。相信一定会有障碍在于后期的维护和再利用上面。所以你要学会“轻松重复利用”的含义,并予以贯彻实施。 速度很重要,Google已经将速度加入到了搜索排名的因素当中。有的网站已经很快,alexa或其他分析工具或许是如是结果,但是Google可能说它太慢。速度性能优化,必须掌握! 原型设计的需求,不仅仅是团队分享一个观点。快速的原型设计能力,将让你更好的把控web交互、思想主动传播。所以,精通一件顺手的原型设计工具吧,推荐进入OSCHINA的界面原型设计工具分类进行选择。 前端开发的重视度将超过(或许已经超过)后端开发,你不觉得吗?前端开发者将越来越重要。确保你掌握了上述的10项技能,那么你离百万富翁不远了。 原文出处:10 Skills to Become a Frontend Developer worth Millions 译文出处:10项技能让前端开发者价值百万 里面的有些说的有道理,转发一下。关注你的产品,关注你的输出对产品的影响

Posted in 杂项
Tags: , , ,

今年要读的几本书

今年还是要固定下几本书来读读,立此为证,监督自己: 深入理解计算机系统 影响力 接纳不完美的自己 计算机程序的构造和解释

Posted in 杂项
Tags:

温水煮青蛙

青蛙在水温升到60多度后自动跳走,说明它对水温的本能反应并不因为温度变化的快慢而存在大的差异。它们没有蠢到被煮死而不逃离的地步。你们要记住,即便所有人都认同并且经常说的道理,也可能是错的。那些被社会普遍认定的真理,也可能是谎言。凡事一定要经过亲自实验、调查、思考,不要人云亦云。

Posted in 杂项

互联网开发中常用的简称

ACG Animation Comic Game 动漫游文化.指由Animation(动画)、Comic(漫画)和Game(游戏)组成的文化。 Advanced Casual Game 高级休闲游戏 ACU Average Concurrent Users 平均同时在线人数 ARPU Average Revenue Per User 平均每用户收入 APA Active Paid Account 活跃付费账户 BOSS Bussiness and Operation Support System 业务运营支持系统 CB Close Beta 封闭测试 CE Customer Engagement 用户参与,是指为了达到提升用户体验的目的,采用各种方法,了解用户,甚至让用户参与产品的策划、设计、开发等过程的各种活动 CM Configuration Management 配置管理 CP Content Provider 内容提供商,再具体解释就是:CP是移动数据业务内容提供商,或者叫移动增值业务内容提供商 DAU Daily Active Users 日活跃用户数 DCG Desktop Casual Game 桌面休闲游戏 FPS First Person Shooting 第一人称射击游戏,特指CS CF这种画面以主人公视角设计的游戏,自己看不到自己,只能看到手或脚 MAU Monthly Active Users 月活跃用户数 MCG Mini Casual Game 小型休闲游戏 MMO Racing Massive Multiplayer Online Racing 大型多人在线赛车游戏 MMOFPS Massive Multiplayer Online First-Person Shoot 大型多人在线第一人称射击游戏 MMOG Massive Multiplayer Online Game 大型多人在线游戏 MMORGS Massive Multiplayer Online Rhythm Game 大型多人在线音乐游戏 MMORPG Massive Multiplayer Online Role-Playing Game 大型多人在线角色扮演游戏 MMORTS Massive Multiplayer Online Real-Time Strategy 大型多人在线即时战略游戏 MMOTG Massive Multiplayer Online Tycoon Game 大型多人在线模拟经营游戏 MP Metric Platform 运营数据度量平台 MTDR Monthly Technique and Development Review 月度阶段内技术评审点 NOC Network Operation Center 网络操作中心 OA Office Automation 办公自动化 PK Player Killing 对决 源于MUD,原指在游戏中高等级玩家随意杀害低等级玩家的行为 OSS Operation Support System 经营分析系统 PCU Peak concurrent users 最高同时在线人数 UV User view 用户查看的页面数 (PV/独立用户数) PV Page view 页面浏览,即页面浏览量或点击量,用户每次刷新即被计算一次,即人次 NV New visit 网站新增访问数 PVP Player Vs Player 玩家对战 SNS Social Networking Services 社会性网络服务 Social Network Site 社交网站 UV Unique visitor 独立用户,访问网站的一台电脑客户端为一个访客,即访问人数

Posted in 杂项
Tags: , , ,

【转】数据之美.Photoshop的达尔文进化史

一流的平面设计师和那些喜欢在周末的时候到Facebook上传照片的业余摄影师的一个共同点是什么?他们都爱Photoshop!这个辉煌的Adobe产品是近20年的宠儿,所以我们制作了这个图表,我个人要把它挂在我卧室的墙上——《Photoshop的达尔文进化史》。如果你喜欢它,请与朋友分享链接吧。Photoshop历史真不短,你是从哪一版本开始用的? 来源:testking.com 编译:MazingTech


【转】数据之美.微软Windows的达尔文进化史

鉴于我们的第一个信息视图《Photoshop的达尔文进化史》是如此的成功,我们花了两个星期做这个闪亮的新作品。这一次,我们选择了在人类历史上(现在也是)最流行的操作系统——微软Windows! 点击这里看清晰大图版面,如果你喜欢,请与你的朋友分享链接! 来源:testking.com 编译:MazingTech

Posted in 杂项, 转载
Tags: ,

【转】第一财经周刊:疯狂的团购网站

受到一些启发,做一个产品的时候,我们要问自己: 1 我们提供的是用户需要的么? 2 我们如何能够不伤害用户来盈利呢? 转自:http://www.cnbeta.com/articles/120977.htm “这是中国互联网有史以来最好的个人创业机会。” 中国团购网站F团的前COO黄宇说。今年5月,他从F团辞了职,决定自己做一家。现在,几乎每一天都有四五家像F团这样的新团购网站成立。近千家有着相同商业模式的创业网站涌入了这个细分的电子商务领域。在一些团购导航网站的页面上,爱家团、家有团、爱帮团、窝窝团、糯米团、饭团、可可团、团酷……罗列着这些新奇又陌生的团购网站名字。 按照每家团购网站15到20人的团队规模,即使按相对保守的1000家团购网站算,这里聚集了近2万名IT创业青年,沉淀着数千万元的原始投入 资金—这还不包括进入其中的风险投资基金—仅仅在5月和6月,包括5151团购网、酷团网、拉手网、阿丫团在内的几家网站,分别获得了来自万嘉创投、金沙 江投资、浙商创投甚至包括山西煤老板财团的近2亿元人民币的风险投资。 用户增长快、商业模式清晰,人人都觉得团购是个好生意。而且,团购网站的一个美妙之处是,现金流不容易断。每单上线时,这些网站会即刻收到顾客 的付款,而为了控制商户的服务质量,团购网站通常都只会预付20%到50%的货款—这意味着团购网站们的账户里始终都存有现金。 美国团购网站Groupon是中国团购网站的榜样,由于可以靠低买高卖赚取差价,Groupon在上线的第7个月就已经盈利,第一年营收达5000万美元,上线一年半估值已达13.5亿美元。在商业模式向来不清晰的互联网行业,这是个奇迹。 它的中国学习者们很快也证明了这个模式多有爆发力:3月4日上线的美团网第一单团购卖出了79份,但很快,这个数字就变成了几百、几千,截至目前,最多的一单卖出了5万份。 每一家网站都想成为中国的Groupon。随之而来的,是一个疯狂的市场。 团P网是一家团购导航网站,在成立之初的4月,其创始人王雯吉每天大致能搜寻出三四家新团购网;多少与一家叫“最土”的网站在4月中率先开放团 购网建站源代码有关,到5月时,团P网每天发现的新团购网数量已经涨至三四十家。团P目前收录了约250家团购网站,但据王雯吉估计,自己收录的恐怕不到 总数的1/10。 团购四方的创始人石松一开始也是想做团购网站,但是想到自己没有谈单子的经验,他就和四五个朋友兼职做出了团购四方这家导航网站。但等到网站开始收录团购网站的时候,他惊讶地发现光团购导航网站便超过了20多家。 但是从6月份开始,石松发现,虽然每天都有四五家新的团购网站成立,但是平均每两天都有一家团购网站倒闭。易凯资本CEO王冉预测说,99%的团购网站会死掉。 01 建 站 煤老板、那些在其他项目上失利的团队、想靠已有的用户或商户资源多开一条财路的公司,还有那些要为闲钱找出路的人们,都在等待着这样一个机会。 2009年12月,已经在IT业工作了近8年的潘真看到了美国团购网站Groupon获3000万美元投资的消息,他的第一感觉是:太快了。 两年前,潘真辞去收入不菲的CNET中国技术总监职务,创办了一个叫“家族史”的SNS网站,希望自行创业后能挣得更多。但不幸的是,中国用户对在网站上建立家族图谱、联系远亲的活动似乎热情不高,潘真的家族史网站只有千把个用户,一毛钱收入都没有。 在创业两年、赔掉几十万积蓄的潘真看来,团购是个让自己翻身的好机会。他反复琢磨,认为头一家网站失败是因为两个致命缺陷:一是用户并不真正需 要这项服务,二是没有清晰的盈利模式—而这在团购模式中恰恰都不成问题。这时候,靠积蓄创业的潘真已经没有太多钱可烧,正好建立团购网站成本低廉。 潘真在建站时很花了些心思。他读介绍Groupon的文章时,发现团购的用户七成是年轻白领女性,因此建网站时,特意定了粉红色、带花纹、无棱角的页面设计方案;为了保证网站稳定,上线前就买了4台服务器。他把自己的网站命名为团酷网。 团酷网初建时,市面上还没有竞争对手。等计算机系硕士毕业、程序员出身的潘真花掉三四个月终于写好网站程序、匆忙拉来女友邝毅婕加盟、帮忙谈成 几单合作后,团酷网的上线日期已经到了5月4日。这时,他发现,人们已经开始用“百团大战”来描述这个市场的火热程度。一个多月后,描述用词变成了“千团 大战”。 这在一定程度上要归功于一家叫“最土”的网站。3月份,身处安徽淮南的戴书文模仿美团网成立了一个团购网站“最土”,孰料运营了一个月,网站也没什么起色,他决定改卖团购网建站模板,为了跟几家同类网站PK,他于4月中旬最先免费开放了团购网的建站源代码。 这一下子降低了建站的技术门槛。据团购导航网站团P网的创始人王雯吉观察,一开始团购网站的创立者多是潘真这种互联网领域的从业者,已经拥有某 个网站的站长头衔。后来涌入的玩家的身份日益复杂。虽然直到5月10日用户才能在最土网上自行注册,但到当月底,最土的注册用户已经有几百名。戴书文说, 最土此后每天至少会出现20个新注册用户。截至8月中,最土网的注册用户已经超过了3000名。 黄治华在今年的3月4日听说了团购。那正是美团网上线的第一天,其创始人王兴作为互联网行业的名人,举动备受圈内人关注。几个熟人那天先后在 QQ上问黄:知道团购吗?他曾经做过山西煤炭中间商,去年年中拉到些山西游资后,在清华大学东门外租了套房子,一直在跟清华科技园、中关村联系,寻找投资 项目。他看过80多份商业计划书—其中七成是SNS网站一类的互联网项目,但因为看不懂那些项目怎么盈利,始终没敢投资,这些山西资本还是杀入了房地产市 场。但到了春节后,眼见房产市场前景不妙,黄的投资人开始卖房撤资,寻找新项目的需求变得迫切。 虽然团购商业模式清晰,但黄治华还是犹豫:这个山西人想做“大生意”,但他不知道一天推出一单团购的模式能做多大。在一两个月的请客吃饭、跟大 学老师和企业顾问反复长谈后,黄治华终于算出了一个足够大的目标:把团购网站开进包括山西临汾这类地级市在内的210个城市后,年营业额可达3.5亿元, 够格上市了。 等到何静在新浪上看到介绍团购的文章时,已经到了4月。何静此前从事广播节目制作,但去年生意惨淡,年底公司亏了几十万,于是决定转行。十几个 同事头脑风暴,想了十几个点子,连卖保健品都试过,但最终还是不靠谱。这时候公司大股东跟他提起团购,他才对这个生意留心起来。 何静认为,团购的关键是跟商家谈成合作,而自己手头的团队正好在推销广告时积累了销售经验。虽然没有互联网从业经验,但这个26岁的年轻人曾经 凭借凡事冲在先头的作风当上了广播节目制作公司的副总,他的人生信条是:凡事先试试再说。他给自己创立的团购网站取名为葫芦团。 黄治华和何静都不清楚建站具体过程,但最终他们都像大多数同行一样,用上了页面跟Groupon几乎一模一样、只是Logo和颜色不同的网站,建站时间分别为10天和3天。 02 拉 单 团购网站建起来了,拉单就变成了一个针锋相对的战场。数万名销售开始奔走在大街小巷,都瞄准了那些有诱惑力的商家。 初入行时,马宁觉得跟商家谈合作没什么难的。5月中旬,这个25岁的北京姑娘还是一个安利公司的销售员,在推销安利公司产品时在马路上拦住了黄 ...

Posted in 杂项
Tags:

互联网色情内容统计报告

色情内容需求每个人都需要,但是色情又有那些关注点,数据量和产生的金钱又有多少呢,看看onlineMBA制作的统计表, 是不是超出我们的想象之外呢?呵呵,看完这张图之后才发现成人、成人交友、性、色情是狼友中的常用关键词。 [caption id="" align="aligncenter" width="700" caption="互联网色情内容统计报告"][/caption]

Posted in 杂项
Tags:

windows上的重启命令

用管了linux的reboot命令,在windows一天机子无法出来菜单栏,电源又在角落里,如何来重启一下? 幸好还有任务管理器,幸好还有重启的命令: 1.windows xp下的重启命令 shutdown   /? 用法:   shutdown   [/i   |   /l   |   /s   |   /r   |   /a   |   /p   |   /h   |   /e]   [/f] [/m   \\computer][/t   xxx][/d   [p:]xx:yy   [/c   "comment"]] 没有参数   ...

Posted in 杂项
Tags: