辛德林记 - 第1205页共1317页 - 双相实录冷眼观我我即是你你也是我

1205292 因百度空间升级使我被封禁近2年的百度空见变相地解封

早晨6点多醒并起。最近两晚上停机迟，近零点乐队才shut down. Need to correct!
但长期习惯躺床上再看手机至feel sleepy.

醒后就见下雨，开始不大，上午渐大。于是牛am.未出家
发现雨下后，也并发现power cut.该死的停电，每每刮风or下雨就TMD停电，真让人烦。这次又一直停电10点多才来。
又看了下断掉的earphone,继续尝试揭开电线包皮，但今天又弄断根线，而且到后来5根线都断了并且有点对不上号了。正好也来电了，所以再次放下这事。

翻出了我高中后期的一个笔记本，上面有为在高考后读四大名著及其它情形下看到的方言文字，准备有时间upload.

傍晚出cow dung时，用力过猛用锹向Dung-cart里倒时，不小心溅头上。拉cows时，又不小小被牛溅起的dung到腿上。真悲催！

前几天，FM去东观PSBC存入30M钱，以太保形式。第二天一个人还电话回访。

今天一直传言要查裂缝于墙上的。但仅仅是传言。

因百度空间究竟升级，使我被封禁近2年的百度空见变相地解封。

百度空间升级，看看我的被封空间如何。新版百度空间，升级正在进行中
升级进行时，貌似解封了！但不能高兴太早，看看升级后的成果吧。

因百度空间究竟升级，使我被封禁近2年的百度空见变相地解封。
百度空间升级完成。发现，新URLhttp://hi.baidu.com/new/55380855可以访问，原地址http://hi.baidu.com/55380855仍旧被封。不知百度意欲何为。

因百度空间究竟升级，使我被封禁近2年的百度空见变相地解封。

虽然百度口碑很差，但不可否认百度搜索的强势，以及被百度搜索大力支持的百度空间的流量之大。
但愿不再封了。以后尽可能地不再带任何敏感词或敏感话题。

各有各的自由，正如有人做爱有人做饭有人做牛做马，每个人爱做谁做谁，只要不违法

时间：2012-05-29 下午11:21:00 标签： log
2014-01-14 21:23:24 Migrated From Blogger

如何评价垃圾网站垃圾站采集站克隆站?

简单查了些资料,发现

1.垃圾网站是很可能赚钱的,且赚不少.

2.垃圾网站不仅仅是不道德的,更是明显违法的,只是过法律很忙

3.如何评价这种行为?
有人说赚钱就是王道,但是,如果垃圾站站长站在光明的舞台上自豪地说:看,我很赚钱,我很会赚钱。那该如何想？
无论做垃圾站如何地赚钱，都不能否认它的不道德、不光彩。甚至于，它比AV、卖身更不光彩。至少她们也是在卖自己的身体，她们可以自豪地说我靠自己本事赚钱且不侵犯的劳动成果。
也就是说，做垃圾站赚钱者，就如同小偷等犯罪但没被抓者，你可以自己在黑暗处偷偷地在兴高采烈，但拜托别在光明中自豪，那种行为并不光彩，这是社会起码的价值观。

————————–

做垃圾站的我照样活的很好一个垃圾站长的自白
作者:心碎 2008-10-23 21:24

站长已不在是哪个光环照耀下的哪个另人羡慕的职业，因为现在的站长太多，做个网站已经不在像N年前，要去学HTML、 ASP、.PHP、dw、PS等甚至连基础的Html都搞不懂，找个CMS教程，下个程序架起来，狂采一阵就是一个网站。

我做了两个小说站，N个图片站，N个QQ站，还有一些作弊的站点，虽说百度随时都会K，但是K了大不了再做个就是。要不了两个月照样每天可以给你带来一个站10来刀的收入，虽说我现在赚的不多，这么多的垃圾站加在一起有100多刀

站长网 http://www.admin5.com/article/20081023/110877.shtml

垃圾站的内容更新模式

网站建设刚开始不建议采集大量文章，可采集200左右文章，等baidu收录后，人工添加几篇看看，如果人工添加收录的比较快，蜘蛛经常关顾你的网站，那恭喜你，可以批量采集了。注意如果文章太多应该分批采集，不要集中在一段时间内。采集差不多的时候，就要靠人肉来添加文章了，人肉累点，但是效果好一些，不要求一次添加N多文章，但是要求经常更新，一般一周更新两次就可以了，一次大约10篇文章左右。现在很多垃圾站建好以后几个月甚至一年以上都不更新，这导致它们非常容易被K。

作者:杀手 2009-06-10 10:25
http://www.admin5.com/article/20090610/157325.shtml

我做垃圾站的一点体会|落伍者论坛 2007年08月06日

如果你认同你做的是垃圾站，请继续看下来。在投放广告的时候，除了违法的不投、除了原则性很强的不投(例如挂马、插件等）那么你想投放什么广告就投放，无论是漂浮或者弹出！这不用考虑用户感受，因为你要明白你现在做的是垃圾站，特别是依靠做垃圾站过日子的站长朋友！用力去弹吧！

http://www.kuqin.com/zhanz/20070806/53.html

垃圾站基本上都具有具有三大特征：垃圾内容(基本是采集);投放广告;seo。via 淄博宽维打折网
http://www.okajax.com/a/200807/0F1F602008.html

中国垃圾网站分析
刘大为 2007年08月22日 16:22

中国的垃圾网站之多，估计一般人都不知道的，而百度、google等搜索引擎确一直深受垃圾网站的困扰。据我个人估计，垃圾网页可能占到中国总网页数的50%左右，虽然这个占总的比例在下降，但是垃圾网页的绝对数还是在继续增加中，本人在这里对垃圾网站做一下简单的分析。
一，垃圾网页的定义,本人此文中的垃圾网页泛指一切不是真为访客提供有价值内容或者信息为目的，而以欺骗搜索引擎、骗取点击获得利益的网页。主要指依靠采集工具大量复制抄袭其他网站内容的网页。
二，中国互联网垃圾网页横行的原因分析：
1，垃圾网页背后利益巨大。垃圾网站成本低，利润高，我来帮大家算算帐。目前市场上一个域名加2G的空间的一年的成本在人民币150元以下。如果在100hosting.net购买国外主机加CN域名，由于很多国外主机一个空间可以做无限站，那么一个垃圾网站的成本可以低到几十元每年。一个2G的空间可以存放约10万个静态网页，如果被百度的搜索全部收录，网站放google广告的话，每月的收入可以达到2000人民币。这个利润可是非常惊人的。
2，CMS与采集工具的大量使用，使得制作网站成为了体力活，而不是什么高深的技术活。很多垃圾网站制作者每天挂在电脑十几小时采集，厉害的一天就可以搞个5万网页左右的垃圾站。现在网络民工这一新称号主要就是指的这些人。
3，中国法律法规不健全，版权意思淡薄，复制抄袭别人原创内容得不到任何惩罚，使得垃圾网站制造者有持无恐，
4，垃圾网站的主要利润来源与搜索引擎，而目前搜索引擎是不可能绝对从技术方面封杀垃圾网站的。因为目前大部分垃圾网站的制作者都熟知一些SEO知识，，堆砌关键词这样的老套路已经没有人使用了。而是使用一些技术手段来与搜索对抗。

三，中国垃圾网站的过去及未来预测
由于以上原因，中国的垃圾网站可以说世界上最多的，而且可以说这几年是垃圾网站发展的黄金时期，前几年有超人利用关键词生成器类的工具制造垃圾网页，赚了数百万，而这两年依靠制作垃圾网站月收入在5位数以上的也不在少数。但是这样的好光景估计不会再有了。
1，整个个人网站将走向低谷，而垃圾网站自然会走向陌路，因为博客已经逐步取代个人网站成为互联网信息的源头。
2，百度对垃圾网站的反作弊手段比以前先进多了，加上适当的人工干预，垃圾网站想轻易的骗取百度而被收录不是那么容易了。而一向不采取人工干预的GOOGLE面对中国的国情也开始采取人工封站的手段来对方垃圾网站了。
3，国内个人网站大多依靠google adsense生存，由于目前Google在国内市场份额小，但是做adsense的网站却是这样的多导致google adsense的单价日益走低，使得中文站流量越来越不值钱。垃圾网站的收入也大为缩水。
4，面对已经非常成熟的中国互联网，中文网站已经可以说是前景暗淡，大量有远见的站长已经转向国际互联网，改做英文网站了。目前一个同样IP流量的英文网站，广告价值比中国网站高达10倍。
四，对制作垃圾网站站长的建议，制作垃圾网站可能会获得一时的利益，但是你确失去了一个培养常青树的机会，如果你能把你的时间利用起来，专注与某一个网站，如果成功的话你就相当与得到了一个聚宝盆获得持久而又丰厚的收益。

刘大为 本人在DONEWS文章如果没有特别说明，均为原创，欢迎转载，注明作者及出处即可！

IT社区&媒体平台http://home.donews.com/donews/article/1/117932.html

时间：2012-05-29 下午10:48:00 标签： IT, seo, think
2014-01-14 21:19:41 Migrated From Blogger

Scraper site Web scraping垃圾网站采集刮擦技术 Spamming垃圾技术垃圾索引spamdexing

太复杂了。英语混乱，看了半天，越发糊涂了。Scraper site究竟应翻译成什么，到最后我竟越来越搞不懂。

scrape vt. 刮；擦伤；挖成 n. 刮掉；擦痕；困境；刮擦声

Scraper site翻译为刮擦好像不太合适。起先想就译作如垃圾网站，可与原意差得远，后来看了会英文上下文，觉得采集比较不错，中文中也有采集站一说。可看到“designed to "scrape" search-engine results pages ”这个句子我又疑惑了。很可能就是刮擦的意思，只不过有些引申。这个问题，求助谷歌无解，搜索基本没有中文网页，有几个也没有实质信息。

Web scraping似乎是指中性的技术，包括搜索引擎对网络内容的采集以及垃圾站的那种采集。

A scraper site is a spam website that copies all of its content from other websites using web scraping.
In the last few years[when?] scraper sites have proliferated at an amazing rate for spamming search engines. Open content is a common source of material for scraper sites.
A search engine is not a scraper site itself; sites such as Yahoo and Google gather content from other websites and index it so that the index can be searched with keywords. Search engines then display snippets of the original site content in response to a user’s search.
采集网站是一种垃圾网站，它使用网络采集技术复制了所有它的内容从其它的网站。最近一些年，采集网站激增以一个令人吃惊的速率为了spam搜索引擎。开放内容是一个常规的材料来源对于采集网站。

一个搜索引擎不是一个采集站点它自己；诸如雅虎和谷歌的站点，聚集内容从其它网站，并且索引它为了这个索引能够被用户关键词搜索。搜索引擎然后展示原站点内容的摘要来响应用户的搜索。

Made for advertising
Some scraper sites are created to make money by using advertising programs. In such case, they are called Made for AdSense sites or MFA[citation needed]. This derogatory term refers to websites that have no redeeming value[citation needed] except to lure visitors to the website for the sole purpose of clicking on advertisements.
为广告而制作
一些采集站是被创造为了赚钱靠用户广告计划。在如此情形下，他们被叫做广告联盟站点或者MFA.这个贬损的术语指网站没有补偿价值除了为了唯一的目的点击广告而引诱访问者到这个网站。http://en.wikipedia.org/wiki/Scraper_site

Web scraping (also called web harvesting or web data extraction) is a computer software technique of extracting information from websites. Usually, such software programs simulate human exploration of the World Wide Web by either implementing low-level Hypertext Transfer Protocol (HTTP), or embedding a fully-fledged web browser, such as Internet Explorer or Mozilla Firefox.
Web scraping is closely related to web indexing, which indexes information on the web using a bot and is a universal technique adopted by most search engines. In contrast, web scraping focuses more on the transformation of unstructured data on the web, typically in HTML format, into structured data that can be stored and analyzed in a central local database or spreadsheet. Web scraping is also related to web automation, which simulates human browsing using computer software. Uses of web scraping include online price comparison, weather data monitoring, website change detection, research, web mashup and web data integration.

网络采集（也被叫做网络收割或者网络数据提取）是一种从网站采集信息的电脑软件技术。通常，这类软件程序模拟人类探索万维网，或者执行低级的超文本传输协议（HTTP），或者嵌入成熟的网络浏览器，例如IE或者Mozilla火狐。

网络采集是与用机器人程序索引网络信息，且被大多数搜索引擎采用的网络索引通用技术紧密相关的。作为对比，网络采集更多的集中在网络上的非结构性的数据的转换，典型的在HTML格式转换成能被在中央本地数据库或电子书表格中存储和分析的结构化的数据。网络采集也是相关的与网络自动操作，那用电脑软件模拟人工浏览。网络采集的使用包括在线价格对比度，天气数据监视，网站变更检测，研究，网络聚合和网络数据整合。http://en.wikipedia.org/wiki/Web_scraping

Scraper sites
Scraper sites are created using various programs designed to "scrape" search-engine results pages or other sources of content and create "content" for a website.[5] The specific presentation of content on these sites is unique, but is merely an amalgamation of content taken from other sources, often without permission. Such websites are generally full of advertising (such as pay-per-click ads[5]), or they redirect the user to other sites. It is even feasible for scraper sites to outrank original websites for their own information and organization names.

采集站被创造用户各种程度，旨在刮擦搜索引擎结页或者其它内容源和创造内容为网站。这个特写的内容描述呈现在它们网站上是唯一的，但仅仅是从其它来源的内容的重组，常常没有许可。如此网站是一般充满广告（例如点击付费广告）或者他们重定向用户到其它站点。它是甚至可能的对于采集站级别高于原始网站因为它们自己的信息和机构名称。
http://en.wikipedia.org/wiki/Spamdexing#Scraper_sites

垃圾技术（Spamming）的一种垃圾索引（spamdexing）的种类
Keyword stuffing关键词堆砌
Google bomb Scraper谷歌炸弹
site Link farm 网站链接工厂
Cloaking Doorway page隐形门页
URL redirection网址重定向
Spam blogs 垃圾博客
Sping
Forum spam论坛垃圾
Blog spam博客垃圾
Social networking spam社交网络垃圾
Referrer spam引用垃圾
Parasite hosting寄生虫主机

Spamming
通常是指发送不被人允许的商业性电子邮件，但是在搜索引擎优化领域，通常指用一些不光彩的手法达到更好的搜索引擎排名。例如，大量的提交充满关键词但无相关意义的门页。
Netconcepts公司提供的SEO专业用语列表
http://www.netconcepts.cn/resources/seo-glossary/s/

时间：2012-05-29 下午10:26:00 标签： IT, seo
2014-01-14 21:13:14 Migrated From Blogger

谷歌Google百度Baidu如何怎么举报垃圾投诉垃圾网站采集站克隆站

Google有专门的举报垃圾站的spamreport.但作为中国最大的搜索引擎百度却没有专门的垃圾网站举报处。

倒是有个百度网页投诉中心，但注明“仅受理来自百度网页搜索快照的删除、更新等问题”，没明确说举报垃圾网站。权限可以作为举报处处吧。

下面的方法倒是貌似现实可行。

如何才可以让百度、google彻底的屏蔽掉这样的非法网站？
楼主你每天都去狂点击那个网站的广告，找个按键精灵百度联盟和adsense的广告每天各点10000次，几天之后百度联盟和adsense就会把它们的广告帐户全封了，断了他们的经济来源，看他们还敢嚣张不？？？
By woaisohu329 @ http://zhidao.baidu.com/question/219097574.html

但做人还是不能太过分了，垃圾站无非也是为了赚钱。如果实在交涉后，对方态度蛮横无礼，这不失为一个最后的办法。

向Google 举报垃圾网站、付费链接、恶意软件及其他问题

如果您曾在点击搜索结果后转到某个垃圾网页（如空白网页、与搜索内容完全无关的网页或充满乱码的网页），这就表示您遇到了垃圾网站。术语“垃圾网站”或“网络垃圾”指的是企图使用欺骗方法操纵搜索结果的网站站长所创建的内容。

如果相关网站是垃圾网站，请告知我们！Google 会极其严肃地处理垃圾网站，并调查所举报的网站实例。您可以在 http://www.google.com/webmasters/tools/spamreport上举报垃圾网站。这些报告会直接提交给我们的网络垃圾处理小组，以改进我们的消除垃圾网站的解决方案。

"Webspam" refers to pages that try to trick Google into ranking them highly.
垃圾网站是指页面尝试欺骗Google使它们评级较高。
http://support.google.com/webmasters/bin/answer.py?hl=zh-Hans&answer=93713

百度投诉中心-网页投诉中心：来自百度网页搜索及快照的问题，请在这里进行投诉。

投诉须知：本页仅受理来自百度网页搜索快照的删除、更新等问题；对网页搜索结果有任何建议，请点击这里进行反馈。网址原网站内容未删除、未更新的本系统无法处理，请通过百度网站公示的其他投诉方式将书面材料至我公司。但为了从根本上解决您的问题，我们建议您联系原网站进行相应处理。http://tousu.baidu.com/webmaster/add

时间：2012-05-29 下午6:41:00 标签： IT, seo
2014-01-14 21:07:51 Migrated From Blogger

垃圾站非也ButNo.net 抓取自百度新知和知乎问答 Quora网站建立时间2009.6

垃圾站非也ButNo.net 抓取自百度新知和知乎问答 Quora网站建立时间2009.6
非也 | ButNo.net 孰为汝多知乎? http://www.butno.net/

前些天就搜到这个网站，起初觉得copy知乎，今天又撞进去，专门查了下，竟然是抄自百度新知。之前于知乎听过新知，但一直没看过。一看，umm,原来又是一个Quora的学生。

专门搜索了“非也 | ButNo.net ”3个帖子，有2个来自百度新知，是首页上的2个，在早期帖中搜一个，是来自知乎。

whois信息：owner-organization: Charles Green
IP地址：美国德克萨斯州达拉斯市SoftLayer科技公司

百度新知：新知是一个社会化实名问答平台，解决的是无确定性答案的问题。平台上的很多答案，对你可能仅是一个参考，而不是某一个确定性的答案。比如：我怎样成为一个成功的人？关于这种非确定性答案的问题，你会希望有更资深的人来给你建议，但这些建议是否对你有效，还需要你根据自己的实际情况去判定。新知小友 http://xinzhi.baidu.com/question/78.html

非也是一个 WordPress 搭建的博客，内容都是从知乎扒去的，未注来源，不尊重原创作者。属于一个靠自动抓取信息赚搜索引擎流量的垃圾站。
周源，知乎 001 号员工 2011-12-15

知乎果壳问答百度新知等等的祖先：Quora
from:wikipedia.org

Thanks for requesting an invite to join Quora. We’ll send you another email soon once you’re able to create an account.

Quora is a question-and-answer website created, edited and organized by its community of users. The site was founded in June 2009, and made available to the public on June 21, 2010.[5]
Quora aggregates questions and answers to topics and allows users to collaborate on them by editing questions and suggesting edits to other users’ answers.Quora’s main competitors are social bookmarking sites like reddit, social networking sites like ChaCha, Yahoo! Answers, LinkedIn Answers, Mahalo Answers, Uclue, Formspring, Answerbag and Answers.com, and expert Q&A communities like the Stack Exchange or Hightable.

Quora是一个问答网站，由它的用户社区创建、编辑和组织。这个网站建立在2009年6月，在2010年6月21日向公众开放。

Quora会集问答到主题，允许用户在它们上协作，靠编辑问题和建议对其它用户的答案编辑（？）。Quora主要是的竞争者是社交书签站点，像红迪网(reddit）,社交网络站点像ChaCha，Yahoo! Answers

In June 2011, Quora redesigned its website, in order to make information discovery and navigation easier. Nevertheless some critics said that the redesign was inspired by Wikipedia.[12] Quora released an official iPhone app on September 29, 2011

在2011年7月，Quora重新设计了它的网站，为了使信息更容易地方发现和导航。然而一些批评者说，重新设计是受维基百科的启发。Quora发布官方iPhone应用在2011年9月29日。

Quora uses Pylons and Comet for its backend and Ubuntu Linux as its operating system with MySQL as its database. It also uses Git and memcached. Quora uses Nginx as a reverse proxy server and HAProxy for load balancing. Quora has developed its own algorithm for ranking the answers, which works on similar principles to PageRank.[24] Quora uses Amazon Elastic Compute Cloud technology to host the servers that run their website.[25][26] In 2011, Quora switched its infrastructure’s Python implementation from CPython to PyPy, in order to improve response times.

Quora用Pylons和Comet为它的后端，用后端作为其OS，有MySQL作为它的数据库。它也用户Git和分布式缓存。Quora用Nginx作为反向代理服务器和HAProxy用作负载平衡。Quora曾经开发了它自己的算法为答案排名，它运行与PR类似的原理。Quora用亚马逊弹性计算云技术布置服务器来运行它的网站。在2011，Quora转换它的基础设备的Python实现从CPython到PyPy，为了提高响应时间。http://en.wikipedia.org/wiki/Quora

时间：2012-05-29 下午5:30:00 标签： IT, seo
2014-01-14 20:58:06 Migrated From Blogger