Scraper site Web scraping垃圾网站采集刮擦技术 Spamming垃圾技术垃圾索引spamdexing

太复杂了。英语混乱,看了半天,越发糊涂了。Scraper site究竟应翻译成什么,到最后我竟越来越搞不懂。

scrape vt. 刮;擦伤;挖成 n. 刮掉;擦痕;困境;刮擦声

Scraper site翻译为刮擦好像不太合适。起先想就译作如垃圾网站,可与原意差得远,后来看了会英文上下文,觉得采集比较不错,中文中也有采集站一说。可看到“designed to "scrape" search-engine results pages ”这个句子我又疑惑了。很可能就是刮擦的意思,只不过有些引申。这个问题,求助谷歌无解,搜索基本没有中文网页,有几个也没有实质信息。

Web scraping似乎是指中性的技术,包括搜索引擎对网络内容的采集以及垃圾站的那种采集。

A scraper site is a spam website that copies all of its content from other websites using web scraping.
In the last few years[when?] scraper sites have proliferated at an amazing rate for spamming search engines. Open content is a common source of material for scraper sites.
A search engine is not a scraper site itself; sites such as Yahoo and Google gather content from other websites and index it so that the index can be searched with keywords. Search engines then display snippets of the original site content in response to a user’s search.
采集网站是一种垃圾网站,它使用网络采集技术复制了所有它的内容从其它的网站。最近一些年,采集网站激增以一个令人吃惊的速率为了spam搜索引擎。开放内容是一个常规的材料来源对于采集网站。

一个搜索引擎不是一个采集站点它自己;诸如雅虎和谷歌的站点,聚集内容从其它网站,并且索引它为了这个索引能够被用户关键词搜索。搜索引擎然后展示原站点内容的摘要来响应用户的搜索。

Made for advertising
Some scraper sites are created to make money by using advertising programs. In such case, they are called Made for AdSense sites or MFA[citation needed]. This derogatory term refers to websites that have no redeeming value[citation needed] except to lure visitors to the website for the sole purpose of clicking on advertisements.
为广告而制作
一些采集站是被创造为了赚钱靠用户广告计划。在如此情形下,他们被叫做广告联盟站点或者MFA.这个贬损的术语指网站没有补偿价值除了为了唯一的目的点击广告而引诱访问者到这个网站。http://en.wikipedia.org/wiki/Scraper_site

Web scraping (also called web harvesting or web data extraction) is a computer software technique of extracting information from websites. Usually, such software programs simulate human exploration of the World Wide Web by either implementing low-level Hypertext Transfer Protocol (HTTP), or embedding a fully-fledged web browser, such as Internet Explorer or Mozilla Firefox.
Web scraping is closely related to web indexing, which indexes information on the web using a bot and is a universal technique adopted by most search engines. In contrast, web scraping focuses more on the transformation of unstructured data on the web, typically in HTML format, into structured data that can be stored and analyzed in a central local database or spreadsheet. Web scraping is also related to web automation, which simulates human browsing using computer software. Uses of web scraping include online price comparison, weather data monitoring, website change detection, research, web mashup and web data integration.

网络采集(也被叫做网络收割或者网络数据提取)是一种从网站采集信息的电脑软件技术。通常,这类软件程序模拟人类探索万维网,或者执行低级的超文本传输协议(HTTP),或者嵌入成熟的网络浏览器,例如IE或者Mozilla火狐。

网络采集是与用机器人程序索引网络信息,且被大多数搜索引擎采用的网络索引通用技术紧密相关的。作为对比,网络采集更多的集中在网络上的非结构性的数据的转换,典型的在HTML格式转换成能被在中央本地数据库或电子书表格中存储和分析的结构化的数据。网络采集也是相关的与网络自动操作,那用电脑软件模拟人工浏览。网络采集的使用包括在线价格对比度,天气数据监视,网站变更检测,研究,网络聚合和网络数据整合。http://en.wikipedia.org/wiki/Web_scraping

Scraper sites
Scraper sites are created using various programs designed to "scrape" search-engine results pages or other sources of content and create "content" for a website.[5] The specific presentation of content on these sites is unique, but is merely an amalgamation of content taken from other sources, often without permission. Such websites are generally full of advertising (such as pay-per-click ads[5]), or they redirect the user to other sites. It is even feasible for scraper sites to outrank original websites for their own information and organization names.

采集站被创造用户各种程度,旨在刮擦搜索引擎结页或者其它内容源和创造内容为网站。这个特写的内容描述呈现在它们网站上是唯一的,但仅仅是从其它来源的内容的重组,常常没有许可。如此网站是一般充满广告(例如点击付费广告)或者他们重定向用户到其它站点。它是甚至可能的对于采集站级别高于原始网站因为它们自己的信息和机构名称。
http://en.wikipedia.org/wiki/Spamdexing#Scraper_sites

垃圾技术(Spamming)的一种垃圾索引(spamdexing)的种类
Keyword stuffing关键词堆砌
Google bomb Scraper谷歌炸弹
site Link farm 网站链接工厂
Cloaking Doorway page隐形门页
URL redirection网址重定向
Spam blogs 垃圾博客
Sping
Forum spam论坛垃圾
Blog spam博客垃圾
Social networking spam社交网络垃圾
Referrer spam引用垃圾
Parasite hosting寄生虫主机

Spamming
通常是指发送不被人允许的商业性电子邮件,但是在搜索引擎优化领域,通常指用一些不光彩的手法达到更好的搜索引擎排名。例如,大量的提交充满关键词但无相关意义的门页。
Netconcepts公司提供的SEO专业用语列表
http://www.netconcepts.cn/resources/seo-glossary/s/

时间:2012-05-29 下午10:26:00 标签: IT, seo
2014-01-14 21:13:14 Migrated From Blogger

谷歌Google百度Baidu如何怎么举报垃圾投诉垃圾网站采集站克隆站

Google有专门的举报垃圾站的spamreport.但作为中国最大的搜索引擎百度却没有专门的垃圾网站举报处。

倒是有个百度网页投诉中心,但注明“仅受理来自百度网页搜索快照的删除、更新等问题”,没明确说举报垃圾网站。权限可以作为举报处处吧。

下面的方法倒是貌似现实可行。

如何才可以让百度、google彻底的屏蔽掉这样的非法网站?
楼主你每天都去狂点击那个网站的广告,找个按键精灵百度联盟和adsense的广告每天各点10000次,几天之后百度联盟和adsense就会把它们的广告帐户全封了,断了他们的经济来源,看他们还敢嚣张不???
By woaisohu329  @  http://zhidao.baidu.com/question/219097574.html

但做人还是不能太过分了,垃圾站无非也是为了赚钱。如果实在交涉后,对方态度蛮横无礼,这不失为一个最后的办法。

向Google 举报垃圾网站、付费链接、恶意软件及其他问题

如果您曾在点击搜索结果后转到某个垃圾网页(如空白网页、与搜索内容完全无关的网页或充满乱码的网页),这就表示您遇到了垃圾网站。术语“垃圾网站”或“网络垃圾”指的是企图使用欺骗方法操纵搜索结果的网站站长所创建的内容。

如果相关网站是垃圾网站,请告知我们!Google 会极其严肃地处理垃圾网站,并调查所举报的网站实例。您可以在 http://www.google.com/webmasters/tools/spamreport上举报垃圾网站。这些报告会直接提交给我们的网络垃圾处理小组,以改进我们的消除垃圾网站的解决方案。

"Webspam" refers to pages that try to trick Google into ranking them highly.
垃圾网站是指页面尝试欺骗Google使它们评级较高。
http://support.google.com/webmasters/bin/answer.py?hl=zh-Hans&answer=93713

百度投诉中心-网页投诉中心:来自百度网页搜索及快照的问题,请在这里进行投诉。

投诉须知:本页仅受理来自百度网页搜索快照的删除、更新等问题;对网页搜索结果有任何建议,请点击这里进行反馈。网址原网站内容未删除、未更新的本系统无法处理,请通过百度网站公示的其他投诉方式将书面材料至我公司。但为了从根本上解决您的问题,我们建议您联系原网站进行相应处理。http://tousu.baidu.com/webmaster/add

时间:2012-05-29 下午6:41:00 标签: IT, seo
2014-01-14 21:07:51 Migrated From Blogger

垃圾站非也ButNo.net 抓取自百度新知和知乎问答 Quora网站建立时间2009.6

垃圾站非也ButNo.net 抓取自百度新知和知乎问答 Quora网站建立时间2009.6
非也 | ButNo.net  孰为汝多知乎? http://www.butno.net/

前些天就搜到这个网站,起初觉得copy知乎,今天又撞进去,专门查了下,竟然是抄自百度新知。之前于知乎听过新知,但一直没看过。一看,umm,原来又是一个Quora的学生。

专门搜索了“非也 | ButNo.net  ”3个帖子,有2个来自百度新知,是首页上的2个,在早期帖中搜一个,是来自知乎。

whois信息:owner-organization: Charles Green
IP地址:美国 德克萨斯州达拉斯市SoftLayer科技公司

百度新知:新知是一个社会化实名问答平台,解决的是无确定性答案的问题。平台上的很多答案,对你可能仅是一个参考,而不是某一个确定性的答案。比如:我怎样成为一个成功的人?关于这种非确定性答案的问题,你会希望有更资深的人来给你建议,但这些建议是否对你有效,还需要你根据自己的实际情况去判定。新知小友 http://xinzhi.baidu.com/question/78.html

非也是一个 WordPress 搭建的博客,内容都是从知乎扒去的,未注来源,不尊重原创作者。属于一个靠自动抓取信息赚搜索引擎流量的垃圾站。
周源知乎 001 号员工 2011-12-15

知乎果壳问答百度新知等等的祖先:Quora 
from:wikipedia.org

Thanks for requesting an invite to join Quora. We’ll send you another email soon once you’re able to create an account.

Quora is a question-and-answer website created, edited and organized by its community of users. The site was founded in June 2009, and made available to the public on June 21, 2010.[5]
Quora aggregates questions and answers to topics and allows users to collaborate on them by editing questions and suggesting edits to other users’ answers.Quora’s main competitors are social bookmarking sites like reddit, social networking sites like ChaCha, Yahoo! Answers, LinkedIn Answers, Mahalo Answers, Uclue, Formspring, Answerbag and Answers.com, and expert Q&A communities like the Stack Exchange or Hightable.

Quora是一个问答网站,由它的用户社区创建、编辑和组织。这个网站建立在2009年6月,在2010年6月21日向公众开放。

Quora会集问答到主题,允许用户在它们上协作,靠编辑问题和建议对其它用户的答案编辑(?)。Quora主要是的竞争者是社交书签站点,像红迪网(reddit),社交网络站点像ChaCha,Yahoo! Answers

In June 2011, Quora redesigned its website, in order to make information discovery and navigation easier. Nevertheless some critics said that the redesign was inspired by Wikipedia.[12] Quora released an official iPhone app on September 29, 2011

在2011年7月,Quora重新设计了它的网站,为了使信息更容易地方发现和导航。然而一些批评者说,重新设计是受维基百科的启发。Quora发布官方iPhone应用在2011年9月29日。

Quora uses Pylons and Comet for its backend and Ubuntu Linux as its operating system with MySQL as its database. It also uses Git and memcached. Quora uses Nginx as a reverse proxy server and HAProxy for load balancing. Quora has developed its own algorithm for ranking the answers, which works on similar principles to PageRank.[24] Quora uses Amazon Elastic Compute Cloud technology to host the servers that run their website.[25][26] In 2011, Quora switched its infrastructure’s Python implementation from CPython to PyPy, in order to improve response times.

Quora用Pylons和Comet为它的后端,用后端作为其OS,有MySQL作为它的数据库。它也用户Git和分布式缓存。Quora用Nginx作为反向代理服务器和HAProxy用作负载平衡。Quora曾经开发了它自己的算法为答案排名,它运行与PR类似的原理。Quora用亚马逊弹性计算云技术布置服务器来运行它的网站。在2011,Quora转换它的基础设备的Python实现从CPython到PyPy,为了提高响应时间。http://en.wikipedia.org/wiki/Quora

时间:2012-05-29 下午5:30:00  标签: IT, seo
2014-01-14 20:58:06 Migrated From Blogger

1205281 山西晋中祁县小麦麸皮价格1.6元/公斤 东观联通信号疑变好 wp4sae成功开启Gzip

write audio log & download Jinju video.  one & two
DN. fail

昨天450元一头买的16个小猪,今天还不咋会吃颗粒猪饲料。槽大猪小,好几头猪跑进食槽(trough).
晨,M、LoveLive婆姨和另一个三队人,结伴骑电动车抽血浆。

2012-5-28 7:40:19
F从LittleSock家买两袋麦麸子。完后把麸子折到自家蛇皮袋,把人家袋子还还给人家。
85斤8毛1斤合计68元。山西晋中祁县小麦麸皮价格1.6元/公
山西地区面粉厂麸皮主流出厂价格在0.76-0.83元/斤
河北地区面粉厂麸皮主流出厂价格在0.72-0.78元/斤
河北地区面粉厂麸皮主流出厂价格在0.72-0.78元/斤
By 中国养猪巴巴网 2012年5月21日统计

2012-5-28 9:37:36
M太谷归。忘记带ID。但也允许了。M老乡娟。
F用火柱手工扒玉茭,是为人食用的粗面用的。

联通手机貌似信号变好。通话不再断断续续。

发现在知乎上提些重思考分析性,而非实用生活型的问题,会效果很不错。

wp4sae成功开启Gzip
按照 走召氵殳走取 的介绍,把config.yaml代码修改,wordpress for see成功开启Gzip

wp4sae成功开启Gzip

现在有点喜欢上Google Plus。就是对其UI有点不满意,评论打开下翻后竟找不到折叠方法。

与一个在G+上争辩,发现这也有趣,对于找刺激而言。

weibo

广告太过分不应该,比如视频广告太长,网页弹出广告让人烦,满目广告影响观看。 但完全使用各种技术手段屏蔽广告也似乎不应该,毕竟放置广告的内容提供者提供内容是需要花费精力甚至财力并想要一点回报的。

对于多数美国企业,软件与硬件一样的硬,是一种固定资产。(据说美国企业大多用正版软件,而正版软件比较贵的)

错误 您所请求的网址(URL)无法获取 当尝试读取以下网址(URL)时:发生了下列的错误:Access Denied. 拒绝访问 当前的存取控制设定禁止您的请求被接受,cdnsupport@chinanetcenter.com Generated by cache.51cdn.com (Cdn Cache Server V2.0)

blogger确实即使拥有自己一级域名也无法访问。说是因为IP封锁。Flattr也有时打不开,使用搭理则没问题。奇怪这个微博之博itwwt.com也代理才能上。

知乎网404页面: 你似乎来到了没有知识存在的荒原… 来源链接是否正确?用户、话题或问题是否存在?

时间:2012-05-28 下午11:36:00
2014-01-14 20:34:47 Migrated From Blogger

天河配鹊桥会山西晋剧全本戏曲名家唱段mp3格式下载栗桂莲王晋文任鑫爱山西公共频道看大戏

26.鹊桥会
又称天河配
鹊桥会山西晋剧全本戏曲名家唱段mp3格式下载栗桂莲王晋文任鑫爱公共频道看大戏
山西公共频道
导演    文井 肖桂叶 崔向英
织女    栗桂莲
牛郎    王晋文
秀妮    闫媛媛
宝童    巩媛媛(这么巧,两个媛媛?还是艺名?)
金斗星    张旭东(这么巧,与我太同农太同学同名)
字幕    马德新 冯毅
乐队伴奏    山西爱乐乐团
看大戏 0351-8302227
山西视听网 www.sxrtv.com

天河配鹊桥会山西晋剧全本戏曲名家唱段mp3格式下载栗桂莲王晋文任鑫爱山西公共频道看大戏

天河配鹊桥会山西晋剧全本戏曲名家唱段mp3格式下载栗桂莲王晋文任鑫爱山西公共频道看大戏

MP3音频下载地址:
1:29:24 64k 41.0M
http://pan.baidu.com/netdisk/singlepublic?fid=120259_4243511054

这部戏也如同“大钟锽锽 晋剧全本戏阳泉市晋剧院张志平董明”一样,应该属于新编的晋剧,就为剧中女人可以赤膊上阵。

栗桂莲:山西晋剧院青年团团长。国家一级演员。12岁考入山西戏曲学校,师承牛桂英,主攻青衣。山西省第九届政协委员。if 1990年30岁,then 1860年生。
如果说,京剧界继四大名旦后产生了一位既有梅、尚、程、荀艺术影子,又不同于其艺术形式的新流派―――张派(张君秋),曾把京剧艺术推上了另一个高度的话,那么今天的晋剧界就可以说,也出现了一位既隐约有牛、程表演风格和“爱爱腔”特点,又不同于牛、程表演原味和“爱爱腔”的新的表演艺术,那就是“栗桂莲表演艺术”。
栗桂莲陷入了沉思:晋剧这些年渐趋式微,看来不是外国人不爱,年轻人不懂,是作为文化工作者的自己和这个群体做的工作不够。晋剧急需改革,走向音乐厅是一种尝试,还可以打破陈规搞其他尝试。
http://www.hudong.com/wiki/栗桂莲

山西省晋剧院成立于1959年2月,是全省最大的艺术表演团体。由原山西人民晋剧团第一、二分团和太原市晋剧一分团合并组成。
剧院下设演出团、青年团、青年一团三个演出机构。from:百度百科

晋剧的后起之秀——王晋文  (2010-08-15 13:35:44)
王晋文,1982 年生于山西省太原市.山西省戏剧家协会会员.1994年考入山西省戏剧职业学院.1996年至2002年就读于太原市东大学校,2002年考入山西省财经大学.由于对戏曲艺术的酷爱,求学期间,从未中断基本功训练,主攻老生,并拜著名晋剧表演艺术家武忠为师.2005年应聘到山西晋阳嫦娥文化艺术有限公司,曾为该公司主要艺术骨干.2008年被山西省文华晋剧院吸收为该院艺术团主演.他扮相好,嗓音美,勤奋刻苦,孜孜不倦,深受广大戏迷和观众的喜欢.代表剧目有《跑城》《齐王拉马》《三娘教子》《龙兴晋阳》等.曾荣获太原市戏剧调演一等奖,山西省“杏花奖”.
http://baike.baidu.com/view/2663666.htm
晋剧亮健 http://blog.sina.com.cn/s/blog_671727a50100kkp1.html

剧本唱词
七夕节满城争看《天河配》
嘎氏理屈词穷陷于孤立,竟使出“一哭二闹三上吊”的伎俩,唱出“我要上吊找绳子,要开膛找剪子,要抹脖子找刀子,天呀地呀我可活不了啦!”至此全场为之哄堂,对这种泼妇发出一片嘲笑。戏中的老舅说山东话,写分家单时的几段数板也幽默有趣,剧词是:“天要阴,雨要下,爹要死,娘要嫁,二外甥要分家,要了老牛还要啥?”
2011-08-05 来源:新浪网 作者:蓝田过客
http://www.chinahexie.org.cn/a/wenyiyingshi/quyi/nanqiangbeidiao/2011/0805/17790.html

我的家
居住在云雾山顶
云漫漫雾蒙蒙崎岖难行
跨过那饮水池
再绕相思背
登上那小花山
直穿八仙洞
北天池边歇歇脚
金牛星一番真情告

视频来源:
晋剧王子
一集
山西文化晋剧院演出大型新编神话晋剧 《鹊桥会》。该剧情根据地处太行山巅的和顺县南天池村、牛郎峪村一带广为流传的“牛郎织女”爱情故事编写而成。它不但表现了牛郎织女忠贞不渝的爱情故事,而且也充分展示了和顺人民的传统美德,淳朴民风,以及山清水秀的大自然风光。整个剧情跌宕起伏,阵营整齐宏大,演出充分运用了高科技手段,大大增强了演出效果。
著名晋剧表演艺术家、国家一级演员栗桂莲领衔主演织女,晋剧表演艺术家武忠弟子王晋文扮演牛郎,青年新秀任鑫爱扮演王母,晋剧表演艺术家李月仙弟子齐秀玲扮演观世音。
http://v.youku.com/v_show/id_XMTE5NDQzNTQw.html

时间:2012-05-28 下午10:56:00
标签: 晋剧

2014-01-14 20:29:34 Migrated From Blogger