首页 排行 分类 完本 书单 专题 用户中心 原创专区
笔趣阁 > 现代都市 > 大时代之巅 > 第768章 爬虫

大时代之巅 第768章 爬虫

作者:荒野悲歌 分类:现代都市 更新时间:2023-04-21 08:24:23 来源:笔趣阁

在国内做生意,限制比较多。如果是小打小闹的小公司,只要在合理合法的经营、竞争,怎样都没问题。如果是大公司,那就不行了。

如果是国企间展开激烈竞争,当局一统计,发现这种竞争对两家企业的利润都有损害,就会出面协调了。可以把两家企业的老总互换,化干戈为玉帛。再不行,当局谈话,进行问诫。还不行,就有杀手锏了,两家企业直接合并。

民企间的竞争相对自由,可大公司之间也有限制。

每一家成功的民企,经营的都很不容易。

当局在法律法规、政策等方面都有一定的保护。

在美国,一个市值1000多亿美元的公司一旦报出财务造假,3个月内就破产倒闭了,处置得极其严苛。可国内不一样,民企做大,真是太不容易了,因为犯了点小错就直接杀头,太可惜了,罚款几十万引以为戒,意思意思得了。

企业倒了,那么多员工怎么办?损失的GDP怎么办?

这就导致有很多无耻可恶的商人,利用国家对民族经济的呵护和关爱,不好好做企业,天天想着操纵资本、收割韭菜,导致A股假账烂账一大堆。

这里面的水太深,周不器从不参与,哪怕A股现在历史性的大涨,他也不去炒股,免得惹一身腥。

炒股才能赚几个钱啊。

他这种身份的人,只要牌坊正,根本不需要去股市里偷鸡摸狗,官府会敲锣打鼓的主动给他送钱。

要想钱生钱,最好的办法就是把钱集中起来,交给最会赚钱又人品可靠值得信任的人,让他去带领大家共同致富。

周不器现在基本就是这样的人。

郭丹那边已经回馈了,市里针对紫微星总部的事,已经拿出了一个大致性的意见,会给出一个在首都地区对民企来说前所未有的扶持方案。

回到紫微星和百度的竞争上,周不器肯定不能像石婧琳说的那样采取一些过激的行为。

就算是竞争,也要在一定的范围之内。

要是紫微星真的把百度搞死了,这不是牛逼,这是傻逼。同样的,百度要是把紫微星搞死了,李老板也就被请去喝茶了。

3Q大战一度轰轰烈烈,也是当局出面化解纠纷。

第二天,周不器叫上了郭鹏飞、韩乐水、聂才俊、宁雅娴等人,去搜索事业群那边考察工作。场面不小。

紫微星的几大事业群负责人中,王小船的压力是最大的。

前期工程已经做到了完美,可就是拿不到结果,市场份额一直维持在33间。所以他才申请了一个建议,要做一个类似百度贴吧的项目。

好在周不器对王小船充满了信任。

“不要急,我早就说过了,短期之内不看份额,只看产品。”

“产品……”

王小船暗暗叹气。

单看产品,微点搜索也不如百度啊!唯一的优势,就是微点的配套设施更多,有浏览器,有导航网,有输入法,有音乐平台等等。

周不器笑了笑,“这点信心都没有?还是说你承认技术不行?”

王小船从小就是计算机天才,在技术方面从未服过谁,摇头道:“搜索引擎的架构高度复杂,有抓取器、渲染器、DNS解析、Redis内存数据库、URL队列、种子队列、响应队列、URL提取、URL过滤、重复URL检测等等,是一个技术性很强的庞大工程。我自认为微点的架构不比百度差,可一些技术细节,还需要时间。”

周不器笑着说:“我知道搜索技术很高端,可随着时间的推移,搜索技术就会走下神坛,变为比较大众的技术。最根本的技术,还是大数据处理。”

在大方向的理论上,周大老板比一些专业人士还强。

王小船深以为然,“是啊,大数据的处理。百度和谷歌的差距,微点和百度的差距,最主要的就是体现在我们在数据处理时的效率问题。按理来说,通过爬虫技术,可以抓取到互联网上所有信息。可相关信息太多了,数据量太大了。怎么才能在短时间内把想要的信息抓取并展示出来,是搜索引擎最大的技术难题。”

周不器打了个响指,笑道:“巧了,我这次过来,就是想问问你爬虫的事。”

王小船有些费解。

周大老板这个技术外行,怎么还关心起技术细节来了?

就缓缓的解释道:“爬虫是搜索的基础工具,爬虫搜信息……嗯,就跟使用浏览器上网差不多,都是先向服务器发送请求,获得返回的页面,然后筛选出有价值的内容。如果时间足够长计算量足够大,使用爬虫工具,就可以把互联网上的所有信息都搜索一遍。”

见周大老板似乎很感兴趣的样子。

王小船就拿过纸笔,很快速的写下了一行代码,“假如说我们要爬取微知网的信息,用这行代码就可以实现了。”

周不器拿过代码一看,嗯,是很简单。

headers={‘Use-Agent’:‘ChaiknowsThebot’,}

r=(“

html=x

print(html)

难怪说3月份的时候,北科有两个计算机系的大学生被开除了。

这技术好像是不太难。

因为大四写论文,可用谷歌、百度、微点等搜索引擎,却搜不到别人写的相关论文。怎么办?就有计算机系的学生,自己写了段爬虫算法。

然后成功的爬取到了几百篇相关论文。

接下来就好办了,摘抄、重组、整合。

如果查重不过关,也简单,用谷歌翻译,先汉译英、再英译汉。再人工地把句子整理通顺,查重就顺利通过。

可能是北科的创业环境被周不器给带起来了,那俩大学生就有了通过技术牟利的心思,玩起了帮同学写论文的生意。

被发现后,俩人都被开除了。

要不是周不器出面力保,上缴了非法所得,并安排到了校内网工作,他俩说不定就要蹲监狱了,前程就全毁了。

王小船接着说:“这是静态网站的爬取,如果是优酷、朋友网的这种动态页面,算法会相对复杂。可不管怎样,这都是很基础的工具。我们做搜索引擎,难点已经从复杂性变为规模量了。”

周不器皱皱眉,“老马……就是阿里的那位。他跟我说,要屏蔽百度对淘宝的爬虫,怎么回事?”

王小船笑道:“这事也简单,爬虫和网站之间有一个爬取协议,业内叫Robot协议。这个协议会声明,该网站的哪些内容可以爬取,哪些内容不能爬取,并规定白名单里的爬虫可以爬取主页内容。淘宝如果要屏蔽百度,只需要把百度的爬虫加到黑名单里就行了。”

“嗯!”

周不器点了点头。

这就是他想要的答案。

爬虫黑名单!

王小船似乎看出了什么,试探着说:“老板,你……你要对百度下手吗?”

周不器道:“我看了一下微知网的数据,过去3个月,有超过1.1亿的访问量,是来自百度。”

王小船没有惊喜,深吸了口气,忧心忡忡的说:“微知的访问量本来就不高,如果屏蔽了百度,流量就更低了。”

周不器并不在乎,“微知不需要流量,微知需要的是优质内容。你都说了,百度的算法不如谷歌,很难通过简单的数据处理完成对一些有深度内容的检索,来爬取微知的内容,是简洁途径。有不少用户都是通过百度来访问微知,我们要断了这条线!”

王小船眨眨眼,“真要屏蔽吗?”

“当然。”

“可Robot协议没有法律效力。”

“啥?”

“这个协议,是一种行业约束,君子协定,不是法律条文。如果百度真想爬取微知的内容,完全可以通过技术手段跳过协议,强行爬取。”

周不器若有所思,“君子协定啊……如果强行爬取,有违商业道德?”

王小船点了点头,“可以这么理解。”

心中深深的不以为然。

商业道德?

这东西是一层窗户纸,一捅就破。

“如果违反了怎么办?”

“国外有过类似的案子,违反了协议,也被处罚了。因为法官认为这个协议虽不是法律条文,但作为广泛被接受的行业规则,就应该被遵守。不过国内好像不太行。就像RSS聚合器似的,可以去各个网站上订阅信息。网站拒绝了RSS订阅,依旧可以通过技术手段强行订阅。”

周不器想了一下,语气轻松,笑着说:“没事,百度在美国上市,不敢玩的太出格。先这么做吧,第一步,微知网屏蔽百度的爬虫。你这边也做准备,我打算一步步的、全面彻底的跟百度切割。”

王小船睁大眼睛,“全都切割?”

周不器淡淡地道:“对!”

“这行吗?”

“你觉得切割了,对谁的危害更大?”

“这……”

王小船有些犹豫,不太好说。

周不器冷冷的道:“紫微星不主动欺负别人,却也不会任人欺负。百度从校内网挖了十几个人,把一个满建制的小组都给挖走了。不亮亮肌肉,李大老板以为我脾气好,好说话呢!”

都屏蔽了,当然对微点搜索最有利。

可王小船格局没这么小,不认为这是个好主意,好心的提示一句,“咱们自身的利益也会受损。百度是最大的搜索引擎,是流量分发平台。”

周不器却很有信心,“平台的优势是轻量级,劣势是容易被人卡脖子。联想电脑品牌这么响,你知道联想最怕什么吗?最怕微软的系统授权和英特尔的芯片断供。每一次发生分歧,都要支付一大笔钱。如果把百度比作联想电脑,紫微星就需要成为最大的零配件供应商。微知、朋友网、校内网,接下来,我们还会有今日头条和微博。比比看!”

目录
设置
设置
阅读主题
字体风格
雅黑 宋体 楷书 卡通
字体风格
适中 偏大 超大
保存设置
恢复默认
手机
手机阅读
扫码获取链接,使用浏览器打开
书架同步,随时随地,手机阅读
收藏
换源
听书
听书
发声
男声 女生 逍遥 软萌
语速
适中 超快
音量
适中
开始播放
推荐
反馈
章节报错
当前章节
报错内容
提交
加入收藏 < 上一章 章节列表 下一章 > 错误举报