Tag Archives: google

协同翻译工具之阴谋论

听说 Google 又有新服务推出,是一个翻译工具,叫做 Google Translator Toolkit。推出的似乎比较低调,看域名也不像是一个独立的新产品,可以算作 Google Translate 的一部分。

我小试了一下,没有太多令人意外的地方:典型的 Google UI 设计——简洁,类似早些时候 Google Docs 的界面;拥有 CAT 软件基本的功能,多语言,自动翻译,词汇表导入……支持的格式也都是常见的那几种。基本的操作,似乎也没有太多可以研究——上传,选择语言,自动翻译,逐词句手工翻译,完成。

然而,这肯定不是全部,菜单上还有一个按钮——Share,这是一个协同翻译工具,你可以把需要翻译的文章和其他人共享,一同翻译,效率自然大大提高。除了共同翻译外,词汇表也可以共享,这又提高了翻译效率。然后,还有,那个叫做 Translation Memory 的东西,Google 给出的解释是 A translation memory (TM) is a database of human translations 这样,人工翻译的结果是可以存入数据库的。再注意到灰色字的提示 If no TM is specified, translated segments are stored in out shared, global TM. 原来,我们协同翻译的工作远比我们所想得更有意义,它们被存入了公共的数据库,凭借着 Google 在数据处理上的超级牛力,这些数据必定大大提高之后的翻译效率。于是,终于有人跳出来说,这,是一个阴谋!看到此文有人评论:翻译的成果竟然给 Google 使用下三滥手段偷了去,然后用来制造翻译产品并从中直接或间接牟利,作为一个专业的翻译,我,感到相当震惊!

这么想来,这个工具虽然能够提高翻译效率同质量,Google 却做得有点不厚道,默认设置不应该是共享 Translation Memory 的,毕竟翻译也是人家辛苦劳动的成果,不经意间被利用,难免让人感到不快。

Anyway,作为一个不会翻译的非专业人士,我,愿意围观更多翻译作品的诞生……

中国人只会山寨?

开始有个习惯每个月看看 NetCraft 的 Web Server Survey,了解一下最新的服务器发展。通常总是那么几个产品上下沉浮,感觉也就和看浏览器市场占有率差不多。却没有浏览器竞争来的激烈,服务器排名也没那么好看。

和浏览器不同的是,服务器可以是独家享用的,Google 的 GFE 就是占据 第三的宝座,却不能让外人尝鲜。这也说明 Google 的强大,看了报告总是想,他一家公司做的服务器,自家用,竟然能排到第三

然而,2月的报告出来看了感觉很雷……真的,真的是雷了。Google 的第三没了……给腾讯抢走了……竟然,是腾讯!仔细看看倒也觉得不出奇了,腾讯出了个自称是 QZHTTP 的 Web Server,然后把旗下 QZone 的网站都给换上了 QZHTTP。NetCraft 的统计是按照域名算的,而 QZone 是无数子域名的泛解析,我不知道是不是每个 QQ 用户都会自动拥有 QZone 的子域名,反正这一下子就是来了2千万个域名,nginx 说是发展很快,出道这几年也才有3百万个站点……

于是大家的好奇心也就不在这“为啥有这么多站点”上面,而是,QZHTTP 到底是个什么东西?略加搜索,在某外国友人的博客找到此文

外国人也是关心 QZHTTP 的,不过他们会比我们多想一点,就是,怎么是“中国人”做了个牛逼服务器出来?于是激烈的讨论也就展开了。所谓激烈,自然是有各种观点,基本分了这么几类:

  • 技术派:QZHTTP 不知道用了啥技术,也许就是换了名字的 Apache?IIS都有可能啊。拿各种软件测一下,好像是 thttpd?不过在没有可靠信息的情况下,也不能乱说。我宁愿知道更多有关的信息啊。
  • 中国人爱山寨派:QZHTTP,呸!明显是山寨的 Apache 啊,中国人 Windows 用盗版的,迪士尼乐园有山寨的,Web Server 肯定也是假的!
  • 国货当自强派:我就是腾讯的!QZHTTP 就是我们自己写的,和 Apache 什么开源软件,通通没有关系!
  • “中国人都不行”之无逻辑派:中国人能写 Web Server?那牛奶里怎么会有三聚氰胺的?
  • “楼上某些人法盲”派:你们想什么啊,抄就抄呗,开源的 License 只规定,改了之后如果发布出去,才需要公开代码。人家只是改了自己用,给别人提供服务,那就不用公开源代码啊。那明明是合法的嘛。法盲们,回家好好看看那些 License 吧~
  • “对对!中国人都不行”之反语派:是啊是啊,中国人都不行,完全不懂创新,只会抄袭。什么指南针、印刷术、火药、造纸术,通通都是抄的。开源软件的协议里都写了嘛,本软件的代码大家随便看,随便改,就是中国人不行~

对于 QZHTTP 和相关讨论,我的观点和认识是:

  • QZHTTP 应该不是简单的 Apache 换了名字。我想腾讯没有必要这么做,因为 qq.com 还是用的 Apache,而用 Apache 不是什么丢人的事,除非腾讯玩非主流~
  • 自称来自腾讯的某人说法太过绝对了一点。has nothing to do with 说的轻松,我不否认腾讯有能力写一个自己的 Web Server,但是我觉得一个程序员在开始写 Web Server  之前没有好好研究过 Apache 或者其他优秀的开源项目就动手,是难以令人置信的。
  • 中国人的不注意知识产权以及食品安全问题,早已伤害了各国人民的感情,也许脆弱的不仅仅是我们,但最后受伤的还是我们。
  • 老祖宗创造四大发明的那个时代已经远去,要证明中国人除了山寨还是会创新,或者山寨也是另一种创新,这都得靠我们自己。

火炬在哪里?

请注意,这是一篇话题营销广告。feedsky
还记得年初闹雪灾那会儿,谷歌曾经推出过全国雪灾地图,实时报道全国各地天气情况和交通状况,在地图上进行图片文字的标记,个人以为非常有用。不过这东西似乎知道的人也不多,所以当时用上的人恐怕有限。这次奥运火炬接力,谷歌又来了~
Continue reading

Google也不是那么可怕

今天去“和Goolge面对面”了……

貌似是北京派来了5个人。两个专门招人的,大学专员。 三个工程师,都是香港人,从Mountain View回中国,现在在北京工作。

做Presentation的是某个工程师,讲得一般,或者说,presen技巧一般,当然考虑到是搞工程的就无所谓了。

基本也没听到什么特别的东西,也许是因为关于Google,一直以来都听到的很多了。

倒是期待那个written test来测一下,看看Google的考题究竟有多么可怕。也就是为了看看,所以就是没有压力啦,坐得那么前,身后一堆tutor……Master Ph.D又如何,他们不还是要闷着头写……哈哈

其实拿到题目之后就发现不难,觉得根本不是Google级别的,竟然还考真值表这种东西……而第二题算是数据结构吧,也忒简单了点……不过也还是感觉到考察范围相当宽泛,有一题正则,又有一题TCP/IP,还有一题OS的,这些都是选择,不会还能蒙。反面一道大题,写代码,语言不限……算是图论吧,判断某有向图是不是有向树,就胡乱瞎写了个递归逃走了……

不觉的做对了多少,但是今天的经历还是很有用。

首先,就是这几个学期学的科很有用,得到了证明。 2100 331 315之类都是要用到的,而316没有上是不是也真的要考虑上一下……

然后,就是我的“广泛”兴趣还是有些用处,比如正则就完全是兴趣出来的东西,今天一同去的很多人都不知道那是什么吧。

再然后,考虑是不是要努力补一下python。最近发现,学ruby的话,用的地方真的不是很多。而要求会script的地方又很多,列出来的也常常就是perl python或者shell script。自我感觉最有用的还是python啊,嗯放到未来一年的计划内吧……

嗯,就是以上。Google也不是那么可怕,明年来的话,再去吧……

油条帮你好 油条帮再见

油条帮……俄,不知道么?那么还是说油突毙吧。

这里有关于它的两条消息,一条好消息,一条坏消息,你要先听哪条?

俄……不玩了

好消息,听说昨天油条帮的香港站上线了,繁体中文版哦。 大家一起鼓掌哈……

坏消息,听说昨天开始油条帮被GFW了,……,大家一起撞墙哈……

从此以后油条帮.com大名说不得,keyword filter啊,连接重置,很爽的。

嗯,就写这么几行纪念一下,顺祝,谷歌在中国大陆走得更远……