讀古今文學網 > 那些古怪又讓人憂心的問題 > 論Twitter的無窮性 TWITTER >

論Twitter的無窮性 TWITTER

Q.世界上有多少獨一無二的英語推文(Twitter狀態)?如果全世界人民把它們都讀出來要花多少時間?

——埃裡克·H


在遙遠的北方有一個叫斯維斯約德(Svithjod)的地方,那裡有一塊大石頭,它有100英里長,100英里高。每一千年都有一隻小鳥來到這塊巨石前,用石頭磨礪自己的喙。當石頭就這樣被磨掉之後,永恆終才過了一天。

——亨德裡克·W.房龍

A.推文只能有140個字符。而英語中有26個字母——如果你把空格也算進去的話是27個。如果利用這些字母,那麼就有27140≒10200種可能的字符串。

但是在推文中你不止可以使用這些字符,所有的Unicode字符你都可以使用,而這加起來有超過100萬個不同的字符。Twitter裡Unicode字符算多少字的算法很複雜,但可能的字符串個數仍然高達10800種。

當然了,這些字符串中大多數都是毫無意義的多語種混搭,即使你把可使用的字符限定在26個英語字母中,也是充斥著像「ptikobj」這樣無意義的詞。但埃裡克提的問題是用英語表達一些有意義的內容,那麼有多少種可能性呢?

這個問題有點棘手。你的第一直覺大概是只允許使用英語裡有的詞。接下來你可能想把範圍限制在合乎語法的句子裡。

但這裡有陷阱。比如說,如果你的名字正好是Mxyztplk的話,「Hi,I\'m Mxyztplk」這句話在語法上就沒問題。(說起來,就算你撒謊了,你的名字不是這個,這句話在語法上依然成立呀。)所以一個顯然的問題就是,你不能把所有以「Hi,I\'m…」開頭的字符串當作一個獨立的句子。對於一個普通的說英語的人來說,「Hi,I\'m Mxyztplk」和「Hi,I\'m Mxzkqklt」簡直沒有任何區別,因而它們不能被重複計數。但是「Hi,I\'m xPoKeFaNx」這句話與之前那兩句話是一眼就能看出不同的,哪怕「xPoKeFaNx」也無論如何不可能是一個英語單詞。

所以我們用來衡量差異性的辦法不管用了。所幸還有更好的辦法。

假設存在一種語言,它只有兩個可用的句子,並且每條推文必須是這兩個句子中的一句。這兩個句子分別是:

·「5號通道有一匹馬。」

·「我的屋子裡都是陷阱。」

那麼Twitter上看起來會是這個樣子的:

這些消息看上去很長,但其中每一條的信息量只有一點——你所得知的只是某人選擇發那條關於馬的消息還是關於房子的消息。這本質上就是要麼1要麼0。雖然字母有許多,但對於一個看懂了語言模式的讀者來說,這個語言的每一句話只含有1比特的信息。

這個例子蘊含了一個十分深刻的思想,那就是:信息,是與接收者對於信息內容的不確定性以及他們提前預測的能力息息相關的。1

克勞德·香農——他幾乎是以一己之力發明了現代信息理論——對於衡量一種語言的信息量有一個十分巧妙的方法。他給一組一組的受試者看普通的英語句子,只不過這些句子被隨機在一個地方切斷,然後他要求受試者猜出下一個出現的字母是什麼。

它威脅用信息把我們村子淹沒!

根據猜對的頻率——以及嚴謹的數學分析——香農發現普通的寫下來的英語句子的信息量是每個字母1~1.2比特。這意味著一個好的壓縮算法能夠把ASCII格式的英語文本——這種文本每一個字符占8比特——壓縮到原來大小的八分之一。事實上,如果你用一款不錯的壓縮軟件壓縮一本txt電子書,你會發現結果基本上就是如此。

如果一段文本包含了n比特的信息,那麼某種意義上來說這意味著它可以傳達2n種不同的信息。這裡用到了一些數學技巧(譬如,信息的長度以及「唯一解距離」這個概念),但我們至少可以知道所有有意義的推文的數量級在2(140×1.1)≒2×1046附近,而非之前所說的10200或10800。

那麼全世界的人把這些都讀出來要花多長時間呢?

朗讀2×1046條推文大概需要一個人1047秒的時間,因而朗讀完所有推文所需的時間大得驚人,以至於你可以不用糾結是讓一個人去讀還是讓十億人去讀——因為不管是前者還是後者,在地球的有生之年裡都不可能讀完。

所以還是讓我們回到那個鳥兒在石頭上磨喙的故事吧。假設這隻鳥每一千年都會磨掉一小片石頭,在它離去的時候會把磨下來的這點兒塵埃顆粒帶走。(一隻正常的鳥兒磨掉的喙的量恐怕要比它能帶走的石頭量要多的,不過在現在這種情形下沒有什麼東西能用正常的思維來衡量,所以就先不管它,接著往下看吧。)

我們不妨假設你每天有16小時在大聲朗讀推文,而在你身後每一千年都有一隻小鳥前來磨掉100英里長的山的微不足道的一小塊塵埃。

當最終山被磨平時,永恆才剛過了第一天。

然後這座山又再次出現,然後這個循環繼續進行,然後過了永恆的第二天。如此往復365個永恆日——每一個都有1032年這麼長——然後一個永恆年才過去。

那隻小鳥在100個永恆年裡磨掉了36500座山,然後一個永恆世紀過去了。

但一個世紀還不夠呢,一個千年還是不夠。

讀完所有的推文要花掉你一萬個永恆年。

這段時間足夠你旁觀一遍從書寫的發明一直到現在的人類的全史了,並且那隻小鳥每磨掉一座山,你這裡才剛過了一天。

140個字符看起來不是很多,不過我們是永遠不會無話可說的。

————————————————————

1.同時也隱約地暗示出五號通道有一匹馬。