世界的に知られているように、中国政府は インターネット上の厳格な検閲 。一般に中国のグレートファイアウォールとして知られている中国の検閲システムは、公安省によって運営されており、正式には 金盾プロジェクト 。このシステムは2003年から運用されています。
通常、次のような政治的に機密性の高いコンテンツを含む国際ニュースサイト ニューヨーク・タイムズ 、または検閲規則に準拠していないソーシャルメディアサイトなど フェイスブック そして ツイッター 、通常はブロックされており、中国のユーザーは利用できません。これは、 さまざまな洗練された方法 。
中国のニュースやソーシャルメディアサイトの場合、事実上すべてが政府の監視下にあります。運営を許可するために、中国のISPやインターネットコンテンツプロバイダーは通常、 独自のコンテンツフィルタリングメカニズム ユーザーが公開したコンテンツをブロックまたは削除したり、政府のポリシーで違法と見なされた場合はユーザーのアカウントを直接削除したりするため。これらの企業は、サーバー上に独自の検閲ソフトウェアを持っているだけでなく、自動検閲ソフトウェアでは管理できない検閲タスクを手動で処理するための特別なチームや部門も持っています。これらのチームは、公安部の地方部門と協力して、新しい命令と方針を受け取り、通常は互いに協力しています。
私たちの国内のために Web開発者 、中国のインターネットの検閲は、言論の自由を排除するだけでなく、世界中からの貴重な専門家のリソースも排除します。私の日常業務では、Gmail、Dropbox、および他の多くの重要なサイトを使用するためにVPN経由で接続するためにインターネット検閲をバイパスする必要があります。 Googleの後に中国でGoogleのサービスが不安定になったり、アクセスできなくなったりした2010年がいかに厄介だったかを今でも覚えています。 検閲規則の遵守を継続することを拒否した 。これは他の国の開発者にとっては信じられないことです。
新浪微博 中国で最大のマイクロブログソーシャルネットワークサイトです。 Twitterは中国の規則に準拠していないため、WeiboはユーザーをめぐってTwitterと競合する必要はありません。ニュースは、中国の他のどのメディアよりも迅速かつ直接的にWeiboに広まります。私のような若い世代のメンバーは、ニュースを共有したり、公開イベントについて話し合ったりするためにそれを使用するのが好きです。しかしもちろん、中国のインターネット検閲の下では、多くのホットな投稿や興味深い投稿は、投稿された直後に削除されます。政治および公開イベントの投稿は削除される可能性が最も高く、娯楽ニュースは削除される可能性が最も低くなります。 A 2013年の研究 コンピューター科学者のJedCrandallとDanWallachは、中国のマイクロブログの約12%が毎日削除されていることを発見しました。
のような政治的に敏感な日に 6月4日 、削除される検閲されたマイクロブログの投稿の数が増えると予想されます。最近では、ユーザーは通常、マイクロブログを書き込もうとしたときに特定のデリケートな単語を入力することさえできません。
投稿が検閲されるとどのようになりますか?サイトで新しいマイクロブログを更新すると、次のようなものが表示されることがよくあります。
これはリツイートに相当し、通常、元のメッセージは灰色のボックスに表示されます。ボックスに「申し訳ありません。マイクロブログは削除されました。元の投稿は、2013年の11歳の娘の誘拐、レイプ、強制売春に対する母親による正義の嘆願でした。
2013年は、マイクロブログプラットフォームを通じて多くの政治スキャンダルが明らかになった年です。この間、新浪微博の人気は急上昇しました。それに応じて、政府は神経質になり、ソーシャルメディアプラットフォームでの検閲を強化し始めました。
マイクロブログの前は、政治に興味を持っていた私のような若者は、通常、プロキシサーバーまたはトンネリングサービスを使用して、国際的なWebサイトからの機密ニュースを探し出す必要がありました。突然、比較的オープンな中国のソーシャルネットワークプラットフォームができました。しかし、政府はすぐに介入し、それはほんの一瞬であることが判明しました。これは本当に私を激怒させました。私は友達と話をしましたが、私たちは皆、プラットフォームでの検閲の強化に腹を立てていました。私の友達は、「なぜこれについて何もできないのですか?」と尋ねるでしょう。やってみることにしました。そこで私は、インターネット検閲を迂回して、SinaWeiboから正確にブロックまたは削除されているものを確認するためのWebサイトを構築しました。
基本的に、ブロックまたは削除された中国のマイクロブログを常にスキャンして新しいWebサイトに表示するサーバーをセットアップする必要がありました。のような国内のクラウドサービスを利用する予定でした Aliyun 、しかし、ドメインリダイレクトなど、プラットフォームには多くの制約があり、その価格は他のクラウドサービスよりも安くはないことがわかりました。もちろん、私の追加の懸念は、サーバーを国内に展開した場合、サーバー自体が監視下に置かれることでした。だから私はサーバーを購入することになった Linode 、および日本にサーバーを配置しました。ドメインも購入しました freeweibo.me 新浪微博の検閲を迂回し始める。
次のグラフは、システムの全体的なアーキテクチャを示しています:MongoDB、Webサーバー、およびクローラー。私は開発環境にNode.jsを選択しました。これは、ネットワークアプリケーションに対してより効率的でスケーラブルであり、個人的にはより多くの経験があるためです。 Webサーバーは、Express.jsフレームワークを使用して開発され、 Weibo API データをキャプチャします。当初、クローラーは別個のプロセスとして設計されていましたが、後で、Webサーバープロセスのモジュールとしてバンドルするだけで初期段階に十分であることがわかりました。
マイクロブログのコンテンツには、2つの主要な関心部分があります。 1つは、テキストデータとそれに関連する属性です。もう1つは、投稿に関連する画像です。投稿を保存するには、画像をダウンロードしてファイルとしてディスクに保存します。ブロックまたは削除されたブログの場合、これらの画像は非常に重要です。中国では、テキストコンテンツの投稿に画像を使用することが非常に一般的で人気があります。これは、インターネット企業のサーバーでテキストベースの自動フィルタリングと検閲を行うと、このコンテンツをキャッチするのがはるかに難しいためです。
ブロックまたは削除された投稿を検出する基本的な考え方は、既知のユーザーリストから新しい投稿を常にスキャンし、後で投稿の可用性を再確認することです。マイクロブログは、数分または数日以内に削除またはブロックされる可能性があります。したがって、クローラーは、新しく投稿されたコンテンツをフェッチするフェッチタスクと、以前に投稿されたコンテンツが検閲されているかどうかをチェックするチェックタスクの2つの主要なタスクで構成されます。
最初に、Weiboのトップ100の有名なユーザーからマイクロブログをクロールするようにクローラーを構成しました。しかし、削除されたブログは毎日ほとんど検出されていないことが判明しました。その理由は、トップユーザーのほとんどが政治的または公的に機密性の高いトピックに関心がないためです。これらの種類のマイクロブログを投稿または転送することはありません。例えば、 このブロガー フォロワー数が1,000万人を超える女優は、最も人気のあるユーザーの1人ですが、機密性の高いブログを投稿することはありません。
いくつかの実験と思考の後で、私は一貫して検閲されるユーザーを適応的に見つけるテクニックを思いつきました。ソーシャルメディアネットワークはトピックが相互に関連しており、ユーザーは興味によってグループに集まる傾向があります。ユーザーが公的または政治的なトピックに関心を持っている場合、他の同様のユーザーのブログを投稿または転送する可能性が高くなります。これらの転送された投稿は、スキャンする新しいユーザーを識別するための良い方法を提供します。
たとえば、ユーザーAがすでにデータベースに存在し、クローラーがユーザーAによって再投稿された1つのブログが削除されたことを検出したとします。ブログの元の作成者であるユーザーBがデータベースにない場合、クローラーはユーザーBを保存します。次回、クローラーが新しいブログを再スキャンすると、ユーザーBからの新しいブログもスキャンします。スキャン可能なユーザーは、この種の社会的関心のつながりを利用することで自動的に成長します。
この方法論を利用するようにクローラーアルゴリズムを調整した後、機密性の高いブログの投稿に強い関心を持ついくつかの主要ユーザーをシードするだけで、クローラーはスキャンする新しいユーザーを自動的に検出しました。検出された毎日の検閲されたブログの総数は、日ごとに着実に増加しました。以下は、私のメールボックスにアーカイブされた削除済みブログのスナップショットです。
中国のマイクロブログバイパスシステムのコーディングとデバッグを2週間行った後、サイトを freeweibo.me 。ただし、数週間実行した後、サーバーは新しいブログを検出しなくなりました。調査の結果、2つの問題が見つかりました。 1つは、Weiboプラットフォームが元のAPIインターフェースを変更したことです。もう1つは、データベース内のブログとユーザーの増加により、クローラーのAPIリクエストがレート制限(1分あたり1000)を超えていたことです。そこで、新しいインターフェイスを採用し、1分あたりのAPIリクエスト数を減らすようにコードを調整しました。それ以降、クローラーは安定していました。
多くの人にサイトを知らせるかどうかというジレンマに直面しました。サイトを訪れる人が多ければ多いほど、政府によってすぐに盗聴されてブロックされることを私は知っていました。だから私はサイトを共有しただけです 私の何人かの友達は 。当初、1日あたりの訪問数は約10〜20回でした。しかし、1か月後、ある日には訪問数が80以上に達し、数十の電子メールサブスクライバーがいました。
そして、予想通り、中国で自分のサイトがブロックされていることに気付いた朝が来ました。それは約3ヶ月続きました。その後サイトにアクセスするには、ユーザーはVPNトンネリングサービスを使用してサイトにアクセスする必要がありました。これは、ほとんどの中国のインターネットユーザーにとって実用的ではありません。
しかし、その同じ日、私は安心し、別のサイトを見つけてうれしく思いました。 freeweibo.com は、まったく同じサービスを提供しており、私が構築したものよりも洗練されています。 freeweibo.comプロジェクトは非常に機知に富んでいます。ソーシャルメディアでアクティブになっており、RSSフィード、電子メールサブスクリプション、国内ユーザー向けのミラーサイトなど、コンテンツにアクセスするためのさまざまな手段を提供します。モバイルアプリもあります!誰がサイトを作成したかはわかりませんが、同じビジョンを共有できてうれしいです。
心理学における閉鎖の例
状況からすると、自分のサイトが役に立たなくなったのは明らかで、数ヶ月後に閉鎖しました。
結果にもかかわらず、私はプロジェクトが無駄だったとは感じていません。それどころか、数か月しか生き残れなかったにもかかわらず、それは素晴らしい経験でした。それは私の国の現実を深く理解するのに役立ちました。
中国では、インターネットビジネスを運営するには、検閲に非常に注意する必要があります。そうしないと、遅かれ早かれトラブルに巻き込まれます。ソーシャルメディアサイトが厳格な検閲に従わず、ユーザーのプライバシーを侵害しなければ、成功する方法はほとんどありません。
ザ・ freeweibo.me ソースコードがGitHubで利用できるようになりました ここに 。上記のように、このソースコードは同様のウェブサイトに関連していません freeweibo.com 。