twitter-archive-parser - Twitterアーカイブを解析し、さまざまな方法で出力するためのPythonコード

(Python code to parse a Twitter archive and output in various ways)

Created at: 2022-11-10 06:44:20
Language: Python
License: GPL-3.0

どうやって使うの?

  1. Twitterアーカイブをダウンロードします(設定>アカウント>データのアーカイブをダウンロードします)。
  2. フォルダに解凍します。
  3. このリンク -- >parser.py< - を右クリックし、[名前を付けてリンクを保存] を選択し、アーカイブを展開したフォルダーに保存します。(または、そのリンクでwgetまたはcurlを使用します。または、git リポジトリを複製します)。
  4. Python 3 で parser.py を実行します。たとえば、そのフォルダで開かれたコマンドプロンプトから。
    python parser.py

問題が発生している場合は、問題リストをチェックして以前に発生したかどうかを確認し、それ以外の場合は新しい問題を開いてください。

それは何をするためのものですか?

Twitterアーカイブは、大量のデータとHTMLファイルを提供します()。そのファイルを開いて見てください!それはあなたが素敵なインターフェースであなたのツイートを見ることを可能にします。いくつかの欠陥がありますが、必要なのはそれだけかもしれません。もしそうなら、ここでやめてください、あなたは私たちのスクリプトを必要としません。

Your archive.html

ツイッターアーカイブの欠陥:

  • 画像付きで投稿したツイートが表示されますが、画像の1つをクリックして展開すると、TwitterのWebサイトに移動します。オフラインの場合、アカウントを削除した場合、または twitter.com ダウンしている場合、それは機能しません。
  • ツイートは複雑なJSON構造で保存されるため、たとえばブログにコピーすることはできません。
  • 彼らがあなたに与える画像はあなたがアップロードしたものよりも小さいです。なぜ彼らが私たちにこれをするのかわかりません。
  • DMは含まれていますが、DMが誰であるかは示されていません-ユーザーハンドルの多くはアーカイブに含まれていません。
  • リンクはすべて t.co を使用して短い形式で難読化され、発信元を隠し、トラフィックをTwitterにリダイレクトして分析を提供します。また、t.co が下がると動作を停止します。

このスクリプトは次のことを行います。

  • ツイートをマークダウンとHTMLに変換し、画像、ビデオ、リンクを埋め込みます。
  • t.co URL を元のバージョン (アーカイブにあるもの) に置き換えます。
  • 使用済みの画像を出力フォルダーにコピーして、新しい家に移動できるようにします。
  • 不足しているユーザーハンドルをTwitterに照会します(最初に確認します)。
  • 取得したハンドルを含め、DM をマークダウンに変換します。今のところ基本機能(埋め込み画像なし)、改善待ちです。
  • フォロワーとフォロー者のリストを出力します。
  • 元のサイズの画像をダウンロードします(最初に確認してください)。

上級ユーザー向け:

一部の機能には、とモジュールpipを使用してこれらをインストールすることを提案します。これを回避するには、スクリプトを実行する前にインストールできます。

requests
imagesize
parser.py

Twitterアーカイブの取り扱いに関する記事:

関連ツール:

私たちのスクリプトがあなたが望むことをしないなら、多分別のツールが助けになるでしょう: