维基百科的“ 历史页面 “

如要要分析处理维基百科某一个页面的历史记录,最好的方式就是通过“历史页面”来寻找不同版本直接的区别。这里介绍了HTML格式下面,这些信息的存储格式,以便自动筛选信息。

如要要分析处理维基百科某一个页面的历史记录,最好的方式就是通过“ 历史页面 ”来寻找不同版本直接的区别。这里介绍了HTML格式下面,这些信息的存储格式,以便自动筛选信息。
维基百科为每一个页面提供了一个动态的历史界面,以记录每次的修改。这个页面由一个列表构成,表中的每一条都是一次修改记录,如下: 
GetImage

每条记录由修改日期、修改人、修改内容大小、是否是微小修改、修改备注构成,当然每条修改记录有相对应的文章正文,只是这个正文需要点击链接进入另外一个页面找到(这个和DUMP中的数据不一样,查看《文章页面及历史版本》)。

这个页面由于是一个动态页面,因此无法从DUMP文件中找出,只能通过HTML格式的方式将页面保存下来。因为是HTML的格式,所以页面的源代码包括了大量的格式化的代码,而要取得所需信息,就需要定位所信息的位置,之后,通过分析代码的结构即可取得所需信息。

在HTML页面中,历史记录的位置在”id”为”pagehistory”的<ul>标签之间,每条记录以<li>的代码形式被保存着,如下

<ul id="pagehistory">
<li>...</li>
<li>...</li>
<li>...</li>
</ul>

每条<li>的记录格式的内容结构如下:

&lt;ul&gt;
&lt;li&gt;
&lt;span&gt;(&lt;a
href="https://fr.wikipedia.org/w/index.php?title=Histoire_de_la_logique&amp;amp;diff=100272207&amp;amp;oldid=97547514"
title="Histoire de la logique"&gt;actu&lt;/a&gt; | &lt;a
href="https://fr.wikipedia.org/w/index.php?title=Histoire_de_la_logique&amp;amp;diff=97547514&amp;amp;oldid=97547510"
title="Histoire de la logique"&gt;diff&lt;/a&gt;)&lt;/span&gt;
&lt;input type="radio" value="97547514" name="oldid" id="mw-oldid-97547514" style="visibility: visible;" /&gt;
&lt;input type="radio" value="97547514" name="diff" id="mw-diff-97547514" style="visibility: hidden;" /&gt;
&lt;a href="https://fr.wikipedia.org/w/index.php?title=Histoire_de_la_logique&amp;amp;oldid=97547514"
title="Histoire de la logique"&gt;17 octobre 2013 à 15:25&lt;/a&gt;‎
&lt;span&gt;
&lt;a href="https://fr.wikipedia.org/wiki/Utilisateur:Salebot"
title="Utilisateur:Salebot"&gt;Salebot&lt;/a&gt;
&lt;span&gt;(&lt;a
href="https://fr.wikipedia.org/wiki/Discussion_utilisateur:Salebot"
title="Discussion utilisateur:Salebot"&gt;discuter&lt;/a&gt; | &lt;a
href="https://fr.wikipedia.org/wiki/Sp%C3%A9cial:Contributions/Salebot"
title="Spécial:Contributions/Salebot"&gt;contributions&lt;/a&gt;)&lt;/span&gt;
&lt;/span&gt;‎
&lt;span&gt;. .&lt;/span&gt;
&lt;span&gt;(23&amp;nbsp;130 octets)&lt;/span&gt;
&lt;span dir="ltr" title="23&amp;nbsp;130 octets après changement"
>(-76)&lt;/span&gt;
&lt;span&gt;. .&lt;/span&gt;
&lt;span&gt;(bot : révocation de &lt;a
href="https://fr.wikipedia.org/wiki/Sp%C3%A9cial:Contributions/193.253.229.112"
title="Spécial:Contributions/193.253.229.112"&gt;193.253.229.112&lt;/a&gt;
(modification suspecte : -399), retour à la version 97088153 de Proz)&lt;/span&gt;
(&lt;span&gt;&lt;a
href="https://fr.wikipedia.org/w/index.php?title=Histoire_de_la_logique&amp;amp;action=edit&amp;amp;undoafter=97547510&amp;amp;undo=97547514"
title="Histoire de la logique"&gt;annuler&lt;/a&gt;&lt;/span&gt;)
&lt;/li&gt;
&lt;/ul&gt;

通过这个结构,我们可以找出一下内容:

  1. 版本(revision) 的ID(这个ID在整个维基百科中是唯一的):https://fr.wikipedia.org/w/index.php?title=Histoire_de_la_logique&amp;oldid=97547514
  2. 版本时间:17 octobre 2013 à 15:25
  3. 这个版本的用户链接:https://fr.wikipedia.org/wiki/Utilisateur:Salebot
  4. 用户名:Salebot
  5. 文章内容大小:23 130 octets
  6. 修改内容大小:-76
  7. 文章编辑的记录:(bot : révocation de 193.253.229.112 (modification suspecte : -399), retour à la version 97088153 de Proz)
  8. 另外,微小编辑属于附加属性,在源代码中按以下方式保存:
    <abbr title=”Cette modification est mineure.”>m</abbr>