Add comments and POD.
[usenet/newsstats.git] / groupstats.pl
index b1e31e9..fcacc30 100755 (executable)
@@ -23,10 +23,6 @@ use NewsStats qw(:DEFAULT :TimePeriods :Output :SQLHelper);
 \r
 use DBI;\r
 \r
-################################# Definitions ##################################\r
-\r
-# ...\r
-\r
 ################################# Main program #################################\r
 \r
 ### read commandline options\r
@@ -75,13 +71,9 @@ if ($Options{'l'}) {
   warn ("$MySelf: W: Output type forced to '-o pretty' due to usage of '-l'.\n");\r
 };\r
 \r
-### get query type, default to 'postings'\r
-#die "$MySelf: E: Unknown query type -q $Options{'q'}!\n" if ($Options{'q'} and !exists($LegalTypes{$Options{'q'}}));\r
-#die "$MySelf: E: You must submit a threshold ('-t') for query type '-q $Options{'q'}'!\n" if ($Options{'q'} and !$Options{'t'});\r
-\r
 ### get time period\r
 my ($StartMonth,$EndMonth) = &GetTimePeriod($Options{'m'},$Options{'p'});\r
-# reset to one month for 'dump' type\r
+# reset to one month for 'dump' output type\r
 if ($Options{'o'} eq 'dump' and $Options{'p'}) {\r
   $StartMonth = $EndMonth;\r
   warn ("$MySelf: W: You cannot combine time periods (-p) with '-o dump'. Month was set to $StartMonth.\n");\r
@@ -90,80 +82,110 @@ if ($Options{'o'} eq 'dump' and $Options{'p'}) {
 ### init database\r
 my $DBHandle = InitDB(\%Conf,1);\r
 \r
-### get data\r
+### create report\r
 # get list of newsgroups (-n)\r
 my ($QueryPart,@GroupList);\r
 my $Newsgroups = $Options{'n'};\r
 if ($Newsgroups) {\r
+  # explode list of newsgroups for WHERE clause\r
   ($QueryPart,@GroupList) = &SQLGroupList($Newsgroups);\r
 } else {\r
+  # set to dummy value (always true)\r
   $QueryPart = 1;\r
 };\r
 \r
 # manage thresholds\r
 if (defined($Options{'t'})) {\r
   if ($Options{'i'}) {\r
+    # -i: list groups below threshold\r
     $QueryPart .= ' AND postings < ?';\r
   } else {\r
+    # default: list groups above threshold\r
     $QueryPart .= ' AND postings > ?';\r
   };\r
+  # push threshold to GroupList to match number of binding vars for DBQuery->execute\r
   push @GroupList,$Options{'t'};\r
 }\r
 \r
 # construct WHERE clause\r
+# $QueryPart is "list of newsgroup" (or 1),\r
+# &SQLHierarchies() takes care of the exclusion of hierarchy levels (.ALL)\r
+# according to setting of -s\r
 my $WhereClause = sprintf('month BETWEEN ? AND ? AND %s %s',$QueryPart,&SQLHierarchies($Options{'s'}));\r
 \r
 # get lenght of longest newsgroup delivered by query for formatting purposes\r
+# FIXME\r
 my $MaxLength = &GetMaxLenght($DBHandle,$Conf{'DBTableGrps'},'newsgroup',$WhereClause,$StartMonth,$EndMonth,@GroupList);\r
 \r
 my ($OrderClause,$DBQuery);\r
-# -b (best of) defined?\r
+# -b (best of / top list) defined?\r
 if (!defined($Options{'b'}) and !defined($Options{'l'})) {\r
+  # default: neither -b nor -l\r
+  # set ordering (ORDER BY) to "newsgroups" or "postings", "ASC" or "DESC"\r
+  # according to -q and -d\r
   $OrderClause = 'newsgroup';\r
   $OrderClause = 'postings' if $Options{'q'};\r
   $OrderClause .= ' DESC' if $Options{'d'};\r
-  # do query: get number of postings per group from groups table for given months and newsgroups\r
+  # prepare query: get number of postings per group from groups table for given months and newsgroups\r
   $DBQuery = $DBHandle->prepare(sprintf("SELECT month,newsgroup,postings FROM %s.%s WHERE %s ORDER BY month,%s",$Conf{'DBDatabase'},$Conf{'DBTableGrps'},$WhereClause,$OrderClause));\r
 } elsif ($Options{'b'}) {\r
+  # -b is set (then -l can't be!)\r
   # set sorting order (-i)\r
   if ($Options{'i'}) {\r
     $OrderClause = 'postings';\r
   } else {\r
     $OrderClause = 'postings DESC';\r
   };\r
-  # push LIMIT to GroupList to match number of binding vars\r
+  # push LIMIT to GroupList to match number of binding vars for DBQuery->execute\r
   push @GroupList,$Options{'b'};\r
-  # do query: get sum of postings per group from groups table for given months and newsgroups with LIMIT\r
+  # prepare query: get sum of postings per group from groups table for given months and newsgroups with LIMIT\r
   $DBQuery = $DBHandle->prepare(sprintf("SELECT newsgroup,SUM(postings) AS postings FROM %s.%s WHERE %s GROUP BY newsgroup ORDER BY %s,newsgroup LIMIT ?",$Conf{'DBDatabase'},$Conf{'DBTableGrps'},$WhereClause,$OrderClause));\r
-} else { # -l\r
+} else {\r
+  # -l must be set now, as all other cases have been taken care of\r
   # set sorting order (-i)\r
   if ($Options{'i'}) {\r
     $OrderClause = '<';\r
   } else {\r
     $OrderClause = '>';\r
   };\r
-  # push level and $StartMonth,$EndMonth - again - to GroupList to match number of binding vars\r
+  # push level and $StartMonth,$EndMonth - again - to GroupList to match number of binding vars for DBQuery->execute\r
+  # FIXME -- together with the query (see below)\r
   push @GroupList,$Options{'l'};\r
   push @GroupList,$StartMonth,$EndMonth;\r
-  # do query: get number of postings per group from groups table for given months and \r
+  # prepare query: get number of postings per group from groups table for given months and \r
+  # FIXME -- this query is ... in dire need of impromevent\r
   $DBQuery = $DBHandle->prepare(sprintf("SELECT month,newsgroup,postings FROM %s.%s WHERE newsgroup IN (SELECT newsgroup FROM %s.%s WHERE %s GROUP BY newsgroup HAVING MAX(postings) %s ?) AND %s ORDER BY newsgroup,month",$Conf{'DBDatabase'},$Conf{'DBTableGrps'},$Conf{'DBDatabase'},$Conf{'DBTableGrps'},$WhereClause,$OrderClause,$WhereClause));\r
 };\r
 \r
 # execute query\r
-$DBQuery->execute($StartMonth,$EndMonth,@GroupList) or die sprintf("$MySelf: E: Can't get groups data for %s to %s from %s.%s: %s\n",$StartMonth,$EndMonth,$Conf{'DBDatabase'},$Conf{'DBTableGrps'},$DBI::errstr);\r
+$DBQuery->execute($StartMonth,$EndMonth,@GroupList)\r
+  or die sprintf("$MySelf: E: Can't get groups data for %s to %s from %s.%s: %s\n",$StartMonth,$EndMonth,$Conf{'DBDatabase'},$Conf{'DBTableGrps'},$DBI::errstr);\r
 \r
-# output result\r
+# output results\r
+# print caption (-c) with time period if -m or -p is set\r
+# FIXME - month or period should handled differently\r
 printf ("----- Report from %s to %s\n",$StartMonth,$EndMonth) if $Options{'c'} and ($Options{'m'} or $Options{'p'});\r
+# print caption (-c) with newsgroup list if -n is set\r
 printf ("----- Newsgroups: %s\n",join(',',split(/:/,$Newsgroups))) if $Options{'c'} and $Options{'n'};\r
+# print caption (-c) with threshold if -t is set, taking -i in account\r
 printf ("----- Threshold: %s %u\n",$Options{'i'} ? '<' : '>',$Options{'t'}) if $Options{'c'} and $Options{'t'};\r
 if (!defined($Options{'b'})  and !defined($Options{'l'})) {\r
-   &OutputData($Options{'o'},$DBQuery,$MaxLength);\r
+  # default: neither -b nor -l\r
+  &OutputData($Options{'o'},$DBQuery,$MaxLength);\r
 } elsif ($Options{'b'}) {\r
-   while (my ($Newsgroup,$Postings) = $DBQuery->fetchrow_array) {\r
+  # -b is set (then -l can't be!)\r
+  # we have to read in the query results ourselves, as they do not have standard layout\r
+  while (my ($Newsgroup,$Postings) = $DBQuery->fetchrow_array) {\r
+    # we just assign "top x" or "bottom x" instead of a month for the caption\r
+    # FIXME\r
     print &FormatOutput($Options{'o'}, ($Options{'i'} ? 'Bottom ' : 'Top ').$Options{'b'}, $Newsgroup, $Postings, $MaxLength);\r
   };\r
-} else { # -l\r
-   while (my ($Month,$Newsgroup,$Postings) = $DBQuery->fetchrow_array) {\r
+} else {\r
+  # -l must be set now, as all other cases have been taken care of\r
+  # we have to read in the query results ourselves, as they do not have standard layout\r
+  while (my ($Month,$Newsgroup,$Postings) = $DBQuery->fetchrow_array) {\r
+    # we just switch $Newsgroups and $Month for output generation\r
+    # FIXME\r
     print &FormatOutput($Options{'o'}, $Newsgroup, $Month, $Postings, 7);\r
   };\r
 };\r
@@ -171,3 +193,283 @@ if (!defined($Options{'b'})  and !defined($Options{'l'})) {
 ### close handles\r
 $DBHandle->disconnect;\r
 \r
+__END__\r
+\r
+################################ Documentation #################################\r
+\r
+=head1 NAME\r
+\r
+groupstats - create reports on newsgroup usage\r
+\r
+=head1 SYNOPSIS\r
+\r
+B<groupstats> [B<-Vhiscqd>] [B<-m> I<YYYY-MM>] [B<-p> I<YYYY-MM:YYYY-MM>] [B<-n> I<newsgroup(s)>] [B<-t> I<threshold>] [B<-l> I<level>] [B<-b> I<number>] [B<-o> I<output type>] [B<-g> I<database table>]\r
+\r
+=head1 REQUIREMENTS\r
+\r
+See doc/README: Perl 5.8.x itself and the following modules from CPAN:\r
+\r
+=over 2\r
+\r
+=item -\r
+\r
+Config::Auto\r
+\r
+=item -\r
+\r
+DBI\r
+\r
+=back\r
+\r
+=head1 DESCRIPTION\r
+\r
+This script create reports on newsgroup usage (number of postings per\r
+group per month) taken from result tables created by\r
+F<gatherstats.pl>.\r
+\r
+The time period to act on defaults to last month; you can assign\r
+another month via the B<-m> switch or a time period via the B<-p>\r
+switch; the latter takes preference.\r
+\r
+B<groupstats> will process all newsgroups by default; you can limit\r
+that to only some newsgroups by supplying a list of those groups via\r
+B<-n> (see below). You can include hierarchy levels in the output by\r
+adding the B<-s> switch (see below).\r
+\r
+Furthermore you can set a threshold via B<-t> so that only newsgroups\r
+with more postings per month will be included in the report. You can\r
+invert that by the B<-i> switch so only newsgroups with less than\r
+I<threshold> postings per month will be included.\r
+\r
+You can sort the output by number of postings per month instead of the\r
+default (alphabetical list of newsgroups) by using B<-q>; you can\r
+reverse the sorting order (from highest to lowest or in reversed\r
+alphabetical order) by using B<-d>.\r
+\r
+Furthermore, you can create a list of newsgroups that had consistently\r
+more (or less) than x postings per month during the whole report\r
+period by using B<-l> (together with B<i> as needed).\r
+\r
+Last but not least you can create a "best of" list of the top x\r
+newsgroups via B<-b> (or a "worst of" list by adding B<i>).\r
+\r
+By default, B<groupstats> will dump a very simple alphabetical list of\r
+newsgroups, one per line, followed by the number of postings in that\r
+month. This output format of course cannot sensibly be combined with\r
+time periods, so you can set the output format by using B<-o> (see\r
+below). Captions can be added by setting the B<-c> switch.\r
+\r
+=head2 Configuration\r
+\r
+F<groupstats.pl> will read its configuration from F<newsstats.conf>\r
+which should be present in the same directory via Config::Auto.\r
+\r
+See doc/INSTALL for an overview of possible configuration options.\r
+\r
+You can override configuration options via the B<-g> switch.\r
+\r
+=head1 OPTIONS\r
+\r
+=over 3\r
+\r
+=item B<-V> (version)\r
+\r
+Print out version and copyright information on B<yapfaq> and exit.\r
+\r
+=item B<-h> (help)\r
+\r
+Print this man page and exit.\r
+\r
+=item B<-m> I<YYYY-MM> (month)\r
+\r
+Set processing period to a month in YYYY-MM format. Ignored if B<-p>\r
+is set.\r
+\r
+=item B<-p> I<YYYY-MM:YYYY-MM> (period)\r
+\r
+Set processing period to a time period between two month, each in\r
+YYYY-MM format, separated by a colon. Overrides B<-m>.\r
+\r
+=item B<-n> I<newsgroup(s)> (newsgroups)\r
+\r
+Limit processing to a certain set of newsgroups. I<newsgroup(s)> can\r
+be a single newsgroup name (de.alt.test), a newsgroup hierarchy\r
+(de.alt.*) or a list of either of these, separated by colons, for\r
+example\r
+\r
+   de.test:de.alt.test:de.newusers.*\r
+\r
+=item B<-t> I<threshold> (threshold)\r
+\r
+Only include newsgroups with more than I<threshold> postings per\r
+month. Can be inverted by the B<-i> switch so that only newsgroups\r
+with less than I<threshold> postings will be included.\r
+\r
+This setting will be ignored if B<-l> or B<-b> is set.\r
+\r
+=item B<-l> I<level> (level)\r
+\r
+Only include newsgroups with more than I<level> postings per\r
+month, every month during the whole reporting period. Can be inverted\r
+by the B<-i> switch so that only newsgroups with less than I<level>\r
+postings every single month will be included. Output will be ordered\r
+by newsgroup name, followed by month.\r
+\r
+This setting will be ignored if B<-b> is set. Overrides B<-t> and\r
+can't be used together with B<-q> or B<-d>.\r
+\r
+=item B<-b> I<n> (best of)\r
+\r
+Create a list of the I<n> newsgroups with the most postings over the\r
+whole reporting period. Can be inverted by the B<-i> switch so that a\r
+list of the I<n> newsgroups with the least postings over the whole\r
+period is generated. Output will be ordered by sum of postings.\r
+\r
+Overrides B<-t> and B<-l> and can't be used together with B<-q> or\r
+B<-d>. Output format is set to I<pretty> (see below).\r
+\r
+=item B<-i> (invert)\r
+\r
+Used in conjunction with B<-t>, B<-l> or B<-b> to set a lower\r
+threshold or level or generate a "bottom list" instead of a top list.\r
+\r
+=item B<-s> (sum per hierarchy level)\r
+\r
+Include "virtual" groups for every hierarchy level in output, for\r
+example:\r
+\r
+    de.alt.ALL 10\r
+    de.alt.test 5\r
+    de.alt.admin 7\r
+\r
+See the B<gatherstats> man page for details.\r
+\r
+=item B<-o> I<output type> (output format)\r
+\r
+Set output format. Default is I<dump>, consisting of an alphabetical\r
+list of newsgroups, each on a new line, followed by the number of\r
+postings in that month. This default format can't be used with time\r
+periods of more than one month.\r
+\r
+I<list> format is like I<dump>, but will print the month in front of\r
+the newsgroup name.\r
+\r
+I<dumpgroup> format can only be use with a group list (see B<-n>) of\r
+exactly one newsgroup and is like I<dump>, but will output months,\r
+followed by the number of postings.\r
+\r
+If you don't need easily parsable output, you'll mostly use I<pretty>\r
+format, which will print a header for each new month and try to align\r
+newsgroup names and posting counts. Usage of B<-b> will force this\r
+format.\r
+\r
+=item B<-c> (captions)\r
+\r
+Add captions to output (reporting period, newsgroups list, threshold).\r
+\r
+=item B<-q> (quantity of postings)\r
+\r
+Sort by number of postings instead of by newsgroup names.\r
+\r
+Cannot be used with B<-l> or B<-b>.\r
+\r
+=item B<-d> (descending)\r
+\r
+Change sort order to descending.\r
+\r
+Cannot be used with B<-l> or B<-b>.\r
+\r
+=item B<-g> I<table> (postings per group table)\r
+\r
+Override I<DBTableGrps> from F<newsstats.conf>.\r
+\r
+=back\r
+\r
+=head1 INSTALLATION\r
+\r
+See doc/INSTALL.\r
+\r
+=head1 EXAMPLES\r
+\r
+Show number of postings per group for lasth month in I<dump> format:\r
+\r
+    groupstats\r
+\r
+Show that report for January of 2010 and de.alt.* plus de.test,\r
+including display of hierarchy levels:\r
+\r
+    groupstats -m 2010-01 -n de.alt.*:de.test -s\r
+\r
+Show that report for the year of 2010 in I<pretty> format:\r
+\r
+    groupstats -p 2010-01:2010-12 -o pretty\r
+\r
+Only show newsgroups with less than 30 postings last month, ordered\r
+by number of postings, descending, in I<pretty> format:\r
+\r
+    groupstats -iqdt 30 -o pretty\r
+\r
+Show top 10 for the first half-year of of 2010 in I<pretty> format:\r
+\r
+    groupstats -p 2010-01:2010-06 -b 10 -o pretty\r
+\r
+Report all groups that had less than 30 postings every singele month\r
+in the year of 2010 (I<pretty> format is forced)\r
+\r
+    groupstats -p 2010-01:2010-12 -il 30\r
+\r
+=head1 FILES\r
+\r
+=over 4\r
+\r
+=item F<groupstats.pl>\r
+\r
+The script itself.\r
+\r
+=item F<NewsStats.pm>\r
+\r
+Library functions for the NewsStats package.\r
+\r
+=item F<newsstats.conf>\r
+\r
+Runtime configuration file for B<yapfaq>.\r
+\r
+=back\r
+\r
+=head1 BUGS\r
+\r
+Please report any bugs or feature requests to the author or use the\r
+bug tracker at L<http://bugs.th-h.de/>!\r
+\r
+=head1 SEE ALSO\r
+\r
+=over 2\r
+\r
+=item -\r
+\r
+doc/README\r
+\r
+=item -\r
+\r
+doc/INSTALL\r
+\r
+=item -\r
+\r
+gatherstats -h\r
+\r
+=back\r
+\r
+This script is part of the B<NewsStats> package.\r
+\r
+=head1 AUTHOR\r
+\r
+Thomas Hochstein <thh@inter.net>\r
+\r
+=head1 COPYRIGHT AND LICENSE\r
+\r
+Copyright (c) 2010 Thomas Hochstein <thh@inter.net>\r
+\r
+This program is free software; you may redistribute it and/or modify it\r
+under the same terms as Perl itself.\r
+\r
+=cut\r
This page took 0.015783 seconds and 4 git commands to generate.